基礎的な統計用語一覧

統計学を学習した際に作成した統計用語のノートです。
下の灰色のボタン(「代表値」「確率」「分布」「検定」「分析」)で絞り込みができます。

    代表値

    相加平均

    確率分布の重心。
    分布のピークが2つある場合は代表値にならない。

    加重平均

    例: 100点満点の試験で数学(2倍)、社会(1倍)の総合評価。

    幾何/相乗/対数平均

    比率の平均値。
    バランスがよければ相加平均と同じになるが、バランスが悪いほど低い値になる。
    使用例: 投資の運用利率(複利)の平均。平均前年比。一桁以上のばらつき(外れ値)があるとき。

    中間項平均

    特異な値を除いた平均。最高値や最低値を除く。
    使用例: 競技の得点。

    中央値

    確率分布の面積を二等分する。
    使用例: 平均年収。飛び抜けたデータがあるときに使う。

    最頻値

    確率分布の山の頂上の横座標。

    変型四捨五入

    5の前の数値が奇数ならば切り上げ、偶数ならば切り下げる。
    通常の四捨五入は平均値が増加するため。

    確率

    記号

    μ: 母集団の平均
    x (上にバー): 標本平均
    σ (上に^): 不偏分散
    σ: 母集団の標準偏差
    s: 標本の標準偏差
    σ2: 母集団の分散
    s2: 標本分散
    C.V.: 変動係数
    H0: 帰無仮説
    H1: 対立仮説

    ベルヌーイ試行

    AかBか、表か裏か、二者択一の試行。
    例: コイントス(袋の中から球を取り出すのは違う)

    分散

    「平均とサンプルの距離の合計」/「サンプル数」
    ひもに繋がれた犬の移動範囲(量)。

    不偏分散

    「平均とサンプルの距離の合計」/ (n - 1)
    1を引く理由: 母集団の分散はサンプルの分散より大きいため。

    自由度

    仮想の個数。自由度を使うことでサンプルの不完全さを補う。
    データ総数(標本サイズ)から制約される数を引く。
    母平均が既知の場合、自由度はデータ数と同じになる。
    母平均が未知の場合、自由度は n - 1 。通常はこちらを使う。

    標準偏差

    各データが平均からどれくらい離れているかを表す。
    分散の1/2乗。
    犬をつないだひもの平均の長さ(ひもの長さ: あるサンプルと平均との差)。
    使用例: 来客数の変動幅

    変動係数

    標準偏差 / 平均(無単位)。
    異なるグループの標準偏差を比較する。
    使用例: サメの体重とメダカの体重の標準偏差を比較。

    歪度(わいど)

    正負の偏りを表す。
    値と平均の差の3乗の和から算出。
    正規分布より左に頂点があるときは正。右に頂点があるときは負。

    尖度

    集中度を表す。
    値と平均の差の4乗の和から算出。
    正規分布より尖った山のときは正。なだらかな山のときは負。

    標準誤差

    回帰式から求められた予測値のばらつきを示す。
    回帰式の精度が良いほど小さい。
    母平均と標本平均の差を見積もった値。
    標本平均の母標準偏差。
    標準偏差 / 標本サイズの平方根
    (不偏標準誤差は 標準偏差 /(「標本サイズ-1」の平方根))

    確率誤差

    偶然に発生する誤差。除外できない。
    ⇔ 系統誤差

    基準化 / 標準化

    平均からの離れ具合やデータの散らばりをもとに点数の価値を検討しやすくする。
    例: 偏差値

    共分散

    2組の対応するデータ間での「平均からの偏差の積」の平均値。
    標準化する前の相関係数(標準的な大きさの異なるデータ間での比較はできない)。
    共分散が正なら2組のデータに相関がある。
    共分散が0ならあまり関係はない。
    共分散が負なら2組のデータに逆の相関がある。

    相関係数

    共分散を標準化したもの。
    0.9以上: 強い相関
    0.5~0.7: 弱い相関

    クラメールの連関係数

    カテゴリデータ版の相関係数。

    確率密度関数

    グラフ化したとき、軌跡と横軸で囲まれた面積が1になる。
    面積 = 確率

    帰無仮説

    「Aである」(対立仮説)と仮定したいときに「Aではない」(帰無仮説)ことを検証する。
    それを否定することで「Aである」と結論付ける。

    有意水準(危険率)

    帰無仮説が正しい確率。

    信頼度

    1 - 有意水準

    P値

    起こった現象の珍しさを表す確率。
    P値が有意水準より小さければ、帰無仮説はPの確率で棄却される。
    変数毎に0と係数との差のt検定を実施し、影響力が0であるという帰無仮説が棄却される際の危険率。
    使用例: 独立変数が回帰分析に有効か判定する。P値 < 0.05なら有意水準5%で有効。

    t値(準標準化変量)

    現状の起きていることが標準偏差の何倍分ずれた出来事なのか評価する値。
    t値の絶対値が大きい(P値が小さい)方がより回帰式への影響が大きい。
    それぞれの説明変数の目的変数に対する影響の大きさを表す。
    t値の絶対値が1.4以上あれば効いている変数と判定できる
    使用例: P値を計算するために使うことがある。t値に対応する累積確率を求めたものがP値。

    カイ2乗値

    標準化したデータの2乗和。
    自由度によってグラフの形が変わる。
    使用例: P値を計算するために使うことがある。

    F値

    標準正規分布に従う2つの母集団から無作為抽出してきた2つのカイ2乗値の比。
    比をとる前にそれぞれのカイ2乗値をそれぞれの自由度で割る。
    同じ母分散を2つの違った方法で推定し、その比をとったもの。
    F値が大きいとき、サンプルは普通でない揺れ幅を持つ。
    重回帰分析では、回帰方程式が有効か判定する。
    F値 < 0.05なら有意水準5%で有効。
    サンプルの分散 × サンプル数 / サンプルの各データから求めた母分散
    使用例: P値を計算するために使うことがある。

    有意F

    帰無仮説の基で偶然によって標本が観測されてしまう確率の上限。
    0.05ならば偶然である確率は5%

    偏回帰係数

    重回帰分析において、他の変数の影響を排除した影響力。
    値が+に大きければ、被説明変数(目的変数)を+に動かす力が大きい。

    標準偏回帰係数

    説明変数の単位やバラツキが異なる場合に偏回帰係数を比較できるよう標準化したもの。

    95%信頼区間

    母回帰が95%で収まる範囲。

    95%予測区間

    95%で収まると予測される範囲。
    使用例: 来客数の予測幅。

    マハラノビスの汎距離

    データの分布の広がりを加味した距離。

    系列相関(自己相関)

    隣り合う残差の関連の状況(指標: ダービン・ワトソン統計量)。
    周期性がある場合は自己相関がある。

    分布

    中心極限定理

    ある程度の標本サイズがあれば、抽出元の母集団が正規分布でない場合も標本平均は正規分布に従う。
    標本サイズが30以上であればほぼ正規分布に一致する。
    μ、σ2の母集団から抽出された標本平均は、母集団が大きければ近似的にN(μ, σ2 / n)に従う。
    (μ : 平均、 σ2 : 分散、 N : 母集団の大きさ、 n : 標本の大きさ)
    標本平均と真の平均との誤差について論じたもの。

    正規分布

    偏った正規分布は横軸を対数目盛にすると正規分布として扱うことができることもある。
    例: 測定誤差のばらつき。葉っぱの大きさや身長のばらつき。

    標準正規分布

    平均0、標準偏差1に標準化された正規分布。

    t分布

    標本数が少ないときの正規分布の代用。
    標本が多いほど正規分布に近づく。標本30以上でだいぶ正規分布に近い。
    標本数が少ないときは、正規分布よりも山が低く裾野が広い。
    片方が標準正規分布に従い、もう片方が自由度nのカイ2乗分布の平方根に従う。
    2つの確率変数の比。
    使用例: 個々の回帰係数の有効性の検定。

    対数正規分布

    この分布に従う確率変数の対数をとったとき、対応する分布が正規分布になる。
    例: 所得の分布。
     日経平均の対数差分(翌日との値の比の対数)が近似的に対数正規分布。
     極端な値動き(株価のテイル)はパレート分布になる。

    パレート分布

    所得の分布をモデリングする分布として提唱された確率分布。
    株価のテイルの分布はフラクタル図形と類似の構造を持つ。

    幾何分布

    初めて成功するまでの試行回数ごとの確率。
    例: 6回サイコロを振った時に1の目が初めて出る確率。

    負の二項分布(パスカル分布)

    n回成功するまでにr回失敗する確率(n=1のときが幾何分布)。
    例: サイコロの1の目が3回出るのは、何回振った場合にどのくらいの確率か。
     セールス勝率2割のセールスマンが1か月に10個売るのは何件目の場合にどれくらいの確率か。

    超幾何分布

    Aがa個、Bがb個の中からn個を取り出した場合に、Aがx個である確率。
    例: N個の製品の中に不良品をM個含むロットから抽出したn個の製品に不良品がx個ある確率。
     52枚のトランプから10枚を選んだ中に含まれるスペードの枚数Xの確率分布。

    二項分布

    2通りの結果を伴う現象を表す分布。
    nが大きくなると正規分布になる。成功確率が1/2に近づくと正規分布に近づく。
    例: n個のサイコロを振って1の目がr回出る確率。コイントス。
    平均 = np 分散 = np(1-p)

    ポアソン分布

    単位時間当たりの生起確率。
    めったに起きない出来事の確率分布(二項分布の近似)。
    nは50以上、Pは0.1以下、平均値npは0~10
    例: 単位時間に平均λ回発生する事象が単位時間にk回発生する確率。
     1時間に平均5人の客が来る店で、1時間にn人来る確率。
     馬に蹴られて死んだ兵士の数。交通事故の発生頻度。
     ある時間帯に銀行に到着する人数。
     機械部品の故障頻度。
    N回に1回の割合でミスをする作業をN回繰り返したとき(np = 1)
     ミスをしない確率: 36.8% 1回ミス: 36.8% 2回: 18.4% 3回: 6.1% 4回: 1.5% 5回: 0.3%

    指数分布

    生起期間の確率。
    例: 死亡するまでの期間。車両が到着する間隔。客が到着するまでの時間。
     故障期間。事故発生間隔。商品販売間隔。

    カイ2乗分布

    正規分布に従う母集団から抽出した標本の不偏分散の分布。
    実測値と期待値がどれだけずれているかを見ることで、偏りがあるか判定する。

    ガンマ分布

    例: 電子部品の寿命分布、通信工学でのトラフィックの待ち時間分布。
    k = 1のとき、平均値Θの指数分布になる。
    kが半整数(n+1/2)でΘ=2のとき、カイ二乗分布になる。

    ワイブル分布

    物体の強度を統計的に記述する。
    使用例: 時間に対する劣化現象、物体の体積と強度との関係を定量的に記述する。

    F分布

    標本数が少ない場合に2種類のデータの分散の比を推定したり、検定するときに利用する。
    2つのカイ2乗分布の比。
    使用例: 回帰式の有効性の検定。

    箱ひげ図

    最大値、最小値を線で、25~75%の範囲を箱で、中央値を十字で表現。

    検定

    カイ2乗検定

    ある集団の標準偏差についての検定。
    片側確率しか問題にしない(上側確率のみで有意水準αとする)。
    使用例: サイコロの出た目の回数に偏りがあるか。月別の売り上げに差があるか。

    イエーツの補正

    期待度数が5未満のセルが全体の20%以上ある場合や2×2のクロス表の場合にカイ2乗値を補正する。
    クロス表のデータは離散的、カイ2乗分布は連続的であるため誤差が出る。
    (|観測度数 - 期待度数| - 0.5)2 / 期待度数

    KS検定

    正規性の検定。
    正規分布に近いほどKS値が小さい。
    使用例: 正規性が仮定できる場合はF検定(等分散性の検定)を行う。
     正規性が仮定できない場合はウィルコクソンの順位和検定を行う。
     等分散性が仮定できるかできないかで異なるt検定を行う。

    ウィルコクソンの順位和検定

    正規性が仮定できない場合の平均値の差の検定。
    データの順序に基づいて検定を行う。質的データに対しても有効。
    サンプルサイズが小さい(27以下)のときは、マン・ホイットニーのU検定。

    t検定

    ある集団の平均値について平均値の差の検定。
    例: 栄養剤に効果があるか、投与しないときと投与したときで比較。
     ある広告を見る前後で商品評価の変化を個人ごとに比較(一対の標本)。
     広告を見た人達、見ていない人達で商品評価の差を比較(分散が等しくないと仮定した2標本)。
     ウナギのいくつかの標本の体重がわかっているとき、全ウナギの平均体重は280gか否か。
     新しい方法を導入して、平均点が従来の70点より上がったか。
    検定条件: 間隔尺度もしくは比率尺度で観測された量的データ。
     両群とも正規分布に従っている。両群の分散が等しい。
     両群の分散が等しくない場合はWelchの方法を使う。
     (分布に偏りがあってもウェルチの方法では第一種の過誤はほぼ0.05をキープする)

    Z検定

    ある集団の平均値についての検定(正規分布を使う場合)。

    F検定(Fは人名Fisher)

    2つの集団の分散の比(等分散性)についての検定。
    片側確率しか問題にしない(上側確率のみで有意水準αとする)。
    使用例: 改良した製品の評価点が高くなったのは、偶然か必然か。
     機械AとBで同じ部品を作るとき、寸法のばらつきはどちらが小さいか。

    ピアソンのカイ2乗検定

    クロス集計表の度数から、表側と表頭の項目が関連しているかを確かめる検定手法。
    カテゴリデータなどから作られたクロス集計表があれば使うことができる。

    シーゲル・テューキー検定

    U検定などのノンパラメトリック検定を行う前に、2群のバラツキが同じかどうか検討する必要がある。
    順位データは分散を検定計算できないため、F検定の代わりにこの検定を使う。
    この検定でバラツキが異なると結論付けられた場合は中央値検定を行う。

    第一種の過誤 / 危険率

    本当は差がないのに差があると誤って判断してしまうこと(空振り)。
    α/2 の確率で起こる。

    第二種の過誤

    本当は差があるのに差がないと誤って判断してしまうこと(見逃し)。

    検出力

    本当に差がある場合に差があると正しく判断できる確率。
    標本サイズが大きいほど大きくなる。目安は0.8以上。

    分析

    分散分析

    3群以上の平均の差についてF検定を実施し、ある要因が実験結果に影響を与えたか検討する手法。
    F = 目的となる要因効果(群間変動)の分散 / 誤差効果(群内変動)の分散
    この分散は、要因・誤差それぞれの不偏分散。
    要因による変動が誤差の変動と同じくらいか小さいとき、要因による効果がないと考える。
    使用例: 無施肥、小施肥、大施肥の効果の比較。
    要因による変動と誤差変動を分離できる。
    変数データが一定間隔で段階的に区分されている場合に用いる。

    一元配置分散分析

    総変動 = 要因による変動 + 誤差効果による変動
    F = 目的となる要因効果(群間変動)の分散 / 誤差効果(群内変動)の分散
    この分散は偏差の平方和を自由度で割った値。
    F値が1以下のとき、要因の効果は誤差に埋もれるほど小さい。
    使用例: 数種類の施肥量について、収穫量に差が出るか検証する。

    総変動

    データ全体の偏差。各データ - 総平均
    自由度: データ数 - 1

    群間変動(目的要因変動)

    違う要因を与えられたグループ間の変動。
    各水準ごとの平均値 - 総平均
    自由度: 水準の数 - 1
    例: 水準0(施肥をしなかったグループの平均値 - 総平均)
     水準1(10の施肥をしたグループの平均値 - 総平均)
     水準2(20の施肥をしたグループの平均値 - 総平均)

    群内変動

    同じ要因を与えられたグループ間の変動。
    各データ - 群平均
    自由度: 総変動の自由度 - 群間変動の自由度

    対応のある多群の一元配置分散分析

    繰り返し実験のない二元配置分散分析と同じ。
    ただし、交互作用は計算できない。
    使用例: 数か所の畑の中で施肥量を徐々に増やし、収穫量の変化を調べる。

    多元配置分散分析

    目的要因が2つ以上ある場合の分散分析。
    各目的要因の効果のほか、相互作用の効果も調べる。

    TypeⅢ平方和

    偏差平方和の計算方法の一種。

    交互作用

    分散分析における目的要因同士の相乗効果。
    1つの目的要因から発生する単独の効果は主効果。
    2つの変数を掛け合わせて交互作用項を作り、もう一つの変数とする方法もある。

    傾向スコア

    興味のある二値の説明変数について「どちらに該当するか」という確率。
    ランダムな条件でサンプリングできないときに使う。
    傾向スコアが同じ集団からサンプリングする。
    例: 「他の条件で言うと煙草を吸わないはずなのになぜか煙草を吸っている人」と
    「他の条件で言うと煙草を吸わないはずだしやっぱり煙草を吸わない人」で比較する。

    実験計画法

    目的となる要因以外からの影響(誤差)を極力排除したデータを取るための実験方法。

    フィッシャーの三大原則

    実験計画法の原則。
    局所管理(小分け)の原則。
    繰り返し(反復)の原則。
    無作為化(ランダム化)の原則。

    局所管理の原則

    時間や空間の実験環境を小分けにする。
    例: 圃場を細かい区画に分割し、区画ごとに施肥量を変化させる。
     → 気象変動による誤差を均一にできる。
     同一ハウス内で水準を変えた実験を小分けに行う。
     → ハウス毎の特性の違いによる誤差を排除できる。

    繰り返しの原則

    水準ごとに実験を反復させ、同じ水準内で2つ以上のデータを確保する。
    例: 4区画に分けられた圃場で4種類の施肥量を与える。
     他にも4区画に分けた圃場を用意し、同様の4種の施肥量で実験する。

    無作為化の原則

    目的要因以外の要因が一定の偏りをもって実験データに影響を与えないよう、実験を無作為に行う。
    例: 圃場を9つの区画に分けた場合、同一の列や行で同じ水準の実験を行わず、ランダムに配置する。
     → 日当り等の要因による影響が各水準に均一に入るようにする。
     時間をずらして同じ計測器で実験する場合は、試験の順番を無作為化する。
     → 時間と共に効果が変化する場合、時間の影響度が偏らないようにする。

    乱塊法

    圃場区間など目的要因以外の要因を均質な群に分け、それを1つの要因として組み込んだ実験法。
    施肥量による収穫量の変化を調べる際、土壌の肥沃さの影響を取り除くことは不可能。
    各区画による影響を1つの要因として実験に組み込む。

    ブロック因子

    乱塊法によって実験に取り入れられた目的要因以外の要因。

    直交計画

    複数の要因や水準による影響の有無を調べる際、最小限の実験数で行うための方法。
    2~3水準かつ特定の交互作用の確認の場合のみに有効。
    要因ごとの交互作用が多い場合には実力を発揮できない。
    要因1: 気温(20℃、30℃)
    要因2: 日照時間(6時間、10時間)
    要因3: 給水量(50㏄、100㏄)
    要因4: 施肥量(10g、20g)
    この場合はL8型直交配列を使う。

    最小2乗法

    要因xと結果yの関係を単回帰式で表すための手法。
    データとy=ax+bの距離の2乗の合計が最小となるようなa,bの値を計算する。

    重相関係数

    1に近いほど回帰式の精度が良い。

    決定係数 / 寄与率

    重相関係数の2乗。1に近いほど回帰式の精度が良い。
    (予測値の分散) / (実測値の分散)
    (実測値の分散) = (予測値の分散)+(残差の分散)

    自由度調整済み寄与率

    寄与率の欠点を補ったもの。
    クロスセクション(横断面)データは0.5以上が目安。
    タイムシリーズ(時系列)データは0.7以上が目安。

    多重共線性

    説明変数同士に高い相関関係があると重回帰分析がうまくいかない。
    VIF(分散拡大要因)が10を超える変数は使わない。5以下が望ましい。
    主成分得点を利用すれば、相関のある変数同士を1つにまとめられる。

    クロスセクション・データ

    横断面的なデータ。
    例: 2010年の各農家の所得。

    タイムシリーズ・データ

    時系列的なデータ。
    例: 2006~2010年のある農家の所得。

    パネル・データ

    クロスセクションデータとタイムシリーズデータを合わせたもの。
    例: 各農家の5年間の所得。

    プールデータ

    例: 各農家の5年間の所得(どの農家のデータかは不明)。

    リッカート・スケール

    アンケートなどで使われる心理検査的回答尺度。
    例: そう思う、どちらとも言えない、そう思わない。

    数量化Ⅰ類

    被説明変数が量的データ、説明変数が質的データの場合に用いる簡易型の重回帰分析。

    ロジスティック回帰分析

    被説明変数が質的データ、説明変数が量的データの重回帰分析。
    最尤法の場合、最尤推定値を求める。
    例: ある現象が起こる確率。

    対数線形モデル

    被説明変数、説明変数共に質的データの場合の重回帰分析。
    3次元以上の独立性の検定。

    決定木 / 多段層別分析

    いくつかの説明変数を階層的に組み合わせることで、被説明変数(大抵は2値変数)を分類する。

    主成分分析

    総合力トップを選出するための分析手法。
    たくさんの変数(量的データ)から、標本の性質をよく説明するような少数の変数を合成する。
    主成分得点を利用すれば、相関のある変数同士を1つにまとめられる。
    分析で得られる標本の得点を他の多変量解析で利用することも多い。
    2~3の主成分得点を重回帰分析に用いれば、多重共線性を回避したモデルを推定することができる。

    第1主成分

    データの分散が一番大きなところを通る軸。
    使用する主成分は少ない方が良い。
    目安は累積寄与率70%以上。

    第2主成分

    第1主成分に直行し、かつデータの分散が2番目に大きなところを通る軸。

    主成分負荷量

    観測変数の主成分への影響度。 観測変数と主成分との相関係数。
    固有ベクトル × 固有値(主成分の分散)の平方根。
    複数の観測変数に対してちょうどよい係数を与えて、主成分という新しい変数を合成する。

    主成分得点

    標準化したデータ × 固有ベクトル。

    因子分析

    観測変数に共通する因子を探し出す手法。
    主成分分析は観測変数から主成分を合成する手法。
    潜在的な共通因子を発見する。
    観測された変量を、共通因子による部分と独自因子による部分とに分解する手法。
    例: 国語の成績は共通因子: 知能と、国語独自因子に分解できる。
     数学の成績は共通因子: 知能と、数学独自因子に分解できる。

    共通性

    各観測変数が持つ分散のうち共通因子によって説明される割合。
    変数がもつ因子負荷量の2乗和になる。

    直交回転(因子分析)

    因子間の相関はないと仮定し、複数の因子軸を直交させたまま回転させる方法。
    直交回転させる場合はバリマックス法がお勧め。

    斜交回転(因子分析)

    因子間になんらかの相関があるものとして、複数の因子軸を別々に回転させる方法。
    通常は因子間に相関がないという根拠はないため、斜交回転の1つであるプロマックス法を使う。

    判別分析

    いくつかの既知のグループがあるとき、ある標本がどのグループに属するのかを推測する。
    説明変数は量的データ。事前に定義されたグループのどれに属するのかを判別・分類していく。
    使用例: 捕まえた珍しい昆虫が蝶なのか蛾なのか判別する。

    判別的中率

    判別分析による判別の精度。

    数量化Ⅱ類

    被説明変数、説明変数共に質的データ版の判別分析。

    クラスター分析

    標本を似ている同士でまとめていき、いくつかのグループに分類する(変数の分類にも使われる)。
    事前のグループ情報なしで個体相互の類似度もしくは非類似度から任意のグループ数に分類する。
    クラスターの作り方と分類の対象によって4種類の分析がある。
     (クラスター: 階層型、非階層型、 分類の対象 : 個体、変数(個体の持つ属性))
    グループが何を意味するかは分類者が後で解釈する。
    使用例: 同じクラスターに入っていない変数を選べば重回帰分析の多重共線性を回避できる。
     事前調査に対してクラスター分析を行い、本アンケートの質問項目を減らす。

    樹形図

    クラスター分析の結果を図示したもの。
    縦軸は個体、横軸はクラスター間の距離を表す。

    コレスポンデンス分析

    質的データを簡単に扱えるようにした主成分分析。

    多次元尺度(構成法)

    質的変数から標本に何らかの類似度を定義して、平面図にマッピングする。

    フーリエ解析

    波形からスペクトルを求める。
    時系列データを周波数に変換する。
    波形を周波数スペクトルに分解。
    使用例: 声に含まれる周波数の分析。

    周波数スペクトル

    周波数成分がどのくらいの強さで混ざり合っているかをグラフ化したもの。

    First Fourier Transform

    三角関数を使ったフーリエ変換。

    パスカルの三角形

    二項展開、組み合わせの数で使うと便利。

    スタージェスの公式(ヒストグラムのクラス数)

    log2n + 1

    ベイズの定理

    頻度論と対を成す。迷惑メールの判別に活用されている。
    限られた情報と仮定を組み合わせ、データ不足の補足や効率性を重視するならベイズ。
    データが十分で可能な限り正確に求めたいなら頻度論でp値を求める。

    ARモデル / AIC(赤池情報量規準)

    AICが小さいほど良いとされる。
    回帰分析では説明変数を増やすほど残差が小さくなるため、不要な説明変数を除くのに有効。

    ロジスティック曲線

    孤島の動物の増殖、耐久消費財の普及率、流行商品の累計販売数などを表現する曲線。

    ゴンペルツ曲線

    年齢と死亡者数などを表現する曲線。

    移動平均

    使用例: 時系列データの誤差を消す。
    n時点移動平均を取ると、誤差の大きさは(1/√n)になる。
    nと誤差の大きさ、失われるデータの数。
    n=2 0.612 -2個
    n=3 0.577 -2個
    n=4 0.468 -4個
    n=5 0.447 -4個
    n=6 0.391 -6個
    n=7 0.378 -6個
    n=8 0.342 -8個
    n=9 0.333 -8個
    →移動平均を取るなら3,5,7時点くらいが良い。
    値の変化が直線的でない場合、移動平均を取ると値がずれやすくなる(時点数は小さい方が良い)。

    振幅の縮小率

    1周期がN時点の周期変動にn時点移動平均を施した時の振幅の縮小率。
    n/Nが整数のとき、移動平均の振幅は0になる。
    ⇒周期変動を消去する事ができる。
    使用例: 一つの周期変動を消すことで、別の周期変動を浮かび上がらせる。
     移動平均後のグラフの振幅に縮小率の逆数を掛け、本当の振幅を計算する。

    周期変動の発見(コレログラム)

    時系列データを1時点だけずらして、元のデータとの相関係数(自己相関係数)をとる。
    時系列データを2時点だけずらして、元のデータとの相関係数をとる。
    ・・・繰り返し。
    横軸をずらした時点数、縦軸を自己相関としてグラフに描くと、顕著な周期がピークとして現れる。
    使用例: 発見した顕著な周期の移動平均をとり、別の隠れた周期変動を発見する。

    フーリエ解析(時系列データの周期性)

    データ数の制限: 2のn乗個。
    解析結果の絶対値が周波数成分の強さを表す。
    複素数の絶対値はIMABS関数で求める「=imabs( )」。
    表示されたもののうち、ナイキスト周波数までの解析結果が正しい。
    ナイキスト周波数 = 元データのデータ数 / 元データの時間幅(秒)/ 2

    連関比率法

    連関比率は月ごとに前月に対する変化率を計算し、その前月比の平均値を季節変動値とみなす方法。
    季節的な要因による影響を除去する季節指数を計算できる。

    その他

    待ち行列

    窓口が倍、列も2列になった場合、待ち時間は80%改善、ターンアラウンドタイムは67%改善。
    サービス時間が半分になった場合、待ち時間は90%改善、ターンアラウンドタイムは83%改善。
    列は1列で窓口が倍になった場合、待ち時間は95%改善、ターンアラウンドタイムは76%改善。

    リトルの公式

    待ち時間 = 行列の総人数 / 1分間に加わった人数
    (行列の長さが平衡状態になっている条件下のみ)

    待ち時間を短く感じさせる工夫

    ・看板で待ち時間を表示する。
    ・整理券を配布し、指定した時間に行くと優先的に案内される。
    ・webで全てのアトラクションの待ち時間を表示する。
    ・通路を1メートル幅にし、少しずつ進ませる。
    ・待っている人が楽しめる工夫。
     キャラクターとの触れ合い、ガラス張りで製造過程を見せる。
    ・割り込みや追い抜きができないように並ばせる。
    ・真っ直ぐな行列より、曲がった行列の方が待ち時間を短く感じる。
     景色が変わったり人と会ったり、処理する情報が多くなるため。

    充実時程錯覚

    ゆっくり流れる景色やゆっくりな映像を見ていると時間を短く感じる。
    タクシーよりバスの方が視点が高く遠くが見えるため、景色もゆっくりと流れる。

    豆知識

    千円札の横は15cm
    千円札の1000の縦幅は1cm
    五円玉の穴の直径は5mm
    50円玉の穴の直径は4mm
    50円玉は1枚4g
    名刺は縦9cm、横5.5cm
    人が肩を触れずに横に並ぶと、1人当り50cm
    巻いてあるカーペットの長さ: 横から見た円の面積=カーペットの厚さ×長さ
    25×16=5×5×4×4=20×20
    どちらの数字も10から20の場合
     14 × 17 =(14 + 7)× 10 + 4 × 7
    成功の確率をP、成功したときのうれしさを-log2Pと表す。
    平均的に最大にしようとすると、P = 1 / e = 0.3678 がベスト。
    締切まであとT日ある日に登録する人の数は、1/Tに比例する

    じゃんけん

    初手はパーがいい。(最初はパーとグーが多い)
    あいこになったら、次は負ける手を出す。(同じ手を続けて出す人は少ない)

    渋滞時の車の量

    走行車線: 中央車線: 追越車線 = 25: 35: 40