基礎的な統計用語一覧

統計学を学習した際に作成した統計用語のノートです。
下の灰色のボタン(「代表値」「確率」「分布」「検定」「分析」)で絞り込みができます。

    代表値

    相加平均

    確率分布の重心。
    分布のピークが2つある場合は代表値にならない。

    加重平均

    例: 100点満点の試験で数学(2倍)、社会(1倍)の総合評価。

    幾何/相乗/対数平均

    比率の平均値。
    バランスがよければ相加平均と同じになるが、バランスが悪いほど低い値になる。
    使用例: 投資の運用利率(複利)の平均。平均前年比。一桁以上のばらつき(外れ値)があるとき。

    中間項平均

    特異な値を除いた平均。最高値や最低値を除く。
    使用例: 競技の得点。

    中央値

    確率分布の面積を二等分する。
    使用例: 平均年収。飛び抜けたデータがあるときに使う。

    最頻値

    確率分布の山の頂上の横座標。

    変型四捨五入

    5の前の数値が奇数ならば切り上げ、偶数ならば切り下げる。
    通常の四捨五入は平均値が増加するため。

    確率

    記号

    μ: 母集団の平均
    x (上にバー): 標本平均
    σ (上に^): 不偏分散
    σ: 母集団の標準偏差
    s: 標本の標準偏差
    σ2: 母集団の分散
    s2: 標本分散
    C.V.: 変動係数
    H0: 帰無仮説
    H1: 対立仮説

    ベルヌーイ試行

    AかBか、表か裏か、二者択一の試行。
    例: コイントス(袋の中から球を取り出すのは違う)

    分散

    「平均とサンプルの距離の合計」/「サンプル数」
    ひもに繋がれた犬の移動範囲(量)。

    不偏分散

    「平均とサンプルの距離の合計」/ (n - 1)
    1を引く理由: 母集団の分散はサンプルの分散より大きいため。

    自由度

    仮想の個数。自由度を使うことでサンプルの不完全さを補う。
    データ総数(標本サイズ)から制約される数を引く。
    母平均が既知の場合、自由度はデータ数と同じになる。
    母平均が未知の場合、自由度は n - 1 。通常はこちらを使う。

    標準偏差

    各データが平均からどれくらい離れているかを表す。
    分散の1/2乗。
    犬をつないだひもの平均の長さ(ひもの長さ: あるサンプルと平均との差)。
    使用例: 来客数の変動幅

    変動係数

    標準偏差 / 平均(無単位)。
    異なるグループの標準偏差を比較する。
    使用例: サメの体重とメダカの体重の標準偏差を比較。

    歪度(わいど)

    正負の偏りを表す。
    値と平均の差の3乗の和から算出。
    正規分布より左に頂点があるときは正。右に頂点があるときは負。

    尖度

    集中度を表す。
    値と平均の差の4乗の和から算出。
    正規分布より尖った山のときは正。なだらかな山のときは負。

    標準誤差

    回帰式から求められた予測値のばらつきを示す。
    回帰式の精度が良いほど小さい。
    母平均と標本平均の差を見積もった値。
    標本平均の母標準偏差。
    標準偏差 / 標本サイズの平方根
    (不偏標準誤差は 標準偏差 /(「標本サイズ-1」の平方根))

    確率誤差

    偶然に発生する誤差。除外できない。
    ⇔ 系統誤差

    平均絶対誤差率(MAPE)

    Mean Absolute Percentage Error
    予測値と実測値の乖離を%で表す。
    データの尺度に依存しない誤差の指標。
    モデルの性能の比較に使う。小さいほど良いモデル。
    実測値が0のときは平均二乗誤差(MSE)を使う。
    MSEが小さいほど性能が良いモデル。

    pythonでのMAPEの計算方法
    # kansoku : 観測値(実測値)の時系列データ
    # jissoku : 実測値の時系列データ
    import numpy as np
    print(np.mean(np.abs((jissoku - yosoku) / jissoku)) * 100)

    pythonでのMSEの計算方法
    from sklearn.metrics import mean_squared_error
    print(mean_squared_error(jissoku, yosoku))

    基準化 / 標準化

    平均からの離れ具合やデータの散らばりをもとに点数の価値を検討しやすくする。
    例:
     偏差値(平均50、標準偏差10の正規分布に揃えたデータ)
     IQ(平均100、標準偏差15または24)

    共分散

    2組の対応するデータ間での「平均からの偏差の積」の平均値。
    標準化する前の相関係数(標準的な大きさの異なるデータ間での比較はできない)。
    共分散が正なら2組のデータに相関がある。
    共分散が0ならあまり関係はない。
    共分散が負なら2組のデータに逆の相関がある。

    相関係数

    共分散を標準化したもの。
    強い相関 : 0.7以上
    弱い相関 : 0.2~0.4

    クラメールの連関係数

    カテゴリデータ版の相関係数。

    確率密度関数

    グラフ化したとき、軌跡と横軸で囲まれた面積が1になる。
    面積 = 確率

    帰無仮説

    「Aである」(対立仮説)と仮定したいときに「Aではない」(帰無仮説)ことを検証する。
    それを否定することで「Aである」と結論付ける。

    有意水準(危険率)

    帰無仮説が正しい確率。

    信頼度

    1 - 有意水準

    P値

    起こった現象の珍しさを表す確率。
    P値が有意水準より小さければ、帰無仮説はPの確率で棄却される。
    変数毎に0と係数との差のt検定を実施し、影響力が0であるという帰無仮説が棄却される際の危険率。
    使用例: 独立変数が回帰分析に有効か判定する。P値 < 0.05なら有意水準5%で有効。

    t値(準標準化変量)

    現状の起きていることが標準偏差の何倍分ずれた出来事なのか評価する値。
    t値の絶対値が大きい(P値が小さい)方がより回帰式への影響が大きい。
    それぞれの説明変数の目的変数に対する影響の大きさを表す。
    t値の絶対値が1.4以上あれば効いている変数と判定できる
    使用例: P値を計算するために使うことがある。t値に対応する累積確率を求めたものがP値。

    カイ2乗値

    標準化したデータの2乗和。
    自由度によってグラフの形が変わる。
    使用例: P値を計算するために使うことがある。

    F値

    標準正規分布に従う2つの母集団から無作為抽出してきた2つのカイ2乗値の比。
    比をとる前にそれぞれのカイ2乗値をそれぞれの自由度で割る。
    同じ母分散を2つの違った方法で推定し、その比をとったもの。
    F値が大きいとき、サンプルは普通でない揺れ幅を持つ。
    重回帰分析では、回帰方程式が有効か判定する。
    F値 < 0.05なら有意水準5%で有効。
    サンプルの分散 × サンプル数 / サンプルの各データから求めた母分散
    使用例: P値を計算するために使うことがある。

    有意F

    帰無仮説の基で偶然によって標本が観測されてしまう確率の上限。
    0.05ならば偶然である確率は5%

    偏回帰係数

    重回帰分析において、他の変数の影響を排除した影響力。
    値が+に大きければ、被説明変数(目的変数)を+に動かす力が大きい。

    標準偏回帰係数

    説明変数の単位やバラツキが異なる場合に偏回帰係数を比較できるよう標準化したもの。

    95%信頼区間

    母回帰が95%で収まる範囲。

    95%予測区間

    95%で収まると予測される範囲。
    使用例: 来客数の予測幅。

    マハラノビスの汎距離

    データの分布の広がりを加味した距離。

    系列相関(自己相関)

    隣り合う残差の関連の状況(指標: ダービン・ワトソン統計量)。
    周期性がある場合は自己相関がある。

    自己相関関数(ACF)

    Auto Correlation Function
    時系列の値と、時間をずらした値の線形関係の度合い。
    ACFはラグの大きさによる2つの値の相関関係の変化を表す。

    pythonでACFをプロットする方法
    from statsmodels.graphics.tsaplots import plot_acf
    # data : 時系列データ
    # lags : x軸の範囲を決めるラグの個数
    plot_act(data, lags=30)
    plt.tight_layout()

    表示される影の領域は信頼区間。プロットがこの区間の外にあれば自己相関係数が有意
    ラグとは、参照する過去のデータ数
    ラグqまで係数が有意でその後突然小さくなる場合、次数qのMAプロセス
    プロットが指数関数的に減衰している場合、自己回帰プロセスの兆候

    データの1次差分を計算する方法
    import numpy as np
    # data : 時系列データ # n : 差分を取る次数 diff_randam_walk = np.diff(data, n=1)

    偏自己相関関数(PACF)

    Partial AutoCorrelation function
    偏自己相関 :
    時系列のある値とラグ(何個か前の過去データ)を取った値との相関から中間の相関の影響を取り除いた相関
    時系列の値が前の時間の値に依存する場合、ACFでは自己相関を正確に計測できない。
    定常なAR(p)プロセスの次数を特定したいときに使う。
    PACFをプロットして、ラグ3まで有意な係数だった場合はAR(3)

    分布

    中心極限定理

    自然界のばらつきは誤差の積み重ねでできているという考え方。
    ある程度の標本サイズがあれば、抽出元の母集団が正規分布でない場合も標本平均は正規分布に従う。
    標本サイズが30以上であればほぼ正規分布に一致する。
    μ、σ2の母集団から抽出された標本平均は、母集団が大きければ近似的にN(μ, σ2 / n)に従う。
    (μ : 平均、 σ2 : 分散、 N : 母集団の大きさ、 n : 標本の大きさ)
    標本平均と真の平均との誤差について論じたもの。

    正規分布(ガウス分布)

    平均値付近のことがよく起こり、平均から離れるほど起こりにくい分布。
    自然界でよくみられる。

    平均 ± 標準偏差 の範囲に68.2%(片側15.9%)
    平均 ± 標準偏差 * 2 の範囲に95.4%(片側2.3%)
    平均 ± 標準偏差 * 3 の範囲に99.68%(片側0.16%)
    のデータが入る。

    偏った正規分布は横軸を対数目盛にすると正規分布として扱うことができることもある。
    例: 測定誤差のばらつき。葉っぱの大きさや身長のばらつき。

    標準正規分布

    平均0、標準偏差1に標準化された正規分布。

    カーネル密度推計

    データの分布を表現する曲線の1つ。
    正規分布と比較するときによく使う。

    t分布

    標本数が少ないときの正規分布の代用。
    標本が多いほど正規分布に近づく。標本30以上でだいぶ正規分布に近い。
    標本数が少ないときは、正規分布よりも山が低く裾野が広い。
    片方が標準正規分布に従い、もう片方が自由度nのカイ2乗分布の平方根に従う。
    2つの確率変数の比。
    使用例: 個々の回帰係数の有効性の検定。

    対数正規分布

    この分布に従う確率変数の対数をとったとき、対応する分布が正規分布になる。
    例: 所得の分布。
     日経平均の対数差分(翌日との値の比の対数)が近似的に対数正規分布。
     極端な値動き(株価のテイル)はパレート分布になる。

    パレート分布

    所得の分布をモデリングする分布として提唱された確率分布。
    株価のテイルの分布はフラクタル図形と類似の構造を持つ。

    幾何分布

    初めて成功するまでの試行回数ごとの確率。
    例: 6回サイコロを振った時に1の目が初めて出る確率。

    負の二項分布(パスカル分布)

    n回成功するまでにr回失敗する確率(n=1のときが幾何分布)。
    例: サイコロの1の目が3回出るのは、何回振った場合にどのくらいの確率か。
     セールス勝率2割のセールスマンが1か月に10個売るのは何件目の場合にどれくらいの確率か。

    超幾何分布

    Aがa個、Bがb個の中からn個を取り出した場合に、Aがx個である確率。
    例: N個の製品の中に不良品をM個含むロットから抽出したn個の製品に不良品がx個ある確率。
     52枚のトランプから10枚を選んだ中に含まれるスペードの枚数Xの確率分布。

    二項分布

    2通りの結果を伴う現象を表す分布。
    nが大きくなると正規分布になる。成功確率が1/2に近づくと正規分布に近づく。
    例: n個のサイコロを振って1の目がr回出る確率。コイントス。
    平均 = np 分散 = np(1-p)

    ポアソン分布

    単位時間当たりの生起確率。
    めったに起きない出来事の確率分布(二項分布の近似)。
    nは50以上、Pは0.1以下、平均値npは0~10
    例: 単位時間に平均λ回発生する事象が単位時間にk回発生する確率。
     1時間に平均5人の客が来る店で、1時間にn人来る確率。
     馬に蹴られて死んだ兵士の数。交通事故の発生頻度。
     ある時間帯に銀行に到着する人数。
     機械部品の故障頻度。
    N回に1回の割合でミスをする作業をN回繰り返したとき(np = 1)
     ミスをしない確率: 36.8% 1回ミス: 36.8% 2回: 18.4% 3回: 6.1% 4回: 1.5% 5回: 0.3%

    指数分布

    生起期間の確率。
    例: 死亡するまでの期間。車両が到着する間隔。客が到着するまでの時間。
     故障期間。事故発生間隔。商品販売間隔。

    カイ2乗分布

    正規分布に従う母集団から抽出した標本の不偏分散の分布。
    実測値と期待値がどれだけずれているかを見ることで、偏りがあるか判定する。

    ガンマ分布

    例: 電子部品の寿命分布、通信工学でのトラフィックの待ち時間分布。
    k = 1のとき、平均値Θの指数分布になる。
    kが半整数(n+1/2)でΘ=2のとき、カイ二乗分布になる。

    ワイブル分布

    物体の強度を統計的に記述する。
    使用例: 時間に対する劣化現象、物体の体積と強度との関係を定量的に記述する。

    F分布

    標本数が少ない場合に2種類のデータの分散の比を推定したり、検定するときに利用する。
    2つのカイ2乗分布の比。
    使用例: 回帰式の有効性の検定。

    箱ひげ図

    最大値、最小値を線で、25~75%の範囲を箱で、中央値を十字で、外れ値を点で表現。
    (外れ値を点で表すときは、外れ値以外の最大・最小値を線で表す)
    75%ライン : 第3四分位数
    50%ライン : 中央値
    25%ライン : 第1四分位数
    外れ値 : 判断に絶対的な基準はない
     よく使われる外れ値の基準
      平均 ± 標準偏差 * 3
      第3四分位数 +(第3四分位数 - 第1四分位数)* 1.5
      第1四分位数 - (第3四分位数 - 第1四分位数)* 1.5

    検定

    カイ2乗検定

    ある集団の標準偏差についての検定。
    片側確率しか問題にしない(上側確率のみで有意水準αとする)。
    使用例: サイコロの出た目の回数に偏りがあるか。月別の売り上げに差があるか。

    イエーツの補正

    期待度数が5未満のセルが全体の20%以上ある場合や2×2のクロス表の場合にカイ2乗値を補正する。
    クロス表のデータは離散的、カイ2乗分布は連続的であるため誤差が出る。
    (|観測度数 - 期待度数| - 0.5)2 / 期待度数

    KS検定

    正規性の検定。
    正規分布に近いほどKS値が小さい。
    使用例: 正規性が仮定できる場合はF検定(等分散性の検定)を行う。
     正規性が仮定できない場合はウィルコクソンの順位和検定を行う。
     等分散性が仮定できるかできないかで異なるt検定を行う。

    ウィルコクソンの順位和検定

    正規性が仮定できない場合の平均値の差の検定。
    データの順序に基づいて検定を行う。質的データに対しても有効。
    サンプルサイズが小さい(27以下)のときは、マン・ホイットニーのU検定。

    t検定

    ある集団の平均値について平均値の差の検定。
    例: 栄養剤に効果があるか、投与しないときと投与したときで比較。
     ある広告を見る前後で商品評価の変化を個人ごとに比較(一対の標本)。
     広告を見た人達、見ていない人達で商品評価の差を比較(分散が等しくないと仮定した2標本)。
     ウナギのいくつかの標本の体重がわかっているとき、全ウナギの平均体重は280gか否か。
     新しい方法を導入して、平均点が従来の70点より上がったか。
    検定条件: 間隔尺度もしくは比率尺度で観測された量的データ。
     両群とも正規分布に従っている。両群の分散が等しい。
     両群の分散が等しくない場合はWelchの方法を使う。
     (分布に偏りがあってもウェルチの方法では第一種の過誤はほぼ0.05をキープする)

    Z検定

    ある集団の平均値についての検定(正規分布を使う場合)。

    F検定(Fは人名Fisher)

    2つの集団の分散の比(等分散性)についての検定。
    片側確率しか問題にしない(上側確率のみで有意水準αとする)。
    使用例: 改良した製品の評価点が高くなったのは、偶然か必然か。
     機械AとBで同じ部品を作るとき、寸法のばらつきはどちらが小さいか。

    ピアソンのカイ2乗検定

    クロス集計表の度数から、表側と表頭の項目が関連しているかを確かめる検定手法。
    カテゴリデータなどから作られたクロス集計表があれば使うことができる。

    シーゲル・テューキー検定

    U検定などのノンパラメトリック検定を行う前に、2群のバラツキが同じかどうか検討する必要がある。
    順位データは分散を検定計算できないため、F検定の代わりにこの検定を使う。
    この検定でバラツキが異なると結論付けられた場合は中央値検定を行う。

    第一種の過誤 / 危険率

    本当は差がないのに差があると誤って判断してしまうこと(空振り)。
    α/2 の確率で起こる。

    第二種の過誤

    本当は差があるのに差がないと誤って判断してしまうこと(見逃し)。

    検出力

    本当に差がある場合に差があると正しく判断できる確率。
    標本サイズが大きいほど大きくなる。目安は0.8以上。

    拡張ディッキー・フラー検定(ADF)

    Augmented Dickey-Fuller
    単位根の存在をテストし、時系列が定常かどうか検定する。
    単位根が存在する場合は定常ではない。
    (単位根が存在する=定常でないという帰無仮説を棄却できるか検定する)
    ADF統計量が大きな負でp値が0.05未満なら定常。

    定常でない時は、データの差分を取って再度定常となるか検証する。
    定常ならACF(自己相関関数)をプロットする。
      自己相関がなければ、ランダムウォーク
      ラグqの後に有意な自己相関係数がなくなれば、MA(q)プロセス
      自己相関係数がなくならなければ、MAプロセスではない(ゆっくりと減衰していればARプロセスの兆候)
    偏自己相関関数(PACF)をプロットする。
      ラグpの後に有意な係数がなくなれば、AR(p)プロセス
      なくならなければ、ARプロセスではない(ARMAプロセス)

    pythonでADF統計量を計算する方法
    from statsmodels.tsa.stattools import adfuller
    # data : 時系列データ
    ADF_result = adfuller(data)
    # ADF統計量
    print(ADF_result[0])
    # p値
    print(ADF_result[1])

    Q-Q(quantile-quantile)プロット

    残差の定性分析。
    モデルの残差が正規分布に従っているという仮説を散布図で検証する。

    2つの分布の分位数を相互にプロットしたもの。
    x軸に正規分布を、y軸に残差の分布をプロットする。
    y=xの直線上に並ぶ場合はデータが理論分布に揃っている。
    (残差がホワイトノイズに似ており、モデルがデータに適合している)。
    S字カーブになる時は尖度が理論分布と異なる。
    上下に凸がある場合はデータの歪度が理論分布と異なる。
    直線から外れていれば外れ値の存在を示唆する。

    リュング・ボックス検定

    残差の定量分析。
    残差が無相関か調べる。
    データグループの自己相関に0からの有意差があるかどうかをテストする。
    (帰無仮説は「データの分布が独立していて自己相関がない」)
    p値が0.05より大きい場合、自己相関は無く、残差はホワイトノイズに似ている。

    赤池情報量基準(AIC)

    他のモデルを基準としてモデルの品質を推定する。
    モデルをデータに適合させると情報が一部失われる。
    失われる情報が少ないほどAICの値は小さくなる。

    各モデルの相対的な評価を行い、モデルの選択に使われる。
    モデルのパラメータの個数と尤度関数の最大値の関数。
    (パラメータの個数が多いほどAICは大きく、尤度関数の最大値が大きいほどAICは小さい)
    AICの値が小さいほどモデルの性能が良い。

    尤度関数

    データが特定の確率モデルから生成された可能性を表す関数。
    観測されたあるデータが特定のパラメータを持つモデルから生じたもっともらしさを数値化したもの。
    最尤推定では、観測データに対して尤度関数が最大となるパラメータを求める。
    特定のデータを観測する確率を表す確率分布関数とは逆のロジック。
    様々なモデルパラメータによって、ある観測データが生成される可能性を推定する。
    例 : サイコロ振った結果から、サイコロの面が6つである可能性がどれくらいあるかを推定する。

    グレンジャー因果性検定

    Granger causality
    ある時系列がもう1つの時系列を予測するための説明変数となっているか判断する。
    相互にグレンジャー因果性検定をパスできなければベクトル自己回帰モデル:VAR(p)を使わない。

    分析

    PPDACサイクル

    1. Problem
      問題の明確化
      原因の仮説
    2. Plan
      必要なデータの想定
      データ収集の計画
    3. Data
      データの用意
      データの欠陥調査
    4. Analysis
      データの要約(代表値、標準偏差など)
      データの傾向と法則(相関関係など)
    5. Conclusion
      結論

    分散分析

    3群以上の平均の差についてF検定を実施し、ある要因が実験結果に影響を与えたか検討する手法。
    F = 目的となる要因効果(群間変動)の分散 / 誤差効果(群内変動)の分散
    この分散は、要因・誤差それぞれの不偏分散。
    要因による変動が誤差の変動と同じくらいか小さいとき、要因による効果がないと考える。
    使用例: 無施肥、小施肥、大施肥の効果の比較。
    要因による変動と誤差変動を分離できる。
    変数データが一定間隔で段階的に区分されている場合に用いる。

    一元配置分散分析

    総変動 = 要因による変動 + 誤差効果による変動
    F = 目的となる要因効果(群間変動)の分散 / 誤差効果(群内変動)の分散
    この分散は偏差の平方和を自由度で割った値。
    F値が1以下のとき、要因の効果は誤差に埋もれるほど小さい。
    使用例: 数種類の施肥量について、収穫量に差が出るか検証する。

    総変動

    データ全体の偏差。各データ - 総平均
    自由度: データ数 - 1

    群間変動(目的要因変動)

    違う要因を与えられたグループ間の変動。
    各水準ごとの平均値 - 総平均
    自由度: 水準の数 - 1
    例: 水準0(施肥をしなかったグループの平均値 - 総平均)
     水準1(10の施肥をしたグループの平均値 - 総平均)
     水準2(20の施肥をしたグループの平均値 - 総平均)

    群内変動

    同じ要因を与えられたグループ間の変動。
    各データ - 群平均
    自由度: 総変動の自由度 - 群間変動の自由度

    対応のある多群の一元配置分散分析

    繰り返し実験のない二元配置分散分析と同じ。
    ただし、交互作用は計算できない。
    使用例: 数か所の畑の中で施肥量を徐々に増やし、収穫量の変化を調べる。

    多元配置分散分析

    目的要因が2つ以上ある場合の分散分析。
    各目的要因の効果のほか、相互作用の効果も調べる。

    TypeⅢ平方和

    偏差平方和の計算方法の一種。

    交互作用

    分散分析における目的要因同士の相乗効果。
    1つの目的要因から発生する単独の効果は主効果。
    2つの変数を掛け合わせて交互作用項を作り、もう一つの変数とする方法もある。

    傾向スコア

    興味のある二値の説明変数について「どちらに該当するか」という確率。
    ランダムな条件でサンプリングできないときに使う。
    傾向スコアが同じ集団からサンプリングする。
    例: 「他の条件で言うと煙草を吸わないはずなのになぜか煙草を吸っている人」と
    「他の条件で言うと煙草を吸わないはずだしやっぱり煙草を吸わない人」で比較する。

    実験計画法

    目的となる要因以外からの影響(誤差)を極力排除したデータを取るための実験方法。

    フィッシャーの三大原則

    実験計画法の原則。
    局所管理(小分け)の原則。
    繰り返し(反復)の原則。
    無作為化(ランダム化)の原則。

    局所管理の原則

    時間や空間の実験環境を小分けにする。
    例: 圃場を細かい区画に分割し、区画ごとに施肥量を変化させる。
     → 気象変動による誤差を均一にできる。
     同一ハウス内で水準を変えた実験を小分けに行う。
     → ハウス毎の特性の違いによる誤差を排除できる。

    繰り返しの原則

    水準ごとに実験を反復させ、同じ水準内で2つ以上のデータを確保する。
    例: 4区画に分けられた圃場で4種類の施肥量を与える。
     他にも4区画に分けた圃場を用意し、同様の4種の施肥量で実験する。

    無作為化の原則

    目的要因以外の要因が一定の偏りをもって実験データに影響を与えないよう、実験を無作為に行う。
    例: 圃場を9つの区画に分けた場合、同一の列や行で同じ水準の実験を行わず、ランダムに配置する。
     → 日当り等の要因による影響が各水準に均一に入るようにする。
     時間をずらして同じ計測器で実験する場合は、試験の順番を無作為化する。
     → 時間と共に効果が変化する場合、時間の影響度が偏らないようにする。

    乱塊法

    圃場区間など目的要因以外の要因を均質な群に分け、それを1つの要因として組み込んだ実験法。
    施肥量による収穫量の変化を調べる際、土壌の肥沃さの影響を取り除くことは不可能。
    各区画による影響を1つの要因として実験に組み込む。

    ブロック因子

    乱塊法によって実験に取り入れられた目的要因以外の要因。

    直交計画

    複数の要因や水準による影響の有無を調べる際、最小限の実験数で行うための方法。
    2~3水準かつ特定の交互作用の確認の場合のみに有効。
    要因ごとの交互作用が多い場合には実力を発揮できない。
    要因1: 気温(20℃、30℃)
    要因2: 日照時間(6時間、10時間)
    要因3: 給水量(50㏄、100㏄)
    要因4: 施肥量(10g、20g)
    この場合はL8型直交配列を使う。

    最小2乗法

    要因xと結果yの関係を単回帰式で表すための手法。
    データとy=ax+bの距離の2乗の合計が最小となるようなa,bの値を計算する。

    重相関係数

    1に近いほど回帰式の精度が良い。

    決定係数 / 寄与率

    重相関係数の2乗。1に近いほど回帰式の精度が良い。
    (予測値の分散) / (実測値の分散)
    (実測値の分散) = (予測値の分散)+(残差の分散)

    自由度調整済み寄与率

    寄与率の欠点を補ったもの。
    クロスセクション(横断面)データは0.5以上が目安。
    タイムシリーズ(時系列)データは0.7以上が目安。

    多重共線性

    説明変数同士に高い相関関係があると重回帰分析がうまくいかない。
    VIF(分散拡大要因)が10を超える変数は使わない。5以下が望ましい。
    主成分得点を利用すれば、相関のある変数同士を1つにまとめられる。

    クロスセクション・データ

    横断面的なデータ。
    例: 2010年の各農家の所得。

    タイムシリーズ・データ

    時系列的なデータ。
    例: 2006~2010年のある農家の所得。

    時系列のデータはトレンド(傾向)、季節性(周期的な変化)、残差(ノイズ)に分解できる。

    パネル・データ

    クロスセクションデータとタイムシリーズデータを合わせたもの。
    例: 各農家の5年間の所得。

    プールデータ

    例: 各農家の5年間の所得(どの農家のデータかは不明)。

    リッカート・スケール

    アンケートなどで使われる心理検査的回答尺度。
    例: そう思う、どちらとも言えない、そう思わない。

    数量化Ⅰ類

    被説明変数が量的データ、説明変数が質的データの場合に用いる簡易型の重回帰分析。

    ロジスティック回帰分析

    被説明変数が質的データ、説明変数が量的データの重回帰分析。
    最尤法の場合、最尤推定値を求める。
    例: ある現象が起こる確率。

    対数線形モデル

    被説明変数、説明変数共に質的データの場合の重回帰分析。
    3次元以上の独立性の検定。

    決定木 / 多段層別分析

    いくつかの説明変数を階層的に組み合わせることで、被説明変数(大抵は2値変数)を分類する。

    主成分分析

    総合力トップを選出するための分析手法。
    たくさんの変数(量的データ)から、標本の性質をよく説明するような少数の変数を合成する。
    主成分得点を利用すれば、相関のある変数同士を1つにまとめられる。
    分析で得られる標本の得点を他の多変量解析で利用することも多い。
    2~3の主成分得点を重回帰分析に用いれば、多重共線性を回避したモデルを推定することができる。

    第1主成分

    データの分散が一番大きなところを通る軸。
    使用する主成分は少ない方が良い。
    目安は累積寄与率70%以上。

    第2主成分

    第1主成分に直行し、かつデータの分散が2番目に大きなところを通る軸。

    主成分負荷量

    観測変数の主成分への影響度。 観測変数と主成分との相関係数。
    固有ベクトル × 固有値(主成分の分散)の平方根。
    複数の観測変数に対してちょうどよい係数を与えて、主成分という新しい変数を合成する。

    主成分得点

    標準化したデータ × 固有ベクトル。

    因子分析

    観測変数に共通する因子を探し出す手法。
    主成分分析は観測変数から主成分を合成する手法。
    潜在的な共通因子を発見する。
    観測された変量を、共通因子による部分と独自因子による部分とに分解する手法。
    例: 国語の成績は共通因子: 知能と、国語独自因子に分解できる。
     数学の成績は共通因子: 知能と、数学独自因子に分解できる。

    共通性

    各観測変数が持つ分散のうち共通因子によって説明される割合。
    変数がもつ因子負荷量の2乗和になる。

    直交回転(因子分析)

    因子間の相関はないと仮定し、複数の因子軸を直交させたまま回転させる方法。
    直交回転させる場合はバリマックス法がお勧め。

    斜交回転(因子分析)

    因子間になんらかの相関があるものとして、複数の因子軸を別々に回転させる方法。
    通常は因子間に相関がないという根拠はないため、斜交回転の1つであるプロマックス法を使う。

    判別分析

    いくつかの既知のグループがあるとき、ある標本がどのグループに属するのかを推測する。
    説明変数は量的データ。事前に定義されたグループのどれに属するのかを判別・分類していく。
    使用例: 捕まえた珍しい昆虫が蝶なのか蛾なのか判別する。

    判別的中率

    判別分析による判別の精度。

    数量化Ⅱ類

    被説明変数、説明変数共に質的データ版の判別分析。

    クラスター分析

    標本を似ている同士でまとめていき、いくつかのグループに分類する(変数の分類にも使われる)。
    事前のグループ情報なしで個体相互の類似度もしくは非類似度から任意のグループ数に分類する。
    クラスターの作り方と分類の対象によって4種類の分析がある。
     (クラスター: 階層型、非階層型、 分類の対象 : 個体、変数(個体の持つ属性))
    グループが何を意味するかは分類者が後で解釈する。
    使用例: 同じクラスターに入っていない変数を選べば重回帰分析の多重共線性を回避できる。
     事前調査に対してクラスター分析を行い、本アンケートの質問項目を減らす。

    樹形図

    クラスター分析の結果を図示したもの。
    縦軸は個体、横軸はクラスター間の距離を表す。

    コレスポンデンス分析

    質的データを簡単に扱えるようにした主成分分析。

    多次元尺度(構成法)

    質的変数から標本に何らかの類似度を定義して、平面図にマッピングする。

    フーリエ解析

    波形からスペクトルを求める。
    時系列データを周波数に変換する。
    波形を周波数スペクトルに分解。
    使用例: 声に含まれる周波数の分析。

    周波数スペクトル

    周波数成分がどのくらいの強さで混ざり合っているかをグラフ化したもの。

    First Fourier Transform

    三角関数を使ったフーリエ変換。

    パスカルの三角形

    二項展開、組み合わせの数で使うと便利。

    スタージェスの公式(ヒストグラムのクラス数)

    log2n + 1

    ベイズの定理

    頻度論と対を成す。迷惑メールの判別に活用されている。
    限られた情報と仮定を組み合わせ、データ不足の補足や効率性を重視するならベイズ。
    データが十分で可能な限り正確に求めたいなら頻度論でp値を求める。

    P(A|B) = P(B|A)・P(A) / P(B)

    P(A|B) : Bが起こった時にAが起こる確率(Aが起こる条件付き確率)
      例 : 検査で陽性だった時に本当に病気の確率
    P(B|A) : Aが起こった時にBが起こる確率
      例 : 病気の人が検査で陽性と判定される確率
    P(A) : Aが起こる確率(Aの事前確率)
      例 : その病気にかかる確率(全体の中で病気にかかっている人の割合)
    P(B) : Bが起こる確率(Bの事前確率)
      例 : 検査を受けて陽性となる割合

    ARモデル / AIC(赤池情報量規準)

    AICが小さいほど良いとされる。
    回帰分析では説明変数を増やすほど残差が小さくなるため、不要な説明変数を除くのに有効。

    ロジスティック曲線

    孤島の動物の増殖、耐久消費財の普及率、流行商品の累計販売数などを表現する曲線。

    ゴンペルツ曲線

    年齢と死亡者数などを表現する曲線。

    移動平均

    使用例: 時系列データの誤差を消す。
    n時点移動平均を取ると、誤差の大きさは(1/√n)になる。
    nと誤差の大きさ、失われるデータの数。
    n=2 0.612 -2個
    n=3 0.577 -2個
    n=4 0.468 -4個
    n=5 0.447 -4個
    n=6 0.391 -6個
    n=7 0.378 -6個
    n=8 0.342 -8個
    n=9 0.333 -8個
    →移動平均を取るなら3,5,7時点くらいが良い。
    値の変化が直線的でない場合、移動平均を取ると値がずれやすくなる(時点数は小さい方が良い)。

    移動平均プロセス(MAプロセス)

    時系列データを表すモデルの一つ。
    現在の値が、時系列の平均と現在の誤差項と過去の誤差項に線形従属する。
    移動平均モデルはMA(q)で表す。
    qは次数。式に含む過去の誤差の個数が決まる。

    移動平均プロセスの次数を特定する手順
    1. 定常性を確認する
     拡張ディッキー・フラー検定(ADF)を行う
      定常でなければ時系列の1次差分を取って再検定する
    2. ACFをプロットする
     ラグqまで係数が有意な場合は、次数はq

    自己回帰プロセス(ARプロセス)

    時系列データを表すモデルの一つ。
    現在の値が過去の値に線形従属する。
    AR(p)で表す。
    pは過去の値をいくつ使うかを示す次数。

    自己回帰移動平均プロセス(ARMAプロセス)

    自己回帰プロセスと移動平均プロセスの組み合わせ。
    自己回帰プロセスは現在の値が過去の値に依存する。
    移動平均プロセスは現在の値が過去の予測誤差に依存する。
    ARMA(p, q)と表される。
    pは自己回帰の次数。
    qは移動平均の次数。
    定常ARMA(p, q)プロセス
    プロセスが定常で、ACFプロットとPACFプロットの両方が減衰パターンか正弦波パターンを示す。

    ARMAプロセスの一般的なモデル化手続き
     pとqの値をリストアップ
     ARMA(p, q)の全ての組み合わせを適合させる
     AICの値が最も小さいモデルを選択する
     残差分析を行う
     Q-Qプロットが直線(正規分布に近い)で残差が無相関なら予測に利用できる

    自己回帰和分移動平均モデル(ARIMA)

    AutoRegressive Integrated Moving Average:ARIMA
    非定常な時系列データを扱うために開発された時系列分析モデル。
    差分を取った時系列に基づくAR(p)プロセスとMA(q)プロセスの組み合わせ。
    自己回帰(AR)は現在の値が過去の値に依存する。
    和分(I)は非定常性を除去するための差分。トレンドや季節性を除去する。
    移動平均(MA)は現在の値が過去の予測誤差に依存する。
    ARIMA(p, d, q)
    p: AR(p)プロセスの次数
    d: 和分次数(和文は差分の逆)
    q: MA(q)プロセスの次数

    季節自己回帰和分移動平均モデル(SARIMA)

    Seasonal Auto Regressive Integrated Moving Average: SARIMA
    季節性を持つ時系列データを分析・予測するための統計モデル。
    ARIMAモデルに季節パラメータを追加したもの。

    SARIMA(p, d, q)(P, D, Q)m
    P: 季節的なAR(P)プロセス
    D: 季節的な和分次数
    Q: 季節的なMA(Q)プロセスの次数
    m: 頻度(季節的な周期ごとの観測数)
      年次データはm=1、月次データはm=12
      日次データで週単位の時はm=7、年単位のときはm=365

    SARIMAモデル(SARIMAXモデル)のモデル化手続き
     データにトレンドや季節性があるときは変換を適用する
      定常性の検定: 拡張ディッキー・フラー検定(ADF)
     データを定常にするために必要な時系列の差分の回数をdとする
     データを定常にするために必要な季節差分の回数をDとする
     p,q,P,Qの値をリストアップし、SARIMA(p, d, q)(P, D, Q)mの組み合わせでAICが最も小さいモデルを選択
     残差分析をする
     Q-Qプロットが直線で残差が無相関なら予測に利用できる
     リュング・ボックス検定で残差が無相関か確認する

    データに複数の季節周期がある場合、SARIMAモデルは使えない。
    例えば日変化と年変化がある気温はSARIMAモデルに適合しない。
    複数の季節変化にはオープンソースライブラリProphetが有効。

    SARIMAXモデル

    Seasonal AutoRegressive Integrated Moving Average with Exogenous Variables
    SARIMAモデルに外生変数の線形結合を追加したもの。
    SARIMAX(p, d, q)(P, D, Q)m Xで表す。
    SARIMA部分で季節性と非季節性の時系列パターンを捉える。
    X部分で外生変数(説明変数)の影響を組み込む。

    SARIMAXモデルを作る手順

    1. 時系列に季節性があるか判断する
     時系列グラフを表示して周期性があるか確認する
     時系列分解を使ってトレンド、季節性、残差に分解する
      トレンドは長期的な増加・減少
      季節性は繰り返される変動
      残差はノイズ(トレンドや季節性で説明できない不規則な変動)

    2. 定常性を確認する(パラメータdとDの設定)
     拡張ディッキー・フラー検定(ADF)を行う
      時系列データで検定し、定常ならd=0
       時系列の1次差分を取って再検定し、定常ならd=1, D=0
        季節差分を取って再検定し、定常ならd=1, D=1
       時系列の2次差分を取って再検定し、定常ならd=2

    3. パラメータp,q,P,Qの設定
     それぞれ0~3の値を訓練データセットで試してみる
     AICの値が最も小さい組み合わせを見つける

    4. 外生変数に関連付けられた係数を調べるため、サマリーテーブルを表示する

    5. テストデータを使って残差分析を行う
     残差の折れ線グラフを表示してトレンドがないことを確認する
     残差のヒストグラムが正規分布に近い分布になることを確認する
     Q-Qプロットでy=xの直線上になることを確認する
     コレログラムでラグ0の後に有意な自己相関係数がないことを確認する
     ⇒ 確認できれば、残差はホワイトノイズのように独立している

    6. リュング・ボックス検定
     リュング・ボックス検定の帰無仮説は残差が独立していて無相関
     ⇒ p値が0.05より大きければこの仮説は棄却されない。
      帰無仮説が棄却されない(無相関)のとき、残差はホワイトノイズのように独立している
      残差に相関があるとき、データから得られる情報を完全には捕捉できていない

    7. テストデータを使って性能を評価する
     平均絶対誤差率(MAPE)を使う
     SARIMAXモデルでは次の時間ステップを複数回予測し、各予測値の誤差を平均化する必要がある

    SARIMAXモデルで使う外生変数の予測に大きな誤差が含まれる場合、予測の時間ステップが増えるほど誤差がどんどん大きくなるため、1度に1つ先の予測のみを行う。
    もし外生変数の予測が簡単な場合は、外生変数の予測値を使って先の時間ステップの予測もできる。

    Prophet

    Pythonのオープンソースライブラリ。
    トレンドと複数の周期変化(年単位、週単位など)、不規則に発生する要因(ホリデー効果)に対応する。
    ARIMAモデルでは予測値が過去の値に依存するが、Prophetのモデルではデータの時間に依存しない。
    外れ値や欠損値があっても問題ないという利点もある。

    日付の列名は'ds'。
     フォーマットはYYYY-MM-DD またはYYYY-MM-DD HH:MM:SS
    実測値の列名は'y'
     フォマットは数値データ
    予測値の列名は'yhat'
    80%信頼度区間の下限と上限は'yhat_lower'と'yhat_upper'

    モデルの初期化:Prophetクラスのインスタンスを作成
    モデルの訓練:fitメソッド
    予測値の生成:predictメソッド

    ベクトル自己回帰(VAR)モデル

    Vector AutoRegression
    2つ以上の時系列の関係をモデル化する。
    各時系列の過去の値が他の時系列に影響を与える。
    ある時系列の過去の値が他の時系列の未来の値を予測するための説明変数となる場合に使う。

    振幅の縮小率

    1周期がN時点の周期変動にn時点移動平均を施した時の振幅の縮小率。
    n/Nが整数のとき、移動平均の振幅は0になる。
    ⇒周期変動を消去する事ができる。
    使用例: 一つの周期変動を消すことで、別の周期変動を浮かび上がらせる。
     移動平均後のグラフの振幅に縮小率の逆数を掛け、本当の振幅を計算する。

    周期変動の発見(コレログラム)

    時系列データを1時点だけずらして、元のデータとの相関係数(自己相関係数)をとる。
    時系列データを2時点だけずらして、元のデータとの相関係数をとる。
    ・・・繰り返し。
    横軸をずらした時点数、縦軸を自己相関としてグラフに描くと、顕著な周期がピークとして現れる。
    使用例: 発見した顕著な周期の移動平均をとり、別の隠れた周期変動を発見する。

    フーリエ解析(時系列データの周期性)

    データ数の制限: 2のn乗個。
    解析結果の絶対値が周波数成分の強さを表す。
    複素数の絶対値はIMABS関数で求める「=imabs( )」。
    表示されたもののうち、ナイキスト周波数までの解析結果が正しい。
    ナイキスト周波数 = 元データのデータ数 / 元データの時間幅(秒)/ 2

    連関比率法

    連関比率は月ごとに前月に対する変化率を計算し、その前月比の平均値を季節変動値とみなす方法。
    季節的な要因による影響を除去する季節指数を計算できる。

    ランダムウォークを特定する手順

    1.時系列データが定常か確認する
    2.定常でない場合は変換して再度定常か確認する
     トレンドや季節変動が見られる時はデータの差分を取る
     分散を安定させるには対数を取る
    3.ACFをプロットし、自己相関があるか確認する
     自己相関があればランダムウォークではない

    その他

    診断量・診断方程式

    診断量とは、予報変数から時間積分を経ずに求められる量。
    診断方程式は時間微分を含まない。
    他の値を先に決め、それに合うように値を求めるため「診断」と言われる。

    待ち行列

    窓口が倍、列も2列になった場合、待ち時間は80%改善、ターンアラウンドタイムは67%改善。
    サービス時間が半分になった場合、待ち時間は90%改善、ターンアラウンドタイムは83%改善。
    列は1列で窓口が倍になった場合、待ち時間は95%改善、ターンアラウンドタイムは76%改善。

    リトルの公式

    待ち時間 = 行列の総人数 / 1分間に加わった人数
    (行列の長さが平衡状態になっている条件下のみ)

    待ち時間を短く感じさせる工夫

    ・看板で待ち時間を表示する。
    ・整理券を配布し、指定した時間に行くと優先的に案内される。
    ・webで全てのアトラクションの待ち時間を表示する。
    ・通路を1メートル幅にし、少しずつ進ませる。
    ・待っている人が楽しめる工夫。
     キャラクターとの触れ合い、ガラス張りで製造過程を見せる。
    ・割り込みや追い抜きができないように並ばせる。
    ・真っ直ぐな行列より、曲がった行列の方が待ち時間を短く感じる。
     景色が変わったり人と会ったり、処理する情報が多くなるため。

    充実時程錯覚

    ゆっくり流れる景色やゆっくりな映像を見ていると時間を短く感じる。
    タクシーよりバスの方が視点が高く遠くが見えるため、景色もゆっくりと流れる。

    豆知識

    千円札の横は15cm
    千円札の1000の縦幅は1cm
    五円玉の穴の直径は5mm
    50円玉の穴の直径は4mm
    50円玉は1枚4g
    名刺は縦9cm、横5.5cm
    人が肩を触れずに横に並ぶと、1人当り50cm
    巻いてあるカーペットの長さ: 横から見た円の面積=カーペットの厚さ×長さ
    25×16=5×5×4×4=20×20
    どちらの数字も10から20の場合
     14 × 17 =(14 + 7)× 10 + 4 × 7
    成功の確率をP、成功したときのうれしさを-log2Pと表す。
    平均的に最大にしようとすると、P = 1 / e = 0.3678 がベスト。
    締切まであとT日ある日に登録する人の数は、1/Tに比例する

    じゃんけん

    初手はパーがいい。(最初はパーとグーが多い)
    あいこになったら、次は負ける手を出す。(同じ手を続けて出す人は少ない)

    渋滞時の車の量

    走行車線: 中央車線: 追越車線 = 25: 35: 40