統計学は今や多くの企業でデータ駆動型意思決定の中心となっています。機械学習の人気とともに統計学の専門用語を理解することも重要になってきました。この用語集では、統計学と機械学習の分野で頻繁に使われる専門用語を解説します。それぞれの用語の起源や実務での活用方法なども紹介しています。
基本的な統計用語
ANOVA 分散分析
英語の “Analysis of Variance” の略。2つ以上のグループ間の平均値の差を検定する統計手法。
複数のサンプルを比較する際にt検定を繰り返すよりも統計的な信頼性が高い。”one-way ANOVA”(一元配置)と “two-way ANOVA”(二元配置)が広く使われている。
CI 信頼区間
未知のパラメータが存在する可能性の高い値の範囲を示す。
95%信頼区間が一般的で、同じ母集団から無作為に抽出したサンプルで100回計算した場合、約95回はその区間内に真の値が含まれることを意味する。”Margin of Error”(誤差範囲)と関連が深い。
N サンプルサイズ
統計解析で使用されるデータポイントの数。サンプルサイズが大きいほど統計的検出力が高まり、より小さな効果も検出できるようになる。ただし、巨大なサンプルサイズでは実質的に意味のない微小な差異も統計的に有意になってしまう点に注意が必要。
P値
帰無仮説が真であると仮定した場合に、観測されたデータ(または極端なデータ)が得られる確率。
統計的推論の核心部分で、p < 0.05が有意水準の標準とされることが多い。近年では「p値ハッキング」の問題から、p値だけでなく効果量や信頼区間も報告することが推奨されている。
SD 標準偏差
データの散らばり具合を示す指標。平均値からのデータポイントの平均距離を表す。
正規分布では、データの約68%が平均値±1SDの範囲に約95%が平均値±2SDの範囲に含まれる。”Standard Error”(標準誤差)とは異なるので注意が必要。
IQR 四分位範囲
データセットの中央50%の広がりを示す尺度。第3四分位数(75パーセンタイル)から第1四分位数(25パーセンタイル)を引いた値。外れ値の影響を受けにくいため、非対称分布のデータで特に役立つ。箱ひげ図でよく使われる統計量。
Zスコア
平均値からの距離を標準偏差単位で表したもの。
Z = (値 – 平均値) / 標準偏差。異なる尺度のデータを比較可能にし、外れ値を特定するのに役立つ。心理学のテストや大学入試のスコアなどの標準化によく使われる。
回帰分析と予測モデル
OLS 普通最小二乗法
線形回帰モデルでパラメータを推定する標準的な方法。
実測値と予測値の差(残差)の二乗和を最小化する。”BLUE” (Best Linear Unbiased Estimator) の特性を持つが、外れ値の影響を強く受けるため、ロバスト回帰など代替手法が開発されている。
GLM 一般化線形モデル
OLS回帰を拡張したモデルで正規分布以外の誤差分布(二項分布やポアソン分布など)を扱える。
リンク関数を使って線形予測子と応答変数を結びつける。ロジスティック回帰やポアソン回帰はGLMの特殊ケース。
ARIMA 自己回帰和分移動平均
時系列データの予測に使われるモデル。Autoregressive Integrated Moving Averageの略。少なくとも40の時点データを必要とする短期予測に適している。季節性を考慮したSARIMAなど派生モデルもある。
R2乗 決定係数
回帰モデルの当てはまりの良さを示す指標。モデルによって説明される分散の割合(0~1)を表す。
ただし説明変数を増やすと無条件に上昇するため、調整済みR2乗を使うことも多い。
多変量解析
PCA 主成分分析
高次元データの変動を捉える次元削減手法。相関のある変数を互いに直交する少数の主成分に変換する。
データ可視化やノイズ除去、特徴量抽出によく使われる。因子分析との違いはPCAは観測変数間の相関を説明することが主目的ではない点。
SEM 構造方程式モデリング
観測変数と潜在変数間の構造的関係を分析する多変量解析手法。因子分析と回帰分析を統合した手法で、心理学や社会科学で広く使われる。共分散構造分析とも呼ばれる。
MANOVA 多変量分散分析
複数の従属変数に対するグループ間の差を同時に検定する手法。
ANOVAの多変量版。変数間の相関を考慮することで多重検定の問題を回避できる。Wilksのラムダなど複数の検定統計量がある。
機械学習の基礎概念
RF ランダムフォレスト
多数の決定木を組み合わせたアンサンブル学習法。
個々の木は異なるデータサブセットとランダムな特徴量で訓練される。過学習しにくく欠損値や外れ値に強いという特徴がある。特徴量の重要度評価にも使える。
K平均法
データを似た特徴を持つK個のクラスタに分割する教師なし学習アルゴリズム。
各データポイントを最も近いクラスタ中心に割り当て、クラスタ中心を更新する処理を繰り返す。最適なクラスタ数Kを決定するのが課題の一つ。
ROC曲線
二値分類モデルの性能評価グラフ。Receiver Operating Characteristic curveの略。横軸に偽陽性率、縦軸に真陽性率をプロット。曲線下面積(AUC)が大きいほど分類性能が高い。
不均衡データセットの評価に特に有用。
確率分布と統計モデリング
二項分布
成功確率pの独立した試行をn回繰り返したときの成功回数の確率分布。
コイン投げやA/Bテストなどの成功/失敗を伴う実験のモデル化に使われる。平均はnp、分散はnp(1-p)。
正規分布
自然界の多くの現象を記述する基本的な確率分布。平均と標準偏差の2つのパラメータで特徴づけられる。中心極限定理によれば、独立した確率変数の和は標本数が増えるほど正規分布に近づく。
PDF 確率密度関数
連続確率変数がある値を取る確率の密度を表す関数。曲線下の面積が確率を表す。”Probability Density Function”の略。離散確率変数の場合は確率質量関数(PMF)が使われる。
CDF 累積分布関数
確率変数がある値以下になる確率を表す関数。”Cumulative Distribution Function”の略。逆関数はQuantile関数と呼ばれ、パーセンタイル値を求めるのに使われる。
クルトーシス
確率分布の尖度を測る統計量。正規分布よりも尖っていれば正の値、平坦であれば負の値を取る。金融データ分析では、リターン分布の裾の厚さを測る重要な指標となっている。
統計的仮説検定
仮説検定
データに基づいて統計的主張の妥当性を評価する方法。
帰無仮説(一般に「差がない」と仮定)と対立仮説を設定し証拠の強さを評価する。第一種の誤り(偽陽性)と第二種の誤り(偽陰性)のバランスが重要。
T検定
平均値の差を検定する手法。小さなサンプルサイズでも使用可能。一標本t検定、独立サンプルt検定、対応のあるt検定など複数のバリエーションがある。非正規分布のデータには代わりにノンパラメトリック検定が適している。
カイ二乗検定
カテゴリカルデータの独立性や適合度を検定する手法。観測度数と期待度数の差に基づく。社会科学や医学研究でよく使われる。小さな期待度数をもつセルがある場合は、Fisher正確確率検定などの代替法が推奨される。
MLE 最尤推定
データが観測される確率を最大にするようなモデルのパラメータを推定する方法。”Maximum Likelihood Estimation”の略。大標本では一致性や漸近正規性などの良い統計的性質を持つ。ベイズ推定と対比されることが多い。
応用統計
AIC 赤池情報量基準
統計モデルの相対的な質を評価する指標。モデルの複雑さ(パラメータ数)とデータへの適合度のバランスを考慮する。AICが低いほど良いモデルとされる。モデル選択に広く使われる。
HR ハザード比
生存分析における2つの条件間のハザード率(単位時間あたりのイベント発生率)の比。1より大きければリスク増加、1より小さければリスク減少を示す。医学研究や生存時間解析でよく使われる指標。
相関係数
2変数間の線形関係の強さを-1から1の間の値で表す指標。ピアソン相関係数が最も一般的だがスピアマンやケンドールのような順位相関係数もある。相関は因果関係を示すものではないことに注意が必要。
QQプロット
データの分布を理論分布(多くの場合、正規分布)と比較するためのグラフツール。”Quantile-Quantile plot”の略。プロット上の点が直線に近いほどデータは理論分布に従っている。モデルの仮定チェックに役立つ。
統計学、少しガチよりQ&Aコーナー
Q: 統計的有意性と実質的有意性の違いは何ですか?
A: 統計的有意性はp値によって測定され、観測された差が偶然によるものではない可能性を示します。
一方、実質的有意性は効果の大きさやビジネス上の重要性を考慮します。大きなサンプルサイズでは、実用的に重要でない小さな差も統計的に有意になることがあるため、両方の観点が重要です。
Q: どの機械学習アルゴリズムを使うべきか、どうやって決めればいいですか?
A: データの種類(構造化/非構造化)、問題の種類(分類/回帰/クラスタリング)、解釈可能性の重要度、データサイズ、計算リソース、予測精度の要件などを考慮します。
初めは複数のアルゴリズムを試し、クロスバリデーションでそれらのパフォーマンスを比較するのが良い方法です。
Q: 多重検定問題とはなんですか?どう対処すればよいですか?
A: 多数の統計的検定を行うと偶然による偽陽性の確率が増加する問題です。
細かくは、ボンフェローニ補正、ホルム法、ベンジャミニ・ホッホバーグ法(FDR制御)などの方法で対処します。または個別の仮説検定ではなく、ANOVAなどの多変量手法を使うことも有効です。