欠測値処理について
これは何
欠測データ処理―Rによる単一代入法と多重代入法― の勉強メモです。
欠測のパターン
- 単変量欠測: 1つの変数だけが欠測している。
- 例. テストの成績(テストを受けていない人は欠測する)
- 単調欠測: 欠測率が低い変数の順にならべたときに欠測率が単調増加している。
- 例. 前の月にデータ収集に協力してくれた人だけにデータ収集の協力依頼を出すような形式で収集した各月のデータ(後の月ほど参加者が減って欠測率が増えていく)
- 計画的欠測: 意図的な欠測
- 例. アンケートの負担軽減のために、年齢層別で答えてもらう設問を分けて集めたデータ
- 一般的な欠測: 上記のパターンに当てはまらないような欠測
- 例. 多くのデータにおける欠測のパターンはこれ。
欠測のメカニズム
$\mathbf{D}$を$n$行$p$列の($n$個のサンプルがあり、それぞれ$p$個の変数がある)データセットとする。また、$i$番目のサンプルの$j$番目の変数を$D_ij$と置く。$\mathbf{K}\in\{0,1\}^{n\times p}$を回答支持行列(欠測パターンを表す行列)とし、$K_{ij}=1$のとき$D_{ij}$は欠測しておらず、$K_{ij}=0$のときは$D_{ij}$は欠測しているとする。
このとき、$\mathbf{D}$と$\mathbf{K}$の関係をいくつかのパターンに分類することができる。これを欠測のメカニズムと呼ぶ。 現実のデータセットはこのどれかのパターンに厳密に分類できるものではないので、どのメカニズムに近いのかを考える必要がある。
MCAR(Missing Completely At Random)
MCARは欠測するかどうかはデータセットに依存しない場合である。
つまり、
\[\mathbb{P}(\mathbf{K}\mid\mathbf{D})=\mathbb{P}(\mathbf{K})\]が成り立つ。MCARは次のMARの特殊ケースである。
MAR(Missing At Random)
$\mathbf{D}$を観測できている部分$\mathbf{D}^{\text{観測}}$と欠測している部分$\mathbf{D}^{\text{欠測}}$に分ける。MARは、欠測するかどうかがデータセットの観測されている部分のみに依存する場合である。
つまり、
\[\mathbb{P}(\mathbf{K}\mid\mathbf{D})=\mathbb{P}(\mathbb{\mathbf{K}\mid\mathbf{D}^{\text{観測}}})\]が成り立つ。
NMAR(Not Missing At Random)
MARでない場合である。
つまり、
\[\mathbb{P}(\mathbf{K}\mid\mathbf{D})\neq\mathbb{P}(\mathbf{K}|\mathbf{D}^{\text{観測}})\]が成り立つ。NMARの場合は、必ずしも代入法がうまくいくとは限らない。
欠測の処理方法
- データ収集段階の場合: 再訪問・再調査を行う
- データ収集後の場合: 統計的な処理を行う(単一代入法・多重代入法など)
単一代入法・多重代入法について軽くまとめる。多重代入法はMCAR, MARの状況でうまく動くことが知られている。
リストワイズ除去
欠測値を含む行すべてを除去し、欠測のないデータセットを整形する方法。MCARの場合は問題ないが、MARやNMARの場合には知りたい統計量に関してバイアスを生むことが知られている。
単一代入法
欠測値を何らかの値で埋める方法。単一代入法の欠点等については欠測データ処理―Rによる単一代入法と多重代入法― を参照のこと。
多重代入法
欠測データの分布を構築し、そこから独立に$M$個のシミュレーション値を抽出し、それぞれ欠損値の部分を埋める(代入ステージ)。代入ステージの後は、欠測値が埋められた$M$個のデータセットそれぞれに対して知りたい統計量に関する分析を行い、分析結果を統合する(統合ステージ)。単一代入法と異なり、複数のシミュレーション値で欠測値を埋めて分析するところが異なる。