第5回で、欠損値を「決まった値」で埋める定数補完についてお話ししました。 そこで、age をゼロで埋めると分布が不自然に歪む様子を見ました。 その問題を解決するのが、今回扱う 平均値・中央値・最頻値による補完 です。 こ...
第3回・第4回では「欠損のある行や列を削除する」戦略を紹介しました。 今回からはいよいよ、欠損値処理のもう一つの大きな柱である 補完(imputation) に入っていきます。 補完にはさまざまな方法がありますが、まず押...
第3回では、行を削除する リストワイズ削除(CCA)についてお話ししました。 今回はもう2つの削除戦略である、列(特徴量)を削除する 方法と、分析ごとに使えるデータを最大化する ペアワイズ削除を取り上げます。 行を削除す...
第2回までで、欠損値の検出と可視化ができるようになりました。 次のステップは、いよいよ「実際にどう処理するか」です。 欠損値への対処法は大きく分けて 削除(deletion) と 補完(imputation) の2種類が...
前回(第1回)では、欠損値には MCAR・MAR・MNAR という3つのメカニズムがあり、それぞれに応じた処理が必要だ、という話をしました。 欠損値処理シリーズ 第1回:欠損値とは何か — MCAR / MAR / MN...
機械学習モデルの精度がなかなか上がらない、と悩んだ経験はありませんか? データを集め、特徴量を整え、ハイパーパラメータも調整したのに結果が伸びない原因が、実は 欠損値(missing values) の扱い方にあった、と...