欠損値処理シリーズ第10回：
多変量補完② — MICE・MissForest と欠損インジケータ、選び方ガイド

ついにシリーズ最終回です。第1回で欠損のメカニズム（MCAR / MAR / MNAR）を紹介し、削除戦略（第3〜4回）、単変量補完（第5〜7回）、時系列補完（第8回）、KNN補完（第9回）と進んできました。第1回：...

欠損値処理シリーズ第9回：
多変量補完① — KNN Imputer で近傍から補完する

第5〜7回の単変量補完では「その列の情報だけ」を使い、第8回では時系列特有の前後関係を使いました。第5回：単変量補完① — 定数・任意値での補完（pandas と SimpleImputer） https://www....

ここまでの第5〜7回では、Titanic データのような順序を持たないデータの補完を扱ってきました。第5回：単変量補完① — 定数・任意値での補完（pandas と SimpleImputer） https://w...

第6回の最後に、平均値・中央値補完には「分散が縮小し、分布が不自然に歪む」という重要な副作用があることをいお話ししました。すべての欠損を1つの代表値で埋めるため、その値の周辺にデータが人工的に集中してしまうためです。 ...

第5回で、欠損値を「決まった値」で埋める定数補完についてお話ししました。そこで、age をゼロで埋めると分布が不自然に歪む様子を見ました。その問題を解決するのが、今回扱う平均値・中央値・最頻値による補完です。こ...

第3回・第4回では「欠損のある行や列を削除する」戦略を紹介しました。今回からはいよいよ、欠損値処理のもう一つの大きな柱である補完（imputation）に入っていきます。補完にはさまざまな方法がありますが、まず押...

第3回では、行を削除するリストワイズ削除（CCA）についてお話ししました。今回はもう2つの削除戦略である、列（特徴量）を削除する方法と、分析ごとに使えるデータを最大化するペアワイズ削除を取り上げます。行を削除す...

第2回までで、欠損値の検出と可視化ができるようになりました。次のステップは、いよいよ「実際にどう処理するか」です。欠損値への対処法は大きく分けて削除（deletion）と補完（imputation）の2種類が...

前回（第1回）では、欠損値には MCAR・MAR・MNAR という3つのメカニズムがあり、それぞれに応じた処理が必要だ、という話をしました。欠損値処理シリーズ第1回：欠損値とは何か — MCAR / MAR / MN...

機械学習モデルの精度がなかなか上がらない、と悩んだ経験はありませんか？データを集め、特徴量を整え、ハイパーパラメータも調整したのに結果が伸びない原因が、実は欠損値（missing values）の扱い方にあった、と...