第5回で、欠損値を「決まった値」で埋める定数補完についてお話ししました。 そこで、age をゼロで埋めると分布が不自然に歪む様子を見ました。 その問題を解決するのが、今回扱う 平均値・中央値・最頻値による補完 です。 こ...
第3回・第4回では「欠損のある行や列を削除する」戦略を紹介しました。 今回からはいよいよ、欠損値処理のもう一つの大きな柱である 補完(imputation) に入っていきます。 補完にはさまざまな方法がありますが、まず押...
第3回では、行を削除する リストワイズ削除(CCA)についてお話ししました。 今回はもう2つの削除戦略である、列(特徴量)を削除する 方法と、分析ごとに使えるデータを最大化する ペアワイズ削除を取り上げます。 行を削除す...
第2回までで、欠損値の検出と可視化ができるようになりました。 次のステップは、いよいよ「実際にどう処理するか」です。 欠損値への対処法は大きく分けて 削除(deletion) と 補完(imputation) の2種類が...
前回(第1回)では、欠損値には MCAR・MAR・MNAR という3つのメカニズムがあり、それぞれに応じた処理が必要だ、という話をしました。 欠損値処理シリーズ 第1回:欠損値とは何か — MCAR / MAR / MN...
機械学習モデルの精度がなかなか上がらない、と悩んだ経験はありませんか? データを集め、特徴量を整え、ハイパーパラメータも調整したのに結果が伸びない原因が、実は 欠損値(missing values) の扱い方にあった、と...
データサイエンスの世界では、「2つのデータがどれくらい似ているか(近いか)」 を測ることが非常に重要です。 たとえば、おすすめ商品のレコメンド、顧客のグループ分け(クラスタリング)、異常検知など、多くの分析手法の土台に「...
前回の記事では、正規分布について紹介しました。 正規分布をscipy.statsで理解する 正規分布は「身長」「テストの点数」のように、小数を含む連続的な値のデータに使われる確率分布でした。 しかし、データ分析の現場では...
データサイエンスの世界では、「データがどんな形で散らばっているか」 を理解することがとても重要です。 テストの点数は平均点付近に多くの人が集まり、極端に高い点数や低い点数の人は少なくなります。 人の身長も平均値の前後に多...
前回の記事では、curve_fit() を使ってデータにフィッティング(曲線あてはめ)を行う方法を紹介しました。 curve_fitでデータにフィッティングしてみよう(scipy.optimize.curve_fit) ...