機械学習モデルの精度がなかなか上がらない、と悩んだ経験はありませんか? データを集め、特徴量を整え、ハイパーパラメータも調整したのに結果が伸びない原因が、実は 欠損値(missing values) の扱い方にあった、と...
データサイエンスの世界では、「2つのデータがどれくらい似ているか(近いか)」 を測ることが非常に重要です。 たとえば、おすすめ商品のレコメンド、顧客のグループ分け(クラスタリング)、異常検知など、多くの分析手法の土台に「...
前回の記事では、正規分布について紹介しました。 正規分布をscipy.statsで理解する 正規分布は「身長」「テストの点数」のように、小数を含む連続的な値のデータに使われる確率分布でした。 しかし、データ分析の現場では...
データサイエンスの世界では、「データがどんな形で散らばっているか」 を理解することがとても重要です。 テストの点数は平均点付近に多くの人が集まり、極端に高い点数や低い点数の人は少なくなります。 人の身長も平均値の前後に多...
前回の記事では、curve_fit() を使ってデータにフィッティング(曲線あてはめ)を行う方法を紹介しました。 curve_fitでデータにフィッティングしてみよう(scipy.optimize.curve_fit) ...
前回の記事では、minimize() を使って最適化問題を解く方法を紹介しました。 scipy.optimizeで最適化問題を解く入門 今回は、その応用とも言える 「カーブフィッティング(曲線あてはめ)」 を紹介します。...
データサイエンスや機械学習の世界では、「最適な値を見つける」 という作業が頻繁に登場します。 たとえば…… 広告費をどう配分すれば利益が最大になるか? 機械学習モデルの誤差を最小にするパラメータは何か? ……といった問題...
前回の記事では、t検定を使って「2つのグループの平均値に差があるか」を判定する方法を学びました。 t検定をPythonで実行してみよう(scipy.stats.ttest) しかし、データ分析の現場では、数値ではなくカテ...
データ分析をしていると、「AとBに本当に差があるのか?」という疑問に出会うことがよくあります。 たとえば…… 「新しい教材を使ったクラスと従来の教材を使ったクラスで、 テストの平均点に差はあるのか?」 「薬Aと薬Bで、...
データ分析の第一歩は、データの「全体像」をつかむことです。 平均値だけを見ても、データの本当の姿はわかりません。 データがどれくらいばらついているのか、偏りがあるのか、外れ値がありそうかなど、複数の指標をまとめて確認する...