機械学習プロジェクトでは、「データの前処理」と「モデルの学習」を何度も繰り返します。 このとき、前処理とモデルを別々に管理していると、コードが複雑になり、ミスも起きやすくなります。 そこで活躍するのが scikit-le...
ビジネスの現場において、データ活用や生成AIの導入は避けて通れないテーマとなっています。 しかし、「何から始めればいいのか」「専門知識がないと難しいのではないか」と足踏みされている方も多いのではないでしょうか。 テーマ:...
こんにちは!「Pythonで始める分類モデル入門」の第4回です。 前回は決定木を学びました。 https://www.salesanalytics.co.jp/datascience/datascience303/ 直感...
こんにちは!「Pythonで始める分類モデル入門」の第3回です。 前回までに学んだロジスティック回帰やLDAは、どちらもデータを「直線」で分割する手法でした。 Pythonで始める分類モデル入門— 第2回 &...
データ分析を始めると、必ず直面するのが 欠損値(NaN) の問題です。 「データが歯抜けになっている」「一部の項目が空欄」といった状況は、実務データでは日常茶飯事です。 欠損値を適切に処理しないと、計算がうまくいかなかっ...
こんにちは!「Pythonで始める分類モデル入門」の第2回です。 前回はロジスティック回帰を学び、「確率を直接モデル化する」アプローチで分類問題を解きました。 Pythonで始める分類モデル入門— 第1回 &...
「今回の結果です。」 構築したモデルとそれを使った分析の結果を報告したとき、数値上の問題はありませんでした。 検証データでも安定しており、統計的にも妥当。 きちんと「正しい分析」です。 それでも、そのモデルも、その分析結...
このシリーズでは、機械学習の中でも特に実用的な「分類モデル」について、Pythonを使いながら一緒に学んでいきます。 第1回となる今回は、ロジスティック回帰という手法を使って「模試の点数から大学入試の合否を予測する」モデ...
ここまで、距離の概念から始まり、階層的クラスタリング、K-means法、クラスタ数の決め方と学んできました。 ところで、病院に行って「あなたは風邪です」と診断されただけで帰されたら、どう思いますか? 「で、どうすればいい...
データ分析で「可視化」は欠かせないステップです。 数値の羅列を見ても傾向はわかりにくいですが、グラフにすれば一目瞭然。 しかし、Pythonの定番ライブラリ matplotlib でキレイなグラフを作ろうとすると、設定項...
前回、k-means法を学んだときに「K=3」と決め打ちでクラスタ数を指定しました。 Pythonで学ぶ クラスター分析入門— 第3回 —k個の点に集まれ ― k-means法の基本 でも、ちょっ...
先日、東京商工会議所様主催のオンラインセミナー 「スモールビジネスで使える簡単データ活用術」 を開催しました。 本セミナーは、小規模事業者の方を対象に、 データ分析や生成AIを 「難しいものとして学ぶ」のではなく、 「日...
精度は問題ありません 分析担当として、この一言を言ったことがある人は多いはずです。 モデルの検証結果も良好で、数値的には非の打ちどころがない。 それでも、会議室の空気がどこか重くなる。 そして、必ずこう聞かれます。 で、...
前回学んだ階層的クラスタリングは、データの階層構造を美しく可視化できる素晴らしい手法でした。 Pythonで学ぶ クラスター分析入門— 第2回 —樹形図で見える化 ― 階層的クラスタリング しかし...
前回は「似ている」を距離で測る方法を学びました。 Pythonで学ぶ クラスター分析入門— 第1回 —「似てる」を数値化しよう ― 距離の考え方 今回は、その距離を使って実際にデータをグループ分け...
データ分析で「カテゴリごとに集計したい」という場面は非常に多いです。 「商品別の売上合計」「月別の平均値」「店舗ごとの顧客数」など、グループ化して集計する処理は日常茶飯事です。 pandasの groupby() は、そ...