データサイエンスや機械学習の世界では、「最適な値を見つける」 という作業が頻繁に登場します。 たとえば…… 広告費をどう配分すれば利益が最大になるか? 機械学習モデルの誤差を最小にするパラメータは何か? ……といった問題...
需要予測モデルを導入するとき、多くの企業が力を注ぐのは「いかに当たるモデルを作るか」です。 アルゴリズムの選定、学習データの整備、精度検証の設計。 どれも大切なステップですが、ここに一つ、ほとんどの企業が見落としている論...
問題 答え 解説 次の Python コードは何を行っていますか? Python コード: import numpy as np import pmdarima as pm np.random.seed(42) data...
ビジネスの現場において、データ活用や生成AIの導入は避けて通れないテーマとなっています。 しかし、「何から始めればいいのか」「専門知識がないと難しいのではないか」と足踏みされている方も多いのではないでしょうか。 テーマ:...
前回の前編では、ロジスティック回帰で離脱予測モデルを構築し、混同行列と精度指標まで見ました。 今回の後編では決定木とランダムフォレストの2手法を追加し、ROC曲線で3モデルを横断比較します。 さらに「閾値の調整」で適合率...
限られた広告予算で成果を上げるためのヒントは、日々蓄積されている販促データの中にあります。 チラシの反応率、SNSやメールの結果、来店や売上の傾向など、身近なデータを活用すれば「効く施策」と「ムダな施策」を明確にできます...
とある動画配信サービスの運営チームの事例です。 サービスには数万人の月額会員がいますが、毎月一定数の会員が解約(離脱)しています。 新規会員を1人獲得するコストは、既存会員を1人引き留めるコストの5倍以上と言われており、...
前回(前編)、ドラッグストアの150店舗データに全変数を投入した重回帰分析を行い、「有意でない変数が混在している」「偏回帰係数をそのまま比較できない」「新しいデータへの予測力が未検証」という3つの問題点を特定しました。 ...
あなたは全国にドラッグストアを展開する企業の経営企画部に配属されました。 あなたは上司から…… 「来年の新規出店候補が10ヵ所ある。 どこに出店すれば売上が見込めるか、 データに基づいて優先順位をつけてほしい。」 「...
前回の記事では、t検定を使って「2つのグループの平均値に差があるか」を判定する方法を学びました。 t検定をPythonで実行してみよう(scipy.stats.ttest) しかし、データ分析の現場では、数値ではなくカテ...
後編に入る前に、前回の簡単な復習をします。 前回と同じ手順で、「ライブラリのインポート → データの読み込み → 標準化 → PCAによる次元削減」を一括で実行します。 サンプルデータは、以下からダウンロードできます。 ...
予測モデルの開発担当者から、こんな報告を受けたことはないでしょうか。 「予測精度95%のモデルが完成しました」 数字だけ見れば、素晴らしい成果に思えます。 会議でも「いよいよ我々もデータドリブンだ」と期待が高まります。 ...
お客様一人ひとりの行動は実にさまざまです。 毎朝コーヒーだけ買って足早に去る人 週末に友人とスイーツを楽しむ人 月に1回だけ大量のコーヒー豆を買う人 「全員に同じクーポンを配る」のは簡単ですが、効果的とは言えません。 朝...
データ分析をしていると、「AとBに本当に差があるのか?」という疑問に出会うことがよくあります。 たとえば…… 「新しい教材を使ったクラスと従来の教材を使ったクラスで、 テストの平均点に差はあるのか?」 「薬Aと薬Bで、...
需要予測の現場には、ちょっと不思議な光景があります。 「あの人の読みは大体当たる」と社内で評判のベテラン担当者がいます。 営業歴20年、取引先の空気を読む力には定評がある。 にもかかわらず、期末になると倉庫には売れ残った...
データ分析の第一歩は、データの「全体像」をつかむことです。 平均値だけを見ても、データの本当の姿はわかりません。 データがどれくらいばらついているのか、偏りがあるのか、外れ値がありそうかなど、複数の指標をまとめて確認する...