[For beginners] がんばれデータサイエンティスト!

Python の生存時間分析ライブラリー Lifelines で実施する <br>「離反時期(顧客であるまでの期間)分析」

Python の生存時間分析ライブラリー Lifelines で実施する
「離反時期(顧客であるまでの期間)分析」

離反時期や故障時期などを分析する生存時間分析を実施する手段は色々ありますが、生存時間用のライブラリーを活用するのがいいでしょう。 今回利用するのは、LifelinesというPythonのライブラリーです。 生存時間分析ラ...
離反時期の予測に使えるPython の<br>生存時間分析ライブラリー Lifelines に慣れよう!

離反時期の予測に使えるPython の
生存時間分析ライブラリー Lifelines に慣れよう!

生存時間分析とは…… 生物の死 顧客の離反 機械システムの故障 ……など、あるイベント(例:死、離反、故障など)が発生するまでの時間(期間)を推測するための統計学的なデータサイエンス技術です。 詳細というか概要を以下の記...
Python のハイパーパラメータ自動最適化ライブラリー Optuna その2<br> – Optunaを使うとき最低限覚えておきたい探索範囲の指定方法 –

Python のハイパーパラメータ自動最適化ライブラリー Optuna その2
– Optunaを使うとき最低限覚えておきたい探索範囲の指定方法 –

機械学習などの数理モデルには、通常幾つかのハイパーパラメータがあり、そのハイパーパラメータの設定次第で大きく精度が変わります。 このハイパーパラメータを調整し最適な設定を探すタスクを、ハイパーパラメータチューニングと言い...
Python の ハイパーパラメータ自動最適化ライブラリー Optuna その1<br> – Optuna のちょっとした使い方 –

Python の ハイパーパラメータ自動最適化ライブラリー Optuna その1
– Optuna のちょっとした使い方 –

機械学習などの数理モデルには、通常幾つかのハイパーパラメータがあり、そのハイパーパラメータの設定次第で大きく精度が変わります。 このハイパーパラメータを調整し最適な設定を探すタスクを、ハイパーパラメータチューニングと言い...
PythonのPandasを使った時系列データの3種類の特徴量(説明変数)の作り方

PythonのPandasを使った時系列データの3種類の特徴量(説明変数)の作り方

売上などのビジネス系のデータの多くは、時間概念が紐付いた時系列データです。 時間概念を取っ払ったテーブルデータと異なり、時系列データは、過去の値に大きく依存する、という特徴があります。そのため、一工夫必要になります。例え...
時系列AutoML(自動機械学習)<br>第1回:イントロダクション<br>(AutoTSのインストール方法と簡単な使い方など)

時系列AutoML(自動機械学習)
第1回:イントロダクション
(AutoTSのインストール方法と簡単な使い方など)

最近色々な自動機械学習 AutoML(Automated Machine Learning)が登場しています。 AutoML(自動機械学習)は、機械学習パイプライン(データセット→特徴量エンジニアリング→学習→評価など)...
量質混在データ(数値変数とカテゴリカル変数が混在)に対する<br>Gower距離による階層型クラスタリング(Python)

量質混在データ(数値変数とカテゴリカル変数が混在)に対する
Gower距離による階層型クラスタリング(Python)

クラスター分析で利用されるメジャーなアルゴリズムは、非階層型クラスタリングのk-means法か、階層型のWard法がよく使われます。 問題は、量的データ(数値変数)のみを使うというところにあります。質的データ(カテゴリカ...
顧客別CLTV(顧客生涯価値)モデルを <br>Python Lifetimes でサクッと作る方法を事例で学ぶ

顧客別CLTV(顧客生涯価値)モデルを 
Python Lifetimes でサクッと作る方法を事例で学ぶ

顧客別CLTV(Individual CLTV)とは、顧客の金銭的価値のことで、将来行う取引に基づいて算出されます。 個々の顧客が将来どのくらいの利益を生み出すかがわかれば、価値の高い顧客に対し、マーケティング活動などを...
Python ThymeBoost でさくっと勾配ブーステッド時系列モデル<br>(A Gradient Boosted Time-Series Model)を作ろう!

Python ThymeBoost でさくっと勾配ブーステッド時系列モデル
(A Gradient Boosted Time-Series Model)を作ろう!

時系列モデルと言えば、ARIMAモデルです。最近では、FacebookのProphetモデルも人気です。 ThymeBoostは、時系列分解(トレンド成分・季節成分・など)と勾配ブースティング(XGBoostなど)を組み...