第9回「AutoML【TPOT】のパイプラインに使われる関数一覧」で、TPOTのパイプライン(特徴量生成・予測)で使われる関数の概要を説明しました。 その中には、TPOT独自の関数がいくつかありました。 分類問題・回帰問...
集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質が高いのが理想です。データ品質が低いと、後々のデータ分析やアクションなどに悪い影響を及ぼします。 データ品質を決めるのは、...
Google Colaboratoryは、ブラウザから Python や R を実行できるサービスです。Jupyter Notebook のように使えます。 何も考えずにGoogle Colaboratory上でノートブ...
営業活動やマーケティング活動にとって、顧客の離反対策は重要課題の1つでしょう。 顧客の離反などのイベントが発生するまでの期間を扱う分析手法があります。 生存時間分析(survival time analysis)というも...
第9回「AutoML【TPOT】のパイプラインに使われる関数一覧」で、TPOTのパイプライン(特徴量生成・予測)で使われる関数の概要を説明しました。 その中には、TPOT独自の関数がいくつかありました。 分類問題・回帰問...
「第222話|パレート指数による売上分析」でパレート分布についてお話ししました。 ビジネスはパレートな世界の住人でしょう。 例えば…… チェーン店であれば、極端に売上の大きい店舗はあります 営業パーソンであれば、極端に受...
集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質が高いのが理想です。データ品質が低いと、後々のデータ分析やアクションなどに悪い影響を及ぼします。 データ品質を決めるのは、...
所得分布の不均衡を研究したヴィルフレド・パレート(Vilfredo Pareto)から名付けられた、パレートの法則(20:80の法則もしくは80:20の法則)と呼ばれるものがあります。 この法則は…… 売上上位20%の商...
ビジネス系データサイエンスの多くは、時系列データです。 RのTSstudioパッケージを使うと、サクッと時系列解析できます。「TSstudio」の「TS」はTime Series(時系列)の略です。 RのTSstudio...
前回は、STEP1の「準備する」のその5の「分解と統合」についてお話ししました。 STEP 1(準備)その5|分解と統合 集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質...
以下を見て、どのような印象を持つでしょうか? 90%の有効性のある新型コロナワクチンが登場しました! 日本の離婚率35%だから、今や3組に1組が離婚する時代だ! この「有効性」は「ワクチン有効率」という指標を指しています...
発展途上ではありますが、個人的に注目している時系列解析のライブラリーがあります。Sktimeというライブラリーです。 名前から想像できる通り、Pythonの有名な機械学習ライブラリーScikit-learn(sklear...
前回、パイプラインの評価指標を一覧にしました。 実際にTPOTを使うときに、使いたい評価指標が実装されていないこともあると思います。 例えば回帰問題でよく使われるRMSE(Root Mean Squared Error、...
日時: 2021年3月9日(火)10:00~18:00 受講料: お1人様 50,000円(税抜) 会場: オンライン開催(PCとインターネット接続環境があればどこからでも参加頂けます) 主催: ソフトブレーン・サービス...
効果検証をする方法は色々あります。 前回(第219話|データによる効果検証とネクストアクション)で上げたのが以下の3つです。 AB比較分析 Before&After分析 差分の差分析 Before&Aft...
Jupyter Notebook(IPython notebook)でライブラリー「matplotlib」を使いグラフ表示する人は多いと思います。 matplotlibを使いグラフ表示と言っても、幾つかのやり方があります...