集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質が高いのが理想です。データ品質が低いと、後々のデータ分析やアクションなどに悪い影響を及ぼします。 データ品質を決めるのは、...
データセット手にしたら、数理モデルを作ったりする前に、通常はEDA(探索的データ分析)を実施します。 端的に言うと、データと仲良くなるための会話です。 ざっくり次のような流れになります。 データコンディションチェック(欠...
各報道機関の選挙速報で、よく開票率が数%なのに当確(当選確実)が出ることがあります。 データサイエンスっぽいアプローチとしては…… 出口調査を利用したもの 中間投票状況(開票率○○%)の結果を利用したもの ……を利用した...
第9回「AutoML【TPOT】のパイプラインに使われる関数一覧」で、TPOTのパイプライン(特徴量生成・予測)で使われる関数の概要を説明しました。 その中には、TPOT独自の関数がいくつかありました。 分類問題・回帰問...
集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質が高いのが理想です。データ品質が低いと、後々のデータ分析やアクションなどに悪い影響を及ぼします。 データ品質を決めるのは、...
Google Colaboratoryは、ブラウザから Python や R を実行できるサービスです。Jupyter Notebook のように使えます。 何も考えずにGoogle Colaboratory上でノートブ...
営業活動やマーケティング活動にとって、顧客の離反対策は重要課題の1つでしょう。 顧客の離反などのイベントが発生するまでの期間を扱う分析手法があります。 生存時間分析(survival time analysis)というも...
第9回「AutoML【TPOT】のパイプラインに使われる関数一覧」で、TPOTのパイプライン(特徴量生成・予測)で使われる関数の概要を説明しました。 その中には、TPOT独自の関数がいくつかありました。 分類問題・回帰問...
「第222話|パレート指数による売上分析」でパレート分布についてお話ししました。 ビジネスはパレートな世界の住人でしょう。 例えば…… チェーン店であれば、極端に売上の大きい店舗はあります 営業パーソンであれば、極端に受...
集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質が高いのが理想です。データ品質が低いと、後々のデータ分析やアクションなどに悪い影響を及ぼします。 データ品質を決めるのは、...
所得分布の不均衡を研究したヴィルフレド・パレート(Vilfredo Pareto)から名付けられた、パレートの法則(20:80の法則もしくは80:20の法則)と呼ばれるものがあります。 この法則は…… 売上上位20%の商...
ビジネス系データサイエンスの多くは、時系列データです。 RのTSstudioパッケージを使うと、サクッと時系列解析できます。「TSstudio」の「TS」はTime Series(時系列)の略です。 RのTSstudio...
前回は、STEP1の「準備する」のその5の「分解と統合」についてお話ししました。 STEP 1(準備)その5|分解と統合 集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質...
以下を見て、どのような印象を持つでしょうか? 90%の有効性のある新型コロナワクチンが登場しました! 日本の離婚率35%だから、今や3組に1組が離婚する時代だ! この「有効性」は「ワクチン有効率」という指標を指しています...
発展途上ではありますが、個人的に注目している時系列解析のライブラリーがあります。Sktimeというライブラリーです。 名前から想像できる通り、Pythonの有名な機械学習ライブラリーScikit-learn(sklear...
前回、パイプラインの評価指標を一覧にしました。 実際にTPOTを使うときに、使いたい評価指標が実装されていないこともあると思います。 例えば回帰問題でよく使われるRMSE(Root Mean Squared Error、...