ビジネスの世界のデータの多くは、時間軸のあるデータである時系列データです。 この時系列データは、一定ではありません。上昇トレンドがあったかと思えば、下降トレンドになったりします。 要は、構造変化します。 時系列データを手...
データ分析前の準備は非常に重要です。 どのような準備をするのかが、あなたの望んだ成果(成功)に大きく影響します。その肝になるのがメッセージの品質です。つまり、データ分析前の準備とはメッセージ品質を高める準備をするのです。...
ビジネス上のデータを眺めてみれば、時間という概念が紐づいた時系列データであるケースが多いです。 多くの時系列データは、上昇傾向や下降傾向といったトレンドや、夏に上がり冬に下がる、週末に上がり平日に下がるといった一定の周期...
2000年ごろのデータマイニングブームの頃、盛んに取り上げられた事例があります。 ビールおむつ事例です。 この事例を元に、データ分析の結果を「どう実務に活かすか?」というワークを実施したことがあります。 そうして分かった...
幸か不幸か、ビジネス系のデータの多くは時系列データです。売上データもホームーページのアクセスログもセンサーデータも時系列データです。 時系列データを手にしたとき、どのようなデータなのか見てみたい、ということは多々あります...
パイプラインは主に「前処理」「特徴量選択」「数理モデル」の3種類の関数で構成されます。 「前処理」「特徴量選択」「数理モデル」のすべての種類の関数が使われることもあれば、一部だけ使われることもあります。 パイプラインの処...
ビジネス系のデータ分析・活用(データサイエンス実践)の進め方は、業界や企業など応じて色々なものがあります。 正解というものはありません。正直、成果さえ出せればそれで良いのです。 私が社内向けのデータ分析・活用(データサイ...
データを手にしたとき、データの理解のために、とりあえずデータを集計してみるということは多いです。 かっこよく言うと「探索的データ分析」(Exploratory data analysis)の1つです。 なんだかんだ言って...
ビジネス活動でよく目にするのが、時系列データです。 この時系列データを使ったデータ分析・活用(データサイエンス実践)には、いくつかの種類があります。 時系列の異常検知 時系列の分類 時系列の予測 他にもありかもしれません...
データを手にしたとき、とりあえずデータを集計してみる、という業務はよく発生します。 データ集計ツールは世の中にたくさんあります。その中で手軽に集計するなら、Excelのピボットテーブルなどでしょう。 Excelのピボット...
今回はTPOTと代表的な機械学習アルゴリズムであるRandomForestとの比較をしてみます。 もう少し説明すると、AutoML(自動機械学習)を活用し自動で構築した数理モデル(パイプライン含む)と、データセットに対し...
単純な売上データも、ウェブサイトのアクセス状況も、工場などのセンサーから収集すされるデータも、時系列データです。 多くのビジネスの現場で発生するデータは、「時間軸」の概念の付与された時系列データです。 ビジネスの現場でデ...
予算などの計画値を考えるとき、前年と同じや前年比1.1倍みたいな立て方がたまにあります。 例えば…… 前年これぐらい使っているから、来年も前年と同じぐらいでいこう! 前年よりも売上を伸ばしたいから、今年は前年比1.1倍ぐ...
さて、TPOTは自動で特徴量生成と選択、モデル選択をしてくれます。 実際にどのような特徴量が作られ、どのモデルが使われたのか確認したいときがあります。 今回は、第3回で取り上げた分類問題を題材に、TPOTが生成した特徴量...
前回までで、第1回「BI(ビジネスインテリジェンス)ツールとは何?」および第2回「Power BI Desktop のインストールのインストール方法」について説明しました。 BI(ビジネスインテリジェンス)ツールで先ずす...
最近のデータ分析やモデル構築では、「予測を当てればいい!」という風潮もありますが、確かに当てるだけであれば、それで問題ないでしょう。 画像処理などの世界では、それでいいかもしれません。 ただ、ビジネス系のデータ分析の場合...