header image

Sales Analytics, Co., Ltd.

データ分析・活用支援カンパニー

RECENT ARTICLES

Rでサクッと時系列データの変化点を見つける方法

Rでサクッと時系列データの変化点を見つける方法

ビジネスの世界のデータの多くは、時間軸のあるデータである時系列データです。 この時系列データは、一定ではありません。上昇トレンドがあったかと思えば、下降トレンドになったりします。 要は、構造変化します。 時系列データを手...
STEP 1(準備)その1|実りのあるデータ分析とは?

STEP 1(準備)その1|実りのあるデータ分析とは?

データ分析前の準備は非常に重要です。 どのような準備をするのかが、あなたの望んだ成果(成功)に大きく影響します。その肝になるのがメッセージの品質です。つまり、データ分析前の準備とはメッセージ品質を高める準備をするのです。...
(R編) 時系列データをサクッとSTLでトレンド・季節性に分解

(R編) 時系列データをサクッとSTLでトレンド・季節性に分解

ビジネス上のデータを眺めてみれば、時間という概念が紐づいた時系列データであるケースが多いです。 多くの時系列データは、上昇傾向や下降傾向といったトレンドや、夏に上がり冬に下がる、週末に上がり平日に下がるといった一定の周期...
第215話|ビールおむつ事例から分かる「データインサイト×現場感」でゴスペルアウト

第215話|ビールおむつ事例から分かる「データインサイト×現場感」でゴスペルアウト

2000年ごろのデータマイニングブームの頃、盛んに取り上げられた事例があります。 ビールおむつ事例です。 この事例を元に、データ分析の結果を「どう実務に活かすか?」というワークを実施したことがあります。 そうして分かった...
(Python編) 時系列データをサクッとSTLでトレンド・季節性に分解

(Python編) 時系列データをサクッとSTLでトレンド・季節性に分解

幸か不幸か、ビジネス系のデータの多くは時系列データです。売上データもホームーページのアクセスログもセンサーデータも時系列データです。 時系列データを手にしたとき、どのようなデータなのか見てみたい、ということは多々あります...
AutoML【TPOT】のパイプラインに使われる関数一覧(2020.11.23時点最新)

AutoML【TPOT】のパイプラインに使われる関数一覧(2020.11.23時点最新)

パイプラインは主に「前処理」「特徴量選択」「数理モデル」の3種類の関数で構成されます。 「前処理」「特徴量選択」「数理モデル」のすべての種類の関数が使われることもあれば、一部だけ使われることもあります。 パイプラインの処...
序章|社内ビジネスデータ分析は5ステップではじめよう!

序章|社内ビジネスデータ分析は5ステップではじめよう!

ビジネス系のデータ分析・活用(データサイエンス実践)の進め方は、業界や企業など応じて色々なものがあります。 正解というものはありません。正直、成果さえ出せればそれで良いのです。 私が社内向けのデータ分析・活用(データサイ...
Pythonでインタラクティブにピボット集計

Pythonでインタラクティブにピボット集計

データを手にしたとき、データの理解のために、とりあえずデータを集計してみるということは多いです。 かっこよく言うと「探索的データ分析」(Exploratory data analysis)の1つです。 なんだかんだ言って...
第214話|時系列データを使った3つのデータ活用

第214話|時系列データを使った3つのデータ活用

ビジネス活動でよく目にするのが、時系列データです。 この時系列データを使ったデータ分析・活用(データサイエンス実践)には、いくつかの種類があります。 時系列の異常検知 時系列の分類 時系列の予測 他にもありかもしれません...
Rでインタラクティブにピボット集計

Rでインタラクティブにピボット集計

データを手にしたとき、とりあえずデータを集計してみる、という業務はよく発生します。 データ集計ツールは世の中にたくさんあります。その中で手軽に集計するなら、Excelのピボットテーブルなどでしょう。 Excelのピボット...
AutoML【TPOT】で構築したモデルとRandomForestの比較

AutoML【TPOT】で構築したモデルとRandomForestの比較

今回はTPOTと代表的な機械学習アルゴリズムであるRandomForestとの比較をしてみます。 もう少し説明すると、AutoML(自動機械学習)を活用し自動で構築した数理モデル(パイプライン含む)と、データセットに対し...
第213話|異常検知は最も始めやすいデータ活用の1つ

第213話|異常検知は最も始めやすいデータ活用の1つ

単純な売上データも、ウェブサイトのアクセス状況も、工場などのセンサーから収集すされるデータも、時系列データです。 多くのビジネスの現場で発生するデータは、「時間軸」の概念の付与された時系列データです。 ビジネスの現場でデ...
第212話|前年踏襲という意味不明なロジックがデータ活用でもたまに登場する

第212話|前年踏襲という意味不明なロジックがデータ活用でもたまに登場する

予算などの計画値を考えるとき、前年と同じや前年比1.1倍みたいな立て方がたまにあります。 例えば…… 前年これぐらい使っているから、来年も前年と同じぐらいでいこう! 前年よりも売上を伸ばしたいから、今年は前年比1.1倍ぐ...
AutoML【TPOT】で最適化された「パイプライン」(変換器・予測器)を確かめよう

AutoML【TPOT】で最適化された「パイプライン」(変換器・予測器)を確かめよう

さて、TPOTは自動で特徴量生成と選択、モデル選択をしてくれます。 実際にどのような特徴量が作られ、どのモデルが使われたのか確認したいときがあります。 今回は、第3回で取り上げた分類問題を題材に、TPOTが生成した特徴量...
Power BI Desktop に Excelデータを読み込む

Power BI Desktop に Excelデータを読み込む

前回までで、第1回「BI(ビジネスインテリジェンス)ツールとは何?」および第2回「Power BI Desktop のインストールのインストール方法」について説明しました。 BI(ビジネスインテリジェンス)ツールで先ずす...
第211話|ビジネス要因分析で欠かせない統計的因果探索

第211話|ビジネス要因分析で欠かせない統計的因果探索

最近のデータ分析やモデル構築では、「予測を当てればいい!」という風潮もありますが、確かに当てるだけであれば、それで問題ないでしょう。 画像処理などの世界では、それでいいかもしれません。 ただ、ビジネス系のデータ分析の場合...