header image

Sales Analytics, Co., Ltd.

データ分析・活用支援カンパニー

データ分析・活用支援カンパニー
株式会社セールスアナリティクス

RECENT ARTICLES

第228話|誰かが困っているところで、<br>データサイエンスのサーキュラーエコノミー(循環経済)を起こせ!

第228話|誰かが困っているところで、
データサイエンスのサーキュラーエコノミー(循環経済)を起こせ!

データサイエンスは、データとドメイン(データ活用の現場)の間の橋であり、その橋を走る汽車のようなものです。 ドメイン(データ活用の現場)を覗いてみれば、そこには何かに困っている人がいます。 何かに困っている人が、何に困っ...
Pythonで日時を扱うなら、とりあえずdatetimeモジュールを利用しよう

Pythonで日時を扱うなら、とりあえずdatetimeモジュールを利用しよう

ビジネス系のデータ分析には、時間という概念が付いて回ることが多いです。 必ずというわけではありませんが、場合によっては「時間」に関する情報を使用することもあるでしょう。 Pythonですと、datetimeモジュールを利...
Power BI Desktop で 複数のCSVデータを取得し結合する

Power BI Desktop で 複数のCSVデータを取得し結合する

BI(ビジネスインテリジェンス)ツールで先ずすべきは、外部にあるデータの読み込み(データ取得)です。 前回は、データベース「PostgreSQL」のデータ取得について説明しました。 読み込むデータは、Excelファイルで...
さくっと機械学習のWebアプリを作りたくなったら<br>Pythonのstreamlitがとっても手軽だよ

さくっと機械学習のWebアプリを作りたくなったら
Pythonのstreamlitがとっても手軽だよ

データ分析・活用(データサイエンス実践)するとき、いつまでも手作業ベースで分析結果や予測結果を、データ分析者やデータサイエンティストなどが提供し続けるのは困難です。 そのため、データ活用の現場でも使えるように、何かしらツ...
第227話|完璧にデータを集めなければならないという勘違い

第227話|完璧にデータを集めなければならないという勘違い

いざデータ活用を始めようと考えたとき、データ収集から始めることがあります。 そのとき、完璧にデータを集めようと考える人も少なくありません。 しかし、データ分析・活用(データサイエンス実践)をする前に想像する必要そうなデー...
AutoML【TPOT】スタッキング関数「StackingEstimator」(回帰問題編)

AutoML【TPOT】スタッキング関数「StackingEstimator」(回帰問題編)

スタッキングは機械学習のアンサンブル学習の一つです。複数の学習器の出力を特徴量とし、さらに別の学習器で予測する方法です。 TPOTのスタッキングは、指定のアルゴリズムで予測した結果とそのアルゴリズムに入力した特徴量を組み...
第226話|現場感とデータ分析(どちらかというと仮説探索型データ分析)

第226話|現場感とデータ分析(どちらかというと仮説探索型データ分析)

データから新たな知見を得たい! という要望は、昔からあります。 仮説発見をするぞという、データマイニングがその現れでしょう。 従来のメインが「仮説検証型データ分析」で、それを進化さえたような感じを与えるようなモノでした。...
STEP 2(収集)その5|データは対で集める

STEP 2(収集)その5|データは対で集める

集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質が高いのが理想です。データ品質が低いと、後々のデータ分析やアクションなどに悪い影響を及ぼします。 データ品質を決めるのは、...
Python の Explainer Dashboard で<br>予測モデル(分類問題・回帰問題)の結果を半自動分析しよう

Python の Explainer Dashboard で
予測モデル(分類問題・回帰問題)の結果を半自動分析しよう

ビジネスでデータ活用をするとき、何かを予測をするために、数理統計学や機械学習などの数理モデル(分類問題・回帰問題)を構築することは、少なくありません。 例えば…… 売上予測 受注予測 離反予測 アップセル予測 クロスセル...
第225話|見える化の魔力

第225話|見える化の魔力

データ活用をするとき、「見える化」というキーワードが多々出てきます。 取り急ぎ「見える化」するためにデータを集めよう DX(デジタルトランスフォーメーション)の初手として「見える化」から始めましょう データ環境を整備し「...
AutoML【TPOT】スタッキング関数「StackingEstimator」(分類問題編)

AutoML【TPOT】スタッキング関数「StackingEstimator」(分類問題編)

スタッキングは機械学習のアンサンブル学習の一つです。複数の学習器の出力を特徴量とし、さらに別の学習器で予測する方法です。 TPOTのスタッキングは、指定のアルゴリズムで予測した結果とそのアルゴリズムに入力した特徴量を組み...
STEP 2(収集)その4|最重要なのはデータの前提

STEP 2(収集)その4|最重要なのはデータの前提

集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質が高いのが理想です。データ品質が低いと、後々のデータ分析やアクションなどに悪い影響を及ぼします。 データ品質を決めるのは、...
データセットを手にしたら、Pythonでサクッと半自動EDA(探索的データ分析)をしよう

データセットを手にしたら、Pythonでサクッと半自動EDA(探索的データ分析)をしよう

データセット手にしたら、数理モデルを作ったりする前に、通常はEDA(探索的データ分析)を実施します。 端的に言うと、データと仲良くなるための会話です。 ざっくり次のような流れになります。 データコンディションチェック(欠...
第224話|なぜ、開票率数%で当確なのか?

第224話|なぜ、開票率数%で当確なのか?

各報道機関の選挙速報で、よく開票率が数%なのに当確(当選確実)が出ることがあります。 データサイエンスっぽいアプローチとしては…… 出口調査を利用したもの 中間投票状況(開票率○○%)の結果を利用したもの ……を利用した...
AutoML【TPOT】特有の関数「OneHotEncoder変換器」

AutoML【TPOT】特有の関数「OneHotEncoder変換器」

第9回「AutoML【TPOT】のパイプラインに使われる関数一覧」で、TPOTのパイプライン(特徴量生成・予測)で使われる関数の概要を説明しました。 その中には、TPOT独自の関数がいくつかありました。 分類問題・回帰問...