データ分析を実施するとき、必ずと言っていいほど実施するのが、EDA(探索的データ分析)です。 Pythonだと、Pandasを使いEDAを実施する人も、多いのではないでしょうか。しかし、PythonでEDAを実施する場合...
前回は、STEP2の「集める」のその5の「データは対で集める」についてお話ししました。 STEP 2(収集)その5|データは対で集める データを集めたら、次にデータを分析しなければなりません。 集めたデータと分析の関係は...
データサイエンスは、データとドメイン(データ活用の現場)の間の橋であり、その橋を走る汽車のようなものです。 ドメイン(データ活用の現場)を覗いてみれば、そこには何かに困っている人がいます。 何かに困っている人が、何に困っ...
ビジネス系のデータ分析には、時間という概念が付いて回ることが多いです。 必ずというわけではありませんが、場合によっては「時間」に関する情報を使用することもあるでしょう。 Pythonですと、datetimeモジュールを利...
BI(ビジネスインテリジェンス)ツールで先ずすべきは、外部にあるデータの読み込み(データ取得)です。 前回は、データベース「PostgreSQL」のデータ取得について説明しました。 読み込むデータは、Excelファイルで...
データ分析・活用(データサイエンス実践)するとき、いつまでも手作業ベースで分析結果や予測結果を、データ分析者やデータサイエンティストなどが提供し続けるのは困難です。 そのため、データ活用の現場でも使えるように、何かしらツ...
いざデータ活用を始めようと考えたとき、データ収集から始めることがあります。 そのとき、完璧にデータを集めようと考える人も少なくありません。 しかし、データ分析・活用(データサイエンス実践)をする前に想像する必要そうなデー...
スタッキングは機械学習のアンサンブル学習の一つです。複数の学習器の出力を特徴量とし、さらに別の学習器で予測する方法です。 TPOTのスタッキングは、指定のアルゴリズムで予測した結果とそのアルゴリズムに入力した特徴量を組み...
Rを使いデータ分析やモデル構築などをするとき、RStudioを使うケースは多いでしょう。 最近、RStudio上でPythonを使うことができるようになっています。 RStudio上で、RとPythonでダイレクトにやり...
データから新たな知見を得たい! という要望は、昔からあります。 仮説発見をするぞという、データマイニングがその現れでしょう。 従来のメインが「仮説検証型データ分析」で、それを進化さえたような感じを与えるようなモノでした。...
集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質が高いのが理想です。データ品質が低いと、後々のデータ分析やアクションなどに悪い影響を及ぼします。 データ品質を決めるのは、...
ビジネスでデータ活用をするとき、何かを予測をするために、数理統計学や機械学習などの数理モデル(分類問題・回帰問題)を構築することは、少なくありません。 例えば…… 売上予測 受注予測 離反予測 アップセル予測 クロスセル...
データ活用をするとき、「見える化」というキーワードが多々出てきます。 取り急ぎ「見える化」するためにデータを集めよう DX(デジタルトランスフォーメーション)の初手として「見える化」から始めましょう データ環境を整備し「...
スタッキングは機械学習のアンサンブル学習の一つです。複数の学習器の出力を特徴量とし、さらに別の学習器で予測する方法です。 TPOTのスタッキングは、指定のアルゴリズムで予測した結果とそのアルゴリズムに入力した特徴量を組み...
集めるデータのイメージが付いたら、次にデータを集めなければなりません。 データ集める際にデータ品質が高いのが理想です。データ品質が低いと、後々のデータ分析やアクションなどに悪い影響を及ぼします。 データ品質を決めるのは、...
データセット手にしたら、数理モデルを作ったりする前に、通常はEDA(探索的データ分析)を実施します。 端的に言うと、データと仲良くなるための会話です。 ざっくり次のような流れになります。 データコンディションチェック(欠...