Jupyter NotebookやJupyter Labといった、Notebookでデータ分析業務をする人が、ここ数年で増えてきました。 Notebook上でデータ分析をするとき、外部のCSVファイルやDBのデータテーブ...
データがSQL対応のDB(データベース)に格納されている場合、SQLを使いデータを取得し操作することが多いことでしょう。 Python上ではPandasやPolarを使うかもしれませんが、SQLを利用したほうが便利な場面...
数年前から拡張分析(Augmented Analytics)の来ると叫ばれていました。 拡張分析(Augmented Analytics)とは、AIによるデータ分析(Analytics)のことで、通常のアナリティクス業務...
StatsForecastは、色々な統計学的な時系列系の予測モデルを構築することのできる、Pythonの時系列予測パッケージです。 以前、StatsForecastのインストール方法から簡単な使い方(予測モデル構築とテス...
ビジネスの世界の多くのデータは、時間的概念の紐づいた時系列データです。売上データやセンサーデータなどが、その典型例です。 時系列データの1つの用途として、予測というものがあります。 時系列系の予測モデルを構築できるPyt...
データサイエンスのビジネス活用が広まる中、最も活用されているものの1つが異常検知です。 異常検知とは、膨大なデータの中から通常とは異なるものを特定すること、もしくはそのプロセスです。 例えば、ECサイトをハッキングし不正...
データを入手したとき、先ずすべきは探索的データ分析(EDA)です。 この探索的データ分析(EDA)で必ず実施するのが、データビジュアライゼーションです。 要は、グラフやチャートなどを作成し、データの特徴や関係性などを見え...
データ分析で遊ぶとき、何かサンプルとなるデータセットはないか、探すこともあることでしょう。 そのとき重宝するのが、OpenMLのサンプルデータです。 Pythonですと、Scikit-learnの関数「sklearn.d...
データを得たとき、最初にすべきことの1つが、データ理解です。 データ理解とは、「手元にあるデータがどのようなデータなのか理解する」ということです。 データ理解が不十分なまま、より高度な分析を実施したり、数理モデルを構築し...
特徴量選択(変数選択)は、機械学習系の予測モデルなどを構築するとき、最初に行う重要なステップの1つです。 予測に寄与しない特徴量(説明変数)を取り除くことで、よりシンプルな予測モデルを構築を目指します。 色々な考え方や手...
データ活用の浸透とともに、ダッシュボードを利用する人や組織、企業などが増えてきました。 ダッシュボードには、指標をの推移やそれを集計した結果、それらを見やすくしたグラフ、検視した異常のアラート、今後の予測など多くの情報が...
SalesZineに掲載されたインタビュー記事です SFA/CRMの浸透で営業組織のデータ活用は本当に進んできたのか? 「使われないデータ」を復活させるデータ“ネクロマンサー”として企業のデータ活用を長年支援してきた高橋...
売上などの時系列データを予測するモデルは、基本となるのは1期先予測(1-Step ahead prediction)ですが、実務では複数先予測(Multi-Step ahead prediction)が求められます。 ニ...
sktimeに読み込めるデータフォーマットは次の4つです。 csvフォーマット tsフォーマット Weka ARFFフォーマット UCR .tsvフォーマット 前回は、最も利用頻度が高いと思われるCSVの読み込み方と、s...
BIツールの普及とともに、パワーポイントやワードなどのレポートの代替として利用する企業や組織などが増えてきました。 もちろん、今でもパワーポイントやワードなどのレポートは頻繁に利用されています。 ダッシュボードとレポート...
大人気の就活情報サイトである「就活の教科書」に掲載されている以下の記事の監修を行いました。 以下、記事の冒頭の抜粋になります。 「具体的な勉強法3選」や「データサイエンティストになるために必要なスキル」、「志望動機のポイ...