面倒な特徴量エンジニアリングやモデル選択、モデルのパラメータ調整などを全自動で実施してくれるAutoML(自動機械学習)が最近発達してきています。 自動機械学習(AutoML) Web講座の前シリーズでは、主にPytho...
前回は、Pywedge を使ったお手軽データビジュアライゼーション(データの可視化)について簡単に説明しました。 Python Pywedge を使ったお手軽データビジュアライゼーション(データの可視化) Pywedge...
DX(デジタルトランスフォーメーション)、AI(人工知能)、ML(機械学習)、DS(データサイエンス)などなど。 どんなにカッコいいワードで表現しようが、データを活用し成果を出すのは現場です。 現場無視でデータ活用を企画...
Pywedgeとは、Pythonの便利なライブラリーの1つです。主に以下のようなことができます。 データビジュアライゼーション(データの可視化) データの前処理支援 機械学習のベースラインモデルの作成支援 ノンコードでG...
データを集めたら、次にデータを分析しなければなりません。 集めたデータと分析の関係は、食材と料理の関係に似ています。良い食材であっても料理人の腕に問題があると台無しになることがあります。不十分な食材でも調理しだいで美味し...
ちょっと理論面と言うかテクニカルと言うか、そんな話題になります。 機械学習で予測モデルなどを構築するとき、ちょいちょい顔をだすキーワードに、バイアス(Bias)とバリアンス(Variance)、そして正則化などがあります...
Excelなどでセルに入っている数字を元に、セルを色分けしたり、棒グラフをセルの中に描いたりすることがります。 そのようなことを、pandasのデータフレームを、Jupyter Notebook上に表示させるときできない...
データを上手く活用することで、収益や利益などの安定化を図ることが出来ます。 旧来から使われているワードで表現すると、平準化とレベルシフトです。 平準化とは、収益や利益などのばらつきを抑えること。統計学っぽく言うと、標準偏...
Caretは構築できる数理モデルが200種類を超え(2021年4月30日現在)、線形回帰モデルから、決定木系、ニューラルネット系と幅広いです。 前回は、Caretの概要とインストール、そして回帰問題を例に使い方を簡単に説...
データを集めたら、次にデータを分析しなければなりません。 集めたデータと分析の関係は、食材と料理の関係に似ています。良い食材であっても料理人の腕に問題があると台無しになることがあります。不十分な食材でも調理しだいで美味し...
scikit-learnなどで構築した機械学習モデル(オブジェクト)を、どのようにファイルに保存し、それを読み込み使うのか。 よくあるのが以下の2つです。 pickle:保存&読み込むスピードがjoblibより早い jo...
なぜお金を使おうとするのだろうか? 行政機関もそうですが、大手企業も似たようなものだと感じているのが、お金をかけなくてもいいところに、お金をかけようとする。 例えば、「1円も払わずに社内に構築できるITシステム(データ利...
最近、機械学習系の数理モデルを構築する人も増えてきています。PythonですとScikit-Learn(sklearn)を使う人が多いようです。 では、Rではどうか? となりますが、Rで似たようなものですと、Caret(...
TPOTは、最適な機械学習の一連の流れ(パイプライン)を自動で構築する自動機械学習(AutoML)です。 では、どのようにして最適なパイプラインを得るのでしょうか? あらゆるパイプラインの構築パターンを試せば、最適なパイ...
EDA(探索的データ分析)と称して、大量のグラフを作成し意味のあるグラフを探しながら見ていくという作業は、昔から行われてきました。 その作業が少しでも楽でにでもなれば、ということで Lux というPythonライブラリー...
「鉛筆を舐めておけ文化」とは、数値の改ざんが当たり前のごとく行われている文化です。 データを活用し社会をより良くするDXとは、真逆の文化です。 DXを推進しながら、「鉛筆を舐めておけ文化」である組織は、その文化から脱却し...