第293話|データサイエンスの基礎体力づくり

第293話|データサイエンスの基礎体力づくり

ビジネスの現場でデータ活用するには、現場の事情を知る必要もあるし、現場に寄り添わなければなりません。

ただ、データサイエンスの基礎的な部分が疎かなデータ分析者やデータサイエンティスト、機械学習エンジニアだと、現場に寄り添う以前の問題があります。

どんな問題かというと、ハチャメチャという問題です。手法などの使い方や解釈がハチャメチャなときがある、という問題です。

人は間違いますし、勘違いも大いにあります。得手不得手や興味の偏りなどから、知識には濃淡があります。すべてを深く正しく理解する人は存在しません。

ただ、データ活用する現場に悪影響を与えるようだと、ちょっとまずいかなと思います。

今回は、「データサイエンスの基礎体力づくり」というお話しです。

適当にデータをぶん投げたら結果が返ってくる

最近の分析ツールの発展は目を見張るものがあります。

ツールに、それっぽいデータをインプットしたら、それっぽい結果が返ってくることがあります。

どのような処理を内部でしているのか不思議なくらいです。

ちょっとした目撃例

例えば、インプットしたデータの変数が、量的データ(ニューメリックデータ)なのか質的データ(カテゴリカルデータ)なのかを、あるルールに則り自動判別しているようでした。

自動判別後、それを人の目で見て修正できるようになっていたのですが、そのまま分析をしている方を目撃したことがあります。そもそも、自動判別していることすら気がついていないようでした。

実際、顧客データの都道府県をあらわす変数が、「1:北海道、2:青森、3:岩手、…」のように数字で入っていました。それを、自動判別装置は量的データ(ニューメリックデータ)としていました。本来は、質的データ(カテゴリカルデータ)です。

この状態で、主成分分析をしようが、回帰分析をしようが、それっぽい結果は返ってきます。

欠測値をすべて0にしました

こちらも、たまに目にする恐ろしい事例です。

データには欠測値という歯抜けの状態のものがあります。

欠測値が多い変数は使えませんし、欠測値だらけのレコードは抜いた方がいいでしょう。

欠測値のある変数やレコードを無理に使うのであれば、欠測値補完をする必要があります。

そこで、欠測値(歯抜けのデータ)をすべて「0」で置き換えてしまうという、恐ろしいことをする方がたまにいます。

一度「0」で置き換えてしまうと、欠測値だから「0」にしたデータと、もともと「0」だったデータと見分けがつかず、その変数やレコードが使えなくなります。

ただ、この状態で、主成分分析をしようが、回帰分析をしようが、それっぽい結果は返ってきます。

こちらは、ツールの問題というよりもリテラシーの問題です。

他にも色々なよくある恐ろしい事例がありますが、共通しているのが、ツール依存でデータサイエンスの基礎体力づくりをしているという点です。

数理???

ツール依存でデータサイエンスの基礎体力づくりをすることは、悪いことではありません。

実務では、大いにツールを活用するからです。

そこに数理の力がプラスされると、大いなる力になるのではないかと思います。

数理の力とは、例えば、これから構築しようとしているモデルを、数式でイメージする、といった類のものです。

意味不明な定理を証明するわけでもなく、小難しい数式展開をするわけでもなく、単にイメージするだけです。

イメージできれば、都道府県をあらわす変数「1:北海道、2:青森、3:岩手、…」を量的データ(ニューメリックデータ)として主成分分析や回帰分析に利用しないかなぁ~と思います。

正直、数式でイメージすることはハードルが高いので、数式+図(脳内映像)でイメージできるといいのかな、と思ったりします。

やっぱり場数かな……

正直、数式+図(脳内映像)でイメージするのもハードルが高い気がするので、結局のところ場数かなとも思います。

身をもって体験する、ことが重要なのかもしれません。

ただ困ったことに、周囲に指摘できる人や指導できる人、教育できる人などがいないと、おかしなことをおかしなまま気づかず、やり続けるといいう危険性は大いにあります。

弱小運動部がたいさん練習しているのに弱小のまま、みたいな感じです。

100本ノック(練習量)

スポーツなどで基本を身につけるために、100本ノックのごとく、一見つまらなそうな基本動作を徹底的にトレーニングすることがあります。

データサイエンスも基礎体力づくりも同様で、基本的な定式化やツール操作、解釈などを、馬鹿みたいに繰り返したほうがいいでしょう。しかも、同じデータに対し繰り返しです。受験生が何度も過去問を解くようにです。

さらに、自分が関わっていないプロジェクトのデータなどを入手できるのであれば入手し、自分なりに基本的な定式化やツール操作、解釈などを実施するのもいいでしょう。受験生が模擬テストを受験するかのごとくです。

これを繰り返すと、「あのときのやり方が今回使えそうだけど、あのときどうやったっけ???」みたいな忘却がある程度防げます。

データ分析やデータサイエンスに関連する数理的な書籍も、何度も何度も読んで頭の中にインプットしておいたほうがいいでしょう。

データサイエンスの基礎体力づくりは、場数と練習量などで数式+図(脳内映像)のスキルを高めるのがいいのではと思います。

今回のまとめ

今回は、「データサイエンスの基礎体力づくり」というお話しをしました。

ビジネスの現場でデータ活用するには、現場の事情を知る必要もあるし、現場に寄り添わなければなりません。

ただ、データサイエンスの基礎的な部分が疎かなデータ分析者やデータサイエンティスト、機械学習エンジニアだと、現場に寄り添う以前の問題があります。

どんな問題かというと、ハチャメチャという問題です。手法などの使い方や解釈がハチャメチャなときがある、という問題です。

人は間違いますし、勘違いも大いにあります。得手不得手や興味の偏りなどから、知識には濃淡があります。すべてを深く正しく理解する人は存在しません。

ただ、データ活用する現場に悪影響を与えるようだと、ちょっとまずいかなと思います。

そのために、例えば、これから構築しようとしているモデルを、数式でイメージするぐらいの数理スキルがあるといいのではないかと思います。しかも、図(脳内映像)でイメージできると良いかと思いますが、ハードルは低くないかと思います。

そのためには、場数と練習量かなと思います。

ちなみに、練習量とは、過去のプロジェクトのデータで繰り返し同じような作業を何度もする、データ分析やデータサイエンスに関連する数理的な書籍を何度も何度も読んで頭の中にインプットする、といったものです。