データサイエンスと言う用語は、数十年前からありました。
2000年代初期のころ、私が所属していたコンサルティング会社の部署名に、「データサイエンス」という言葉がついていたぐらいでしたから。
データサイエンスが必要な理由は、今も昔も変わりません。
変わったのは、データサイエンスをする人財が至る所で必要になったことぐらいです。
今回は、「なぜ今、データサイエンスが必要なのか?」というお話しです。
Contents
データ分析という仕事
「データ分析者」、「データ分析官」、「データマイナー」、「データサイエンティスト」などなど、データを分析する人の名称は色々あります。
最近、データ分析と言う職業の求人が、急激に増えました。
私の知り限りでは、1990年代すでにこの職業はありましたし、当時注目すらされていました。このころ、ITベンチャーと共に、データ分析系のベンチャーもいくつか設立されました。
当時のデータ分析系のベンチャーの多くは、数名から数十名程度と、小ぶりな企業が多い印象があります。
データのビッグデータ化
「情報爆発」という言葉が、2005年ごろから聞かれるようになりました。情報爆発とともに言われた言葉に、「情報疲労」という言葉もありました。
それが2010年代中ごろからビッグデータという言葉で言い換えられるようになりました。
情報爆発は、データが爆発的に増えること。情報疲労は、それに対処するのが困難なこと。そして、ビッグデータは、情報疲労を起こすことなく爆発的に増えたデータに対し上手く対処すること。
感覚的には、そのような感じだったかと思います。
爆発的に増えたデータに対し、どのように向き合い、ビジネスチャンスに繋げたかで、現在大きな差が生まれました。
データサイエンスとは何か?
ビジネスという視点で考えると、データサイエンスとは、データとビジネスを結びつけることです。
もう少し一般化すると、データサイエンスとは、データとその応用領域とを結びつけることです。応用領域は、医療かもしれませんし、軍事かもしれませんし、農業かもしれません。
要するに、ビジネスの文脈で考えると、増加する一方のデータとビジネスの架け橋が、データサイエンスなのです。
そのデータサイエンスを実現する人が、データサイエンティストということになるでしょう。
データがある限り、データサイエンスは廃れない
データとビジネスの間の架け橋が、新たに必要な限り、データサイエンスは必要になります。
例えば、集まるデータが同じで、ビジネスも変化しないのであれば、その間の架け橋も同じで問題ありません。
しかし、幸か不幸か、データは現在増加中で、そして、ビジネスは時間の流れとともに変化します。
つまり、ビジネスの変化と取得するデータに応じて、架け橋を改修するか、構築し直すかが必要になるのです。
Facebookは20年前はなかった
例えば、広告のデータ分析の分野。
20年前のデータ分析が通用するのか? 10年前の統計や機械学習モデルで対応可能なのか?
そのままでは、通用しませんし、対応もできないでしょう。
例えば、20年前の主流は、テレビCMや雑誌広告、新聞広告などです。
この時代のデータ分析がそのまま通用するわけはありませんし、統計や機械学習モデルを使って効果検証や予測なども無理があることでしょう。
インターネット系の広告が考慮されていないからです。広告・販促の手段は、常に進化し、都度新しいものが登場しています。
新製品や新設備、新材料
このような話しは、マーケティングなどの分野だけではありません。
生産の現場でも似たようなことは起こっています。
製品のライフサイクルが短くなったことや、設備の進化スピードなどにより、20年前や10年前のデータ分析がそのままでは通用しなくなっています。
20年前や10年前では、生産しているものも異なれば、得られるデータももちろん異なります。ブラウン管テレビの生産時のデータ分析を、薄型液晶テレビで活用するには無理が出てくることでしょう。
設備を変えれば、センサーから発生するデータが異なってきます。利用可能なデータの期間を延ばそうと、旧設備と共通したデータだけを使って分析するのは、ナンセンスですし非常にもったいないです。
ある製造業では、ある製品の歩留まりが非常に良くなったタイミングで、その製品の販売が終了。まだまだ歩留まりの改善余地の高い新製品に対し、歩留まり改善活動がスタートするという、終わりのない戦いをしているところもありました。
共通してるのは、データ分析・活用のアプローチだけ
時代が変われば、ビジネス環境も変わり、取得されるデータも変わる。
そのため、データとビジネスの架け橋であるデータサイエンスは、常に変化と進化を求められるようです。
その変化に対応するのは、今で言うとデータサイエンティストという名のデータ分析者です。20年前と比べ、データの種類と量は確実に増えました。分析環境は非常に良くなりました。
そのような中、変わらないことがあります。
それは、データ分析・活用のアプローチです。今も昔も大きくは変わらない印象があります。
例えば、有名なCRISP-DM(CRoss-Industry Standard Process for Data Mining)というデータ分析・活用のアプローチは、昔も今も使われ、それなりの成果を生み続けています。
ビジネス理解
↓
データ理解
↓
データ準備
↓
モデル構築
↓
評価
↓
展開
一方通行ではなく、都度戻ります。ソフトウェア開発と異なり、進めながら明らかにしていく研究調査アプローチでもあります。実ビジネスに展開するまでに、何度も手戻りしながら、ぐるぐる回っていきます。どれだけ高速に回すかがキモになってきます。
この中で最重要なのが、「ビジネス理解」と「データ理解」のデータ分析(「データ準備」や「モデル構築」)前です。
その次に重要なのが、データ分析(「データ準備」や「モデル構築」)後の「評価」と「展開」です。
今回のまとめ
今回は、「なぜ今、データサイエンスが必要なのか?」というお話しをしました。
データ分析という仕事は、私の知る限り20年前からありました。現在は、データサイエンティストと呼ばれることが多いですが、仕事内容は大きくは変わっていません。
データとビジネスの間に架け橋を構築するのがお仕事です。
データサイエンスとは、データとビジネスを結びつけること。その結びつける人がデータサイエンティストです。
つまり、データがある限り、データサイエンスは廃れないのです。
現状から考えると、廃れることはなく、ますます必要になってくることでしょう。
なぜならば、データの種類と量がどんどん増え、その応用領域であるビジネス環境は常に変化し続けているからです。
一度構築した、データとビジネスの間の架け橋は、数年で古くなり、改修するか、新しく構築し直す必要があります。
これが、データサイエンスが今必要な理由です。