第103話|いかに汚いデータで成果をだすか? それが腕の見せ所かもしれない

第103話|いかに汚いデータで成果をだすか? それが腕の見せ所かもしれない

うちの会社、データだけはあるんだけど……

一度も「データ分析の洗礼」を受けたことのないデータ、多くの場合非常に汚いです。

ある程度データが溜まったら、どのようなデータ分析でもいいので、一度データ分析をすることをお薦めします。データの溜め方が多少なりとも、良い方向に向かうことでしょう。

とは言え、キレイなデータが溜まるのを待ったら、いつまで経ってもデータ分析はできません。

今回は、「いかに汚いデータで成果をだすか? それが腕の見せ所かもしれない」というお話しをします。

ガベージイン・ガベージアウト

データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。

文字通り、「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。

世の中を見渡してみれば、人がゴミと思ったものからお金を生み出している人も少なからずいます。

リサイクルや中古品転売などは分かりやすい例でしょう。精密機器に使われているレアメタルを取り出しお金を変える人もいます。

人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

ガベージイン・ゴスペルアウト

安全保障の世界で考えれば、ゴミだろうが何だろうが、大量のあやふやな情報から何かしら対策を打たなければなりません。

ミサイルが飛んできて、データが汚いから座して死を待ちます…… という人は少ないのではないでしょうか

通常は「ガベージイン・ガベージアウト」です。それを「ガベージイン・ゴスペルアウト」という状態に持っていくのは、データ分析をする人の腕次第です。

ガベージイン・ゴスペルアウトとは、「ゴミみたいなデータからは、福音がでる」ということです。

2種類の汚いデータ

汚いデータには2種類あります。

1つめは、データそのものは良質だけども、すぐに使えるような状態ではないデータです。

多くの場合、データベースに溜まっているデータはそのまま分析には使えません。分析用のデータに加工しなおす必要があります。その加工が非常に大変なケースがあります。よく前処理などと言われたりします。

この辺りは、一度データ分析をしてみることで、どのうような状態にしておくべきかが見えてきます。

2つめは、データそのものが怪しい汚いケースです。

そして、一番多いのが、1つめと2つめが混ざっている状態のデータです。データそのものが汚く、しかも前処理が非常に大変なデータです。

このようなデータは、先ず分析できる状態にデータを加工するという大変な作業をします。その後、データ分析をすることで、データのどんなに汚いかを思い知ります。

汚いデータで分析するメリットは、計り知れない

昔、「自分の未熟な分析の腕を、データに擦り付けるな!」と言われたことがあります。汚いデータから価値を見いだせるかどうかは、データ分析者の腕次第だと言うのです。

なかなか大変なことです。汚いデータには、色々なトラップが潜んでいます。分析が間違っているのか、データがおかしいのか分からなくなり、頭が混乱することもあります。

その代わり、汚いデータで分析するメリットは計り知れません。

例えば……

  • どのようなデータを、どのように蓄積すればいいのかが見えてきます
  • データ分析者のビジネス活用スキルが飛躍的に向上します

どのようなデータを、どのように蓄積すればいいのかが見える

よく次のようなことを聞きます。

どのようなデータを集めればいいのか分からない
今集めているデータが、これでいいのか不安だ
どのように分析すればいいのかイメージがわかない

一度、「それなりのデータ分析」をしてみれば、多くの場合、解決します。

それなりのデータ分析」とは何か? という疑問を持つ人もいるかもしれません。例えば、次の3点のどれかをより良い方向に向かわせるようデータ分析です。

  • 新規顧客の獲得
  • 既存顧客の離反阻止
  • 既存顧客の取引拡大

実際に、右往左往しながら分析していくと、あんなデータがあればいいなとか、このデータ怪しいなとか、こういう風にデータを蓄積していくとよさそうとか、色々なことを思うことでしょう。

少なくとも、分析しやすくビジネス活用しやすい方向性に向かっていきます。

データ分析者のビジネス活用スキルが飛躍的に向上する

汚いデータを整備し分析し、その結果を読み込み現実世界へフィードバックする作業は、非常に大変です。

データ整備で大きな壁にぶち当たあり、その後のデータ分析でさらに大きな壁にぶち当たり、苦労して出した分析結果が怪しい…… なぜならばデータが怪しいから、なんてことが起こります。

  • そもそものデータの中で、どの部分が正しく、どの部分が怪しく、どの範囲であれば分析に使えるのか?
  • 怪しい部分を残しつつ分析することで、どのように分析結果が歪むのか?
  • その歪んだ結果を、どのように定性的な解釈で乗る超えるのか?

データの整備から分析、解釈と、データ分析のビジネス活用スキルが否が応でも高められます。

このような状況下で、1人でデータ分析を進めるのは危険です。できれば1人、データ分析の上級者が見守ってあげるのがいいでしょう。本当にヤバいときに、軌道修正する人です。

今回のまとめ

今回は、「いかに汚いデータで成果をだすか? それが腕の見せ所かもしれない」というお話しをしました。

データ活用の世界に「ガベージイン・ガベージアウト」という言葉があります。「ゴミみたいなデータからは、ゴミのような結果しかでない」ということです。

それを「ガベージイン・ゴスペルアウト」つまり「ゴミみたいなデータからは、福音がでる」という状態に持っていくのは、データ分析をする人の腕次第です。

人のアイデアとスキル次第で、ゴミが宝の山に代わるのです。

実際、汚いデータで分析するメリットは計り知れません。

例えば……

  • どのようなデータを、どのように蓄積すればいいのかが見えてきます
  • データ分析者のビジネス活用スキルが飛躍的に向上します

最初は、あまり価値を生み出せないかもしれませんが、スキルの向上とともに価値を生み出しやすくなります

ある程度データが溜まったら、どのようなデータ分析でもいいので、一度データ分析をすることをお薦めします。データの溜め方が多少なりとも、良い方向に向かうことでしょう。

ビジネスデータサイエンス支援カンパニー
株式会社セールスアナリティクス