第296話|データ時代に逆行しているデータ改竄問題

第296話|データ時代に逆行しているデータ改竄問題

国土交通省の建設工事受注動態統計の書き換え問題、すごいですね。

国交省 不適切な統計処理 推計で8年間に34兆円余 過大に計上

日本の大手製造業でもデータ改竄問題が、定期的にニュースに上がってきています。

偽装に不具合、品質不正 日本のものづくりをむしばむ病

データを改竄しても品質そのものは高くなることはありません。

データ活用という観点で考えると、こういった問題は何とも言えません。

今回は、「データ改竄問題」というお話しです。

データが注目される時代

ここ10年ぐらい、ビッグデータ、統計解析、データサイエンス、機械学習、AI、DXといったキーワードと共に、データそのものが注目されてきました。

データは新しい原油であると言われたりします。

データは新たな土壌であると言われたりしています。

時代に逆行するかのようなもの

不純物が多く含まれた質の悪い原油の価値は小さいでしょう。

汚染土壌から新たな社会サービスやテクノロジーなどは育ちにくいでしょう。

データに不純物をあえて混ぜたり、データを汚染するような行為は、時代に逆行するかのようなものです。

データクレンジングは大変

データ集計や分析、モデル構築などをしたことのある人なら分かると思いますが、データを綺麗にするクレンジング作業は非常に大変です。

さらに、1次データ(元データ)であればまだクレンジング対応可能ですが、2次データの場合どうしようもないことが多いです。

国土交通省の建設工事受注動態統計は、2次データなので、そのデータを活用する側から見たらクレンジングしようのないデータです。

間違ったデータが消えない怖さ

一番怖いのは、修正前の統計データと、修正後の統計データが2つあることです。

修正前の統計データをこの世から消し去ることはできません。どこかの誰かが持っている可能性があります。

意図せず、修正前の統計データを見つけ、これはいいということで、無邪気に使う可能性があります。

怖いことです。

今回のまとめ

今回は、「データ改竄問題」というお話しをしました。

国土交通省の建設工事受注動態統計の書き換え問題といい、日本の大手製造業でもデータ改竄問題といい、どうなっているのでしょうか。

データ活用という観点で考えると、こういった問題は何とも言えません。

統計データを書き換える意味というかメリットも理解不能です。

品質データを改竄しても、数値上はよく見えても、そのモノの品質は高くなることはありません。

このデータ活用が注目される時代に、逆行しているかのような動きです。

データの時代に、データの力を過小評価しているかのようです。