森田俊哉のデータは力なり

株式会社インサイトテクノロジー 
代表取締役社長 CEO

森田 俊哉
株式会社インサイトテクノロジー 代表取締役社長 CEO 森田 俊哉
Insight Technology CEO BLOG
インサイトテクノロジーを知る

ビッグデータは「Veracity(正確性)」で勝負!

今回のブログでは、ビッグデータについてお話しします。
2013年~2014年頃にビッグデータがバズワードになり、今や古いイメージすらある
「ビッグデータ」ですが、その課題は現在の企業にとっても共通です。
その特性は、以下の4Vで表されます。

1. Volume:データ量
ビッグデータという名前の通り、やはり膨大な量のデータであるということです。
データの種類に対する明確な定義はなく、どんな種類でもビッグデータになります。

2. Velocity:データ速度
データ速度とはいわゆるデータのI/O(インプット/アウトプット)速度を指し、データの生成速度とそのデータを素早く処理する速度、データ更新頻度の高さを意味しています。

3. Variety:データ多様性
データの量、速度もさることながらデータ種類も重要です。
従来から存在する販売データや在庫データ、顧客データなどに加えてソーシャルメディア(facebook,Twitterなど)のデータやIoTのセンサーデータなど多様なデータが生成されて蓄積・分析の対象となっています。また、データ形式も画像や音声など多様化しています。

4. Veracity:データ正確性
ビッグデータの利活用のためには、データに紛れ込むノイズ(不正確なデータ)を排除し、データが正確でクリーンであることが必要です。

この4Vに「Value(データ価値)」を加えて5Vと言われることもあります。

ここで考えたいのは、「データの量もデータの種類も多ければ多いほど良くて素早く処理ができれば利活用出来るのか?」ということです。
大量にデータを集めても不正確なデータがたくさん含まれていると正しい処理はできないのではないでしょうか?
データの正確性は、データ量やデータ速度、データ多様性に比べるとあまり注目されていないように思えます。データウェアハウスと呼ばれる大規模データベースでは、営業や経理といったサブジェクト毎に時系列に従って整理された形で蓄積されますが、ビッグデータはデータレイクという収集された生のデータをファイルとして蓄積しているケースが多いと思います。
そして大量のデータの正確性レベルの確保は非常に難しくなります。

米国では、品質の悪いデータの対応に毎年数兆ドルを費やしているという話もあります。
データの正確性について、7月の日経新聞の記事に「SNSは3割が決める」*という記事がありました。2〜3割の確信的な意見を持つ人によって、残りの浮動的な考えの人が動いて全体の意見になってしまうというものです。結果3割の人の意見が全体の意向よりも優先されてしまう。

これは、報道でも同じような傾向があるように思えます。一部の専門家やテレビのインタービューなどが報道されることで、世論が大きく影響を受けてSNSで発言する3割(3割もいないと思いますが)の意見が一般的な意見のように取り扱われるのには違和感があります。
このようにビッグデータの活用では、スーパーコンピュータで求めることも重要ですがその元になるデータの発生源・正確性を含めて分析して欲しいものです。
これからもデータ分析は色々な場面で活用されると思いますが、たくさんのデータを用いて分析するだけでなく、たくさん集められたデータ種別毎にその正確性(Veracity)を組み入れた分析ができると、より正確な分析ができるのではないかと考えています。

たくさんの種類のデータでそれぞれそのVeracity scoreが分析のパラメータの1つとして取り入れられると面白いと思います。
インサイトテクノロジーでもVeracity scoreを取り入れたInsight Asirの開発を考えてみたいですね!


*多数決は幻か 世論力学で判明「SNSは3割が決める」
日本経済新聞 2021年7月10日
https://www.nikkei.com/article/DGXZQOUF114ON0R10C21A5000000/

このエントリーをはてなブックマークに追加