―― 集約の先で見えてきた、AI時代のデータ活用と「日本語PII」という現実

執筆者:CPO 石川 雅也
1. ベストオブブリードという「理想」の残したもの
ここ10年ほど、データ活用の現場では「モダンデータスタック(MDS)」という考え方が一気に広まりました。各領域で Best-of-Breed(最適解)のツールを選び、APIでつなぎ合わせる。理想的で自由度の高い世界に見えたのを覚えている方も多いと思います。
一方で、その理想を真面目に追いかけ続けた結果、現場に残ったのはなんだったでしょうか。ツールは増え、構成は複雑化し、気づけば“継ぎ接ぎ”だらけのスタックになっている。 いわゆる「フランケンシュタイン・スタック」というヤツですね。
その裏側で、
- スタック全体を理解・運用するエンジニアの疲弊
- 年々増えていくTCO
- ツールごとに分断されたガバナンス
といった課題が、徐々に無視できないものになっていきました。
2. 統合プラットフォームへの集約は、自然な帰結
こうした状況を受け、すでに多くの先進的な企業が「つなぎ合わせ続ける」ことから距離を置き始めています。
Gartnerの「2025年 データ管理 ハイプ・サイクル」に新たに登場した「データ管理プラットフォーム」も、この流れの延長線上にあると言えます。メタデータ管理、データ統合、ガバナンス、オブザーバビリティを単一の環境で提供するこの考え方は、散らばった責務をもう一度“面”として捉え直そうという試みだと言えるでしょう。
重要なのは、これが単なる「モノリス構造への回帰」ではないという点です。クラウドネイティブな拡張性やAIによる自動化といったMDSの良さはそのままに、プラットフォームとしての一貫性と運用のシンプルさを取り戻そうとする動きです。
結果として、無数のツールを周辺に増やしていくのではなく、強力なプラットフォームを軸にアーキテクチャを削ぎ落としていく。これが、いま語られている「ポスト・モダンデータスタック(Post-MDS)」の姿だと考えています。
ここまでを見ると「プラットフォームへの集約」は、混乱の時代を経たうえでのきわめて自然で、合理的な帰結に見えます。ただ、、多くの現場で実際に出てくるのは、こんな感覚ではないでしょうか。
『確かに、データ管理プラットフォームにして構成はずいぶんシンプルになった。
でも、データ活用が“楽”になったかと言われると、そうでもない。。』
3. 集約の後に残る「人とAIのためのラストワンマイル」
プラットフォームへの集約によって、いわゆる「配管工事(Plumbing)」の負担は確実に減りました。 一方で、インフラが整理されるほど、別の課題がはっきりと見えてきます。
それは、「人とデータ」「AIとデータ」が出会う場所に残る課題です。
たとえば、こんな問いです。
- プラットフォームに入れる前のデータに、個人情報は含まれていないか
- 集約された大量のデータの中から、ビジネスユーザーやAIはどうやって「正しい定義」にたどり着くのか
- マルチクラウド環境で、プラットフォームの“外”にあるデータとどう整合性を保つのか
そして今は、ここにもう一つ問いが加わります。
「このデータを、AIに渡しても本当に大丈夫なのか?」
SnowflakeやDatabricksに寄せること自体は、あくまで手段です。本当の目的は、人間とAIという「データの使い手」が、迷わず、安全に、データを価値へ変えられる状態をつくることにあります。
そのために重要になるのが、
データの「文脈(コンテキスト)」と「信頼性(トラスト)」です。
そして、この二つが最も厄介な形で絡み合うのが、次に述べるテーマです。
4. 日本語PIIという、最後まで残る現実
プラットフォームを集約しても、必ず立ち止まるテーマがあります。
それが PII(個人情報)、特に日本語データに含まれるPIIです。
構造化されたIDやメールアドレスであれば、多くのプラットフォームが一定の対策を提供しています。しかし、日本の現場で本当に多いのは、
- 日本語の自由記述に紛れ込んだ氏名や住所
- コメント欄や業務メモに書かれた個人に関する情報
- 定義が曖昧なまま蓄積されてきた履歴データ
といった、「どこにPIIがあるのか分からない」データです。
実際の運用では、
- PIIの棚卸しは別ツール(しかも海外製ツールは日本語検知精度に課題が残る)
- 匿名化や暗号化はETLやスクリプトで個別対応
- アクセス制御はプラットフォーム側の画面で確認
というように、機能が中途半端のままあるいは分断されたまま、人の運用でつないでいるケースがほとんどです。
しかし、PII対応は本来、「棚卸し → 保護 → 可視化」が一体であるべきと考えます。
どこにPIIがあるか分からなければ、何を匿名化すべきか判断できない。
誰が見えているか分からなければ、AIに使わせていいか説明できない。
日本語PIIを起点に、この一連の流れを 一つの体験として扱う必要がある。それが、Post-MDSの次に残された現実的な課題だと考えています。
5. 日本語PIIを「運用」ではなく「前提」にするために
私たちが考えているのは、新しい基盤を作ることではありません。SnowflakeやDatabricksといった既存のプラットフォームを前提に、
- 日本語PIIを自動で検出・棚卸しできる
- 検出結果に基づいて、匿名化・暗号化を一貫して適用できる
- その状態が、誰にどう見えているかを可視化できる
こうした機能をオールインワンで提供することです。
ポイントは、「できること」ではなく、「分断させないこと」にあります。
PII対応がツールや工程に分かれている限り、 活用は必ず人の判断待ちになります。その結果、AI活用は慎重になり、「本当は使いたいが、やめておこう」という選択が増えていきます。
もし、PIIの所在と状態が常に把握できていて、必要な保護が自動的に施され、説明責任を果たせる状態が保たれていたとしたら。
PII対応は、活用を止めるためのブレーキではなく、安心してアクセルを踏むための前提条件になります。
6. 結び:ポスト・モダンデータスタックの本当のゴール
ポスト・モダンデータスタックの本質は、ツールを減らすことでも、構成を美しくすることでもありません。
人とAIが、「これを使っていいのか」と迷う時間をなくし、データそのものに集中できる状態をつくること。
そのためには、 日本語PIIのような“後回しにされがちな現実”に 正面から向き合う必要があります。
守りの話に見えるかもしれません。しかしそれは同時に、データ活用を一段階前に進めるための、極めて攻めの選択です。
集約されたプラットフォームの力を、本当の意味で使い切るために。その「最後の一歩」を、プロダクトとしてどう支えるか。
その問いに向き合い続けることが、私たちの次の挑戦です。
