生成AI時代のデータカタログについて
はじめに
こんにちは、primeNumberでCOMETAのプロダクトマネージャーをしている廣瀬 (@satoshihirose) です。今回はデータカタログ製品のプロダクトマネジメントをしている中で考える、生成AIの登場後のデータカタログ製品についてのお話です。
データカタログへの期待の変化
データカタログというツール・システムは、基礎的なものは古くから存在しており、データマネジメントの現場で利用されてきました。データベース内のデータ項目を管理するようなデータディクショナリからはじまり、企業内のデータが急激に増加するに従ってさまざまなデータを取り扱うようになり、徐々に現代のデータカタログへ変わってきました。データの変換履歴を追跡するリネージ情報や、非構造化データへの対応など、管理するメタデータも多様になっています。
そのように、データカタログの役割は従来の「データの所在や基本的情報を記録するリポジトリ」から変化してきました。そして、それは現代の生成AIの登場を受けて引き続き変化していくでしょう。
データカタログに残る課題
データカタログを導入するときのお客様の課題感のひとつに「社内のどこに、どんなデータがあって、どう使えば良いかがわからないことをなんとかしたい」というものがあります。進化し続ける製品カテゴリの状況はありつつも、いまだにこのような課題はよく耳にします。
この課題は、現状データカタログというツールを導入するだけで簡単に解決できるものではありません。業務で利用したい自身の求めるデータの発見・理解には、そのデータの詳細を示すさまざまなメタデータが管理されている必要があります。しかし、その発見・理解のために必要なビジネスコンテキストを含むメタデータ(ビジネスメタデータ)の管理にはデータカタログを導入したとしても労力がかかります。そのため、なかなか導入目的の達成まで至らない企業が多い(もしくはそのような結果を予期して導入を断念してしまう)状況があります。また、データカタログの想定ユーザーにはデータの取り扱いになれていない人も多く、データカタログ上で確認できるカタログ化されたデータベースのテーブルなどから必要なデータを加工し取得するまでのハードルがあるという課題もあります。
データカタログと生成AI
生成AIはフリーテキストのような非構造化データの取り扱いに長けており、文章の内容・意味を理解し、人間による自然言語での問い合わせにも適切な回答ができます。データカタログでさまざまなデータソースと連携し、データアセットごとに意味のある単位で構造化されたメタデータを蓄積することで、RAGのような構成で生成AIが目的のデータに辿り着けるようなシステムが作れます。このときにデータカタログは、「メタデータを体系的・統合的に管理し、人間にもAIにも理解しやすい形で参照できるようにするハブ」になるはずです。
上に述べたデータカタログにいまだに残る課題に対しては、生成AIによる「構造化され人間もAIも理解しやすいメタデータの生成」と「ユーザーの問合せに対する目的のデータの回答」の実現は一つのソリューションになると思います。ビジネスメタデータを、テーブルの生成クエリやデータパイプラインの構成情報、セマンティックレイヤー(意味論的層)、データクオリティ関連の情報、BIの詳細などから生成AIが抽出することで、従来は大きかったメンテナンス工数を下げることができます。また、生成されたメタデータを元にした自然言語による問い合わせが生成AIによってできるようになります。すると、目的のデータが存在するテーブルはどれかを教えてくれるだけにとどまらず、目的のデータを取得するSQLや目的のデータそのものを出力させたりすることも可能になり、データの操作に慣れていない人でもデータカタログの利用から実際のデータの活用までのハードルが下がります。
最終的には、データカタログがAIエージェント化し、社内のあらゆるデータ環境の情報がインプットされた生き字引のような従業員として何でも聞けば何でも答えてくれるような世界になるかもしれません。たとえば、BIダッシュボードの詳細、そのデータソースや使っているSQLなどがインプットにあれば、データカタログに対して自分が必要な分析について問い合わせることで、既存の類似の分析とそのオーナーや目的に合致する適切なSQLとチャートを一度に返答してくれるかもしれません。データアセットの利用状況やデータカタログ上でのユーザーの行動ログがあれば、いま必要な興味深いデータ分析レポートを自動で生成してくれるようになるかもしれません。
さいごに
primeNumberが開発しているクラウドデータカタログのCOMETAでも、先日に生成AI関連機能の組み込みについてのPRを出しました。
この記事で述べたものはデータカタログが実現する可能性の一部ですが、もちろん生成AIが組み込まれれば何もかも解決となるわけではなく、将来に向けてやるべきことは多い中で現在COMETA開発チームにおいても様々な機能を検討中です。データマネジメントは泥臭い領域ではありますがプロダクトの面から解決できることもまだ多いです。そのようなチャレンジや課題の解決に興味があり一緒にプロダクトを開発・販売をしてくれる人を募集中です。お気軽にカジュアル面談をお申し込みいただければと思います。