世界規模の成長が期待される「データカタログ」とは。「COMETA®」プロダクトマネージャー廣瀬さんに聞くデータカタログの価値
こんにちは、primeNumberです。
primeNumberは2024年5月9日、データ基盤の総合支援サービス「TROCCO®」に続く新たなプロダクトとして、データカタログサービス「COMETA®」をリリースしました。
COMETA®が属するデータカタログの市場は、FORTUNE BUSINESS INSIGHTSの調査によれば、2023年で8億7,880万ドル規模と言われており、2030年には34億2,780万ドル規模に成長、今後も市場の拡大が見込まれています。
今回はCOMETA®のプロダクトマネージャー(PdM)を務める廣瀬智史さんに、データカタログとは具体的にどのようなサービスなのか、そしてCOMETA®の詳細について話を伺いました。
データを見やすく整理することで誰もがデータを簡単に活用できるように
――まず始めに「データカタログ」とはどんなサービスなのでしょうか。
大きなくくりとしては「データの民主化」と呼ばれる、データに基づいてビジネスの意志決定を推進するためのプロダクトやサービスの1つですね。
最近ではさまざまな企業内でデータ活用が進んでいます。それ自体はとてもいいことなのですが、部門や部署ごとにデータ活用が進むことで新たな課題が生まれてくることもあります。
例えば顧客情報や売上といったデータで活動している営業部門と、ユーザー数や使われている機能のデータを集計してプロダクトを改善している開発部門を持った企業があるとします。それぞれの部門でデータを個別に管理していると、営業が顧客の利用状況を分析してからアプローチしたい、というような部門を超えた使い方ができません。
そこでまずはデータを一元的に管理することが重要なのですが、統合したデータを蓄積しているだけだと、必要なデータがどこにあるか分からない、そのデータをどういう風に使えばいいのかわからないという新たな課題が生まれてきます。
社内のデータを一元管理するだけでなく、それをカタログのように整理して誰もが簡単に見られるような仕組みにしておくことで、データを使って仕事をしたい人がうまく活用できるようになる、というのがデータカタログのコンセプトです。具体的にはデータに対して「このデータはどういうデータだよ」という意味をメタデータとして設定したり、そうしたメタデータを管理する、といった機能ですね。
最初のステップはまず社内で分散しているデータを統合・蓄積すること。そして蓄積したデータをうまく探索して活用できるようなメタデータの利用や管理といった機能を提供するのが、データカタログというサービスです。
集めたデータをわかりやすくするために必要不可欠な「メタデータ」
――メタデータは具体的にどのようなデータなのでしょうか。
まず1つ目は「テクニカルメタデータ」です。名前の通り技術的なメタデータで、データがテキストなのか数字なのかという種類を表す情報や、このデータには誰がアクセスできるのかと言ったような、データそのものの技術的な詳細を示すものです。
ただ、これだけだと分類はできているけれど実際にどのデータが何を示しているのかがわかりにくいため、「このデータは何に使うデータですよ」とわかりやすく分類するのが「ビジネスメタデータ」です。例えば「このカラムは東京支社の顧客ID」「このカラムはユーザーの初回契約日」といったような分類をビジネスメタデータで行います。
これに加えて「オペレーショナルメタデータ」というメタデータもあります。これはビジネスを推進していくことで生まれるメタデータで、それぞれのデータがどのくらいの頻度で使われているか、直近で使われたのはいつなのかという利用状況を把握できるようなメタデータですね。
2024年5月にリリースした「COMETA®」は戸田建設やセガサミーなど大手企業にも導入
――COMETA®はどのようなサービスなのでしょうか。
COMETA®は元々はTROCCO®の中で提供していたデータカタログの機能を切り出し、2024年5月に独立したサービスとしてリリースしました。まだサービス開始から1年経っていないのですが、おかげさまですでに戸田建設さまやサミーネットワークスさまに使っていただいています。他にもサービスの引き合いもあり、要望やフィードバックをいただきながら機能開発を進めています。
機能面ではデータウェアハウスとしてSnowflakeとBigQueryをサポートするほか、BIツールのTableauとの連携機能も提供していて、データウェアハウス上のデータだけではなく、ダッシュボード上でデータ分析しているお客様にも使っていただけます。
COMETA®では用語を管理する機能も提供しています。ビジネスでよく使われる用語でも、それぞれが想定している定義が異なると意思疎通ができずに混乱してしまい、データが正しく利用されないという事態が生まれかねません。
例えば「チャーンレート」という言葉は企業によって定義がばらつきがちなんですが、社内ではどのような定義で運用しているかを管理・共有できるよう用語集を整備しておくことで、データカタログを見ればチャーンレートをどのように計算しているかがわかり、メンバーが同じ定義に基づいて認識を合わせることができます。
あとはデータカタログに社内の誰がアクセスできるかといったアクセスコントロールや、データのインポートやエクスポートといった基本的な機能も揃えています。
今後は対応サービスの拡充やUX向上に注力。AIの活用も視野に
――どんな企業がCOMETA®の利用に向いているのでしょうか。
1つは社内のさまざまな人がデータを業務で使いたい、あるいはすでに使っているといったユースケースですね。企業の中でさまざまな部署の人がデータを参照したいというステージの企業が主なターゲットになるかなという気がします。
よくある話としては、部署ごとにメタデータをExcelで管理していてデータが点在しているため、それをきちんと管理したいというケースですね。データは日々アップデートする必要がありますし、一方でそのデータがちゃんと最新に反映されているかがわからないとせっかく記録したデータの信頼性も低くなってしまう。データカタログで日々更新したデータを1か所に集約し、それが最新であるかどうかもデータカタログで把握することで、データの有効活用ができるようになります。
――COMETA®で今後開発していきたい機能を教えてください。
まだリリースしたばかりということもあり、開発したい機能はたくさんあるのですが、1つは自動で取得できるメタデータの拡充です。もっと豊富なメタデータを取得できるようにしたいですね。例えば、クエリの実行履歴からリネージ情報が取得できたり、テーブルごとの利用状況が把握できたりする機能があると、データ活用状況がもっと簡単にわかってデータの理解が進むようになるかなと思います。
サポートするデータソースについてもSnowflakeやBigQueryといったデータウェアハウスはもちろん、MySQLやOracleといったデータソースのサポートもしていきたいです。データウェアハウスに統合前のデータに対してもユーザーがより簡単にたどり着けるようなユーザビリティの改善も図っていく予定です。このあたりはTROCCO®と連携することでサポートするデータソースを増やせるのではないかと思っています。
最近ではdbtという、データエンジニアを中心に幅広く使われているデータ変換ツールのメタデータ連携機能を開発しました。こうしたサービス連携も今後は進めていきたいですね。
あとはAIの活用ですね。メタデータとAIは相性がいいと思っていて、入力が手間なメタデータをAIで自動的に生成したり、チャットのようなインターフェースでカタログ上に蓄積されたメタデータを元に社内のデータを探索する、といった活用が考えられます。
また、AIがデータを分類してくれるような機能も考えられます。データカタログのよくある悩みとして、個人情報を含むデータは特定のユーザーにしか見せたくないというケースがあるんですが、そのようなメタデータを人間が全部手動で管理するのは大変です。AIがデータの内容に基づいて「このデータには個人情報が含まれています」というサジェストをしてくれたり勝手にタグづけをしてくれると、個人情報を含んだデータの管理に役立つはずです。
新機能の開発にあたって一緒にデータカタログを作る人やお客様に届けてくれる人を募集しています。データカタログという市場は国内でもまだ認知され切ってはいないですし、国内のプレーヤーでもデファクトのようなサービスがない一方、データカタログが解決できそうな悩みを抱えている企業も多くいます。これから国内の市場を広げていく段階ではありますが、そんなチャレンジに興味を持ってくれる人の応募をお待ちしています。
最後までお読みいただきありがとうございました。データカタログやCOMETA®はもちろん、primeNumberで働くことに興味を持たれた方は、ぜひカジュアル面談でお話しましょう!