RAKSUL×ノバセル×primeNumberの3社合同データエンジニアリング勉強会を開催しました
こんにちは。
primeNumberでエンジニア採用を担当している石川です!
先日、RAKSULさんのオフィスで、ラクスル社×ノバセル社×primeNumberのデータエンジニアリング勉強会を実施しました!
primeNumberからは約20名、ラクスルさん&ノバセルさんからは約10名、データエンジニアリングに関心のあるメンバーが集い(pNからは営業やPdMも参加)ました。終わった後には、クローズドな会だったのでここだけでしか聞けない話も含め、かなりレベルの高い勉強会だったという声がたくさん。
全てを公開できませんが、勉強会の一部を記事にしました!
一人目「BIダッシュボードにおけるDevOps CI/CDの取り組みと課題」
散在する様々なデータを統合してダッシュボード機能を提供する際、新たな要件に応えながらダッシュボードを継続改善していくにはCI/CDの導入が欠かせません。導入にあたっては、dbtのUnit Testを活用したテスト時間の短縮や、DagsterのBranch Deployment機能やSnowflakeの権限管理、QuickSightの環境分離による開発・リリース作業の効率化といった工夫がありました。
今後は完全自動化を目指し、デプロイツールの作成などさらなる運用効率化を進める予定とのことです。
Q&A(抜粋)
Q:QuickSightを選んだ理由
A:コストパフォーマンスが良く、長期的に運用しやすいため。
感想
二人目「大規模データを扱うデータ基盤の事例共有」
データがサイロ化しており、外部データとの連携が課題となっていたお客様の事例をケースとしてご紹介しました。フェーズ1ではTROCCO®を活用してデータ統合基盤を構築し、工数削減やミス削減を達成。フェーズ2では複雑な依存関係の管理と信頼性確保をクリアし、双方向のデータ統合を実現しました。大容量データの転送におけるコスト課題については、部分的にGoogleのDatastreamを導入することでコストを削減しつつ、目標としていた環境の実現や顧客満足度向上を達成しました。
Q&A(抜粋)
Q:Datastream運用時のスキーマ変更や障害対応について:
A:Datastreamが長時間停止した場合はTROCCO®でリカバリーを行い、通常時と障害対応時でデータパイプラインの構成を変えて対応しています。
感想
三人目「データサイエンティストがデータエンジニアリングを学ぶ意味」
これまでのキャリアの中で、データサイエンスとデータエンジニアリングを横断的に経験されている松村さんからの発表です。データサイエンティストには、ビジネス課題の解決に向けた広範な知識と技術が求められる一方で、多くの時間が前処理や仕組みづくりに費やされます。データサイエンティストがデータエンジニアリングのスキルを持つことで、分析だけでなく「自ら価値を生み出せる力」が備わり、組織における自分の役割も大きく広がります。
Q&A(抜粋)
Q:両方経験した目線でデータエンジニアに期待すること
A:結果や成果を、一緒に責任を持ってほしいと思っています。データ分析のゴールに近いのはサイエンティストですが、基盤作りも一緒に取り組むことで「データから価値を創出するプロセス全体」を高めることができます。両者がそれぞれの強みを活かし合うことで大きな成果を生み出せると思っています。
感想
四人目「データカタログ導入による気づき」
データカタログは、企業内でのデータ発見や理解を助けるツールです。今回取り上げた事例では、データチームが分析に集中できるよう、データカタログサービスのCOMETA®を導入しました。導入にあたっては単なるツール導入ではなく、利用者が何を実現したいのかの要求を明確にした上で、ツールを導入することが重要です。また、導入時には、不要データの整理や利用例の明示、メタデータ入力の促進、データカタログを用いたデータ活用のワークショップの実施により、ユーザーにとって有益なツールにするための工夫があったとのことです。
Q&A(抜粋)
Q:どんなタイミングでデータカタログを入れることが多いか。
A:データカタログは基盤構築段階から検討を開始するのが効果的です。事前にしっかりと目的を設定し、運用体制を整えることで、導入後の効果を最大限に引き出すことができます。
感想
五人目「データ基盤の進展とDagsterのTips」
発表者:ラクスル 梅田さん
SIer2社、メガベンチャー、小売業界の大企業経験を経て、2024年1月より現職。
ラクスルのデータ基盤組織について
ラクスルでは、2021年にデータ基盤組織を構成し、現在は「データエンジニアグループ」と「データアナリティクスグループ」の2つのグループに分かれています。データ基盤の歴史としては、次のように進化しています:
エクセル時代
2017年~:分析用DB時代
2020年~:BigQuery時代
2023年~:Dagster + dbt時代(現在)
ここからは飯島さん
AdTech Startup、メガベンチャー、グローバル小売企業経験を経て、現職。
Dagsterはクラウドネイティブなデータオーケストレーションツールで、Data Assetの管理を重視し、開発者体験やリネージの管理に優れています。利点として、迅速な開発サイクルや柔軟なジョブ実行、使いやすいUIが挙げられますが、一方で、処理名のユニーク性やログ不足といった改善の余地もあるとのことです。運用面では自動リトライやSensor機能が有用で、ドキュメントやコミュニティといった便利なリソースが活用できることも心強い、とのことでした。
Q&A(抜粋)
Q:データソースと外部データの取り扱い
A:外部データは多重に用意するわけではなく、権限管理をしっかり行うことでセキュリティとアクセスを確保している
感想
懇親会
LT大会の後は、みんなで懇親会を行いました!
データエンジニアリングの領域でもかなり深いテーマでの事例共有も多く、懇親会でも外には出せないいろんな成功失敗の話やTipsなど、情報交換できたと思います。
改めて、ラクスル、ノバセルのみなさんありがとうございました!
みんなでラクスルポーズ(笑)
primeNumberでは、データエンジニアリングに強い関心と熱意を持って働くメンバーを募集しています!
情報交換からでもOKなので、少しでも興味がある方はぜひお気軽にカジュアル面談にお申し込みください!