この記事は、2025年11月6日の「Data Engineering Summit」 での登壇内容「データ組織ゼロから投資を得るまでの軌跡と未来図」 をQiita用にまとめたものです。
はじめに
本日の内容は、生成AI時代のデータ基盤構築というテーマ に対し、その「AI-Ready」のさらに手前、「AI-ReadyになるためのReady」といった位置づけの話です。
以下のような課題感を持つ方への勇気になれば幸いです。
- 「AI活用が叫ばれてるけど、データ基盤ない!」
- 「社内にデータ活用・管理チームがないが、やりたい!」
この記事では、データ基盤・データ組織がない状態から、どのようにボトムアップで社内にデータ活用を広め、データ整備に対する投資をもらったか の一つの事例を紹介します。
Agenda
- 1歩目: データ組織・基盤「ゼロ」からのデータが見れる状態へ
- 2歩目: 暗中模索の行脚。データ活用の総量を増やす
- 3歩目: 技術的負債解消のため、データ基盤再構築の投資獲得とさらなる成長のための整備
- 現状の課題解決のための新データ基盤
- 未来へ向けて: 活用拡大のためのディメンショナルモデリング導入とその後
【1歩目】データ組織・基盤「ゼロ」からのスタート
入社と2つの「見れない」問題
入社当時、私は「DevOpsエンジニア」としてプロセス課題の解決を期待されていました。組織課題のヒアリングを進める中で、「顧客に喜ばれる、価値のある機能とは?」という言葉が気になりました。
当時、社内には2つの「見れない」問題がありました。
-
1. 開発(製品企画・開発)側の問題
- 新機能開発が優先され、既存機能の価値評価プロセスが回っていなかった。
- 特殊契約の顧客もおり、データアクセスが(権限的・インフラ的に)困難だった。
-
2. ビジネス(CS・販促)側の問題
- 顧客の機能利用状況を把握できず、製品をより活用してもらうための作戦立てが困難だった。
最初のアクション:課題解決 × 基盤導入PoC
この「確実にヤバいデータ課題の解決」 と「データ基盤の導入(PoC)」 を同時に進めることが重要だと考えました。
開発チームとCS・販促チームという複数部署がデータを見る前提だったため、単発のバッチ処理開発ではなく、データサイロを打破できるデータ基盤(Snowflake) が誕生しました。
1歩目のまとめ:
まずは目の前の「データが見れない」課題を解決するために、データ基盤の導入(PoC)を同時に推進した。
【2歩目】暗中模索の行脚 (データ活用の総量を増やす)
“刺さらない”データ活用サンプル
データが見えるようになった(1歩目)後、今度は「データ活用の総量を増やす」 フェーズに入りました。
取得したデータを元に「こういうのがあったらいいのでは?」と、開発フェーズや営業・顧客管理フェーズのパイプラインを可視化するサンプルをひたすら作りました。
しかし...。
作ったダッシュボードのサンプルが、全くもって“刺さらない”。
当時は「ななめ1on1」という制度を活用し、ほとんどの部の部長とMTGを行い、活用の営業をしました。
「データ駆動型」から「レポート駆動型」へ
なぜ刺さらなかったのか。当時を振り返ると、『アジャイル データモデリング』 にある「データ駆動型分析」 の状態に陥っていたのだと思います。
-
データ駆動型分析(当時の私)
- 「システムを作れば、きっとユーザーは来る」
- 業務データソースを分析して要件を定めるが、ユーザーの意見が先ではないため、優先順位やスコープを判断できず、時間と費用がかかる。
-
レポート駆動型分析(目指すべき姿)
- ユーザーがレポートに何を求めているかを読み解く。
- ステークホルダーが抱える緊急度の高いレポート要件に集中し、効率的に開発を進める。
足で稼いだ先に見えたもの
盲目的に刺さらないレポートを作成し、発信し続けていた のは非効率でしたが、その結果、「本江さん、データやってくれるんだって?」 という認知が広がり、データの悩みや解決したいことを相談してくれる人が出てきました。
この暗中模索の行脚のおかげで、「レポート駆動型分析」の案件が舞い込むようになったのです。
結果として、各部署(プロダクト企画、開発、事業企画、マーケティング、経営層)でデータ活用が実現し、Snowflakeのユーザー数は2年間で約250ユーザー増加しました。
2歩目のまとめ:
データ活用の総量を増やすため、鶏(データ駆動)と卵(レポート駆動)は気にせず、とにかく足で稼いで認知を拡大し、案件を獲得した。
【3歩目】技術的負債と投資獲得
迫り来る「技術的負債」という魔境
データ活用が進む一方、PoC期間に最短で活用を目指した結果、既存のアセットに頼り切った「魔境」が完成していました。
- 役割分掌やデータ格納粒度がバラバラ。
- 生データを格納しておらず、再集計・再実行に他チームとの調整が必要。
- ドメイン知識、抽出、加工、提供など、全フェーズで属人化が発生。
- 顧客数・アクセスも順調に増加し、将来的に本番負荷が懸念される。
「さすがにやばい。データ活用を続ける阻害要因じゃん…」
投資獲得のロジック
この技術的負債を解消し、SnowflakeのPoCを終了して本導入する ため、投資獲得に向けた情報まとめを行いました。
ポイントは、「今までの貢献度」 vs 「新基盤のコスト」 を明確にすることです。
1. いままで推進してきたデータ活用の貢献度
提供・運用装着されたダッシュボードが、どれくらいの価値を生んでいるかを月額換算しました。
- 考慮項目: 閲覧人数、意思決定への利用、業務停止時の損失
-
例:
- XXXXXXXX(XXXXXXXX可視化): XXX万円以上/月
- XXXXXXX(役職者)(機能評価・投資判断): XX万円/月
- XXXXXX(役員)(XXXXXXXXXXXダッシュボード): XX万円/月
2. 新基盤の運用コスト(とメリット)
インフラコスト増だけでなく、新基盤によって「作業がどれだけ効率化されるか」も月額効果として算出しました。
- セキュリティ・ガバナンス改善: (要件定義効率化) → XX万円/月
- システム性能・安定性UP: (復旧作業効率化) → X.XX万円/月
- データ活用・拡張性UP: (要件定義・分析業務効率化) → 合計 XXX万円/月
- 開発・運用効率UP: (依頼対応効率化) → XX万円/月
この結果、新基盤構築後のイニシャルコスト に対し、ランニング価値(データ活用価値 - インフラコスト + 作業効率化価値) が十分あることを示し、投資を獲得しました。
3歩目のまとめ:
活用(2歩目)で得た信頼と実績を「価値換算」し、技術的負債の解消(整備)のための投資を獲得した。
【第4章】新データ基盤のアーキテクチャ
投資を獲得し、再構築した新データ基盤の概要です。
主な改善ポイント:
-
本番環境の分離
- 製品DBからfluentbitやCSV出力を経由し、S3へ転送。集計時に本番環境は叩かない構成に。
-
RAWデータ(生データ)の保持
- S3 (extruct) → Snowflake (RAW) に生データを
_loaded_atとbody(JSON) で保持。 - これにより、データ分析チーム内での再集計・再実行が容易になりました。
- S3 (extruct) → Snowflake (RAW) に生データを
-
ELTとオーケストレーション
- データソース(Salesforce, Marketo, GitLab, RedMine等) はS3やAppFlow 経由でSnowflakeのRAW層へ。
- RAW → WAREHOUSE → MART への変換・加工は Airflow (Python, SQL) で管理。
- 同様の処理・リポジトリで管理することで、属人化の排除を狙っています。
-
BI(アウトプット)
- MART層のデータをTableau で可視化、または各種ユースケース に利用。
泥臭い現実(ぼやき)
もちろん、この移行は大変でした…(助けてくれた皆様、ありがとうございます)
- 法務との確認、個人情報保護法の学習(保護士になりました)
- Snowflakeの規約やりとり
- 予算管理
- AppFlowでMarketo同期バグを踏む(最近直ったらしい)
- SaaS毎、データソース毎に異なる課題(全件取得 vs 差分取得)
【第5章】未来へ向けて
新データ基盤が構築できた今、主戦場を再度「データ活用の総量を増やす」 ことに戻していきます。
ディメンショナルモデリングの導入
次のステップとして、「WAREHOUSE層」と「MART層」の整備、つまりディメンショナルモデリングの追加・改善 に注力しています。
-
なぜやるか?
- データ活用の総量を増やし、AI BI や自然言語分析(Snowflake MCP) など、将来の「まだ見ぬビジネス貢献」 に備えるため。
-
どうやってるか?
- データ経験者(0人→3人) で、『アジャイル データモデリング』輪読会 を実施(1周読了)。
- データモデリングのUnit Test的な仕組み や、Snowflake MCPでの即時フィードバック を模索中。
未来への動き:「足」と「技術」の両輪
これからのデータ活用は「足と技術で稼ぐ」 必要があります。
データ活用を増やすため、「足」と「技術」の両方を大事にできるチームを作っていきたいと考えています。
-
足(ビジネス・プロセス)
- ステークホルダーを理解し、緊急・重要な課題に集中する。
- (成果物はレポートとは限らない。データモデル、MLロジック、AIツールかもしれない)
-
技術(課題解決の手段)
- dbt, データカタログ, 非構造化データ, 機械学習, セマンティックレイヤー...
- 永遠にやることがありそうです。
まとめ:ゼロから投資獲得までの3ステップ
私たちが歩んだ2年半 の軌跡は、以下の3ステップの繰り返しでした。
-
1歩目:データが見れる状態へ
- 課題解決とデータ基盤導入(PoC)をセットで進める。
-
2歩目:データ活用の総量を増やす
- 「足で稼ぎ」、仲間(相談者)を増やす。
-
3歩目:将来のための投資の獲得
- 活用(2歩目)の実績を「価値換算」し、技術的負債解消と成長のための整備(投資)につなげる。
そして今、新基盤(整備) を手に入れ、再び「2n歩目:データ活用の総量を増やす」 フェーズに戻っています。
さいごに
よく「データ活用文化の浸透はトップダウンが大事」 と言われますが、ボトムアップでもやれることはあります。
データは、新規事業 、既存事業改善 、プロセス改善 といった「攻め」 から、ガバナンス やインフラ運用 といった「守り」 まで、とんでもない広さのビジネスエリアに関与します。
「データやってる」 ということは、自分の意思でなにかを好転させる機会が無限にある ということです。
いま孤独に戦ってる方 、ぜひ1歩踏み出してみてください。
仲間は近くにいると思います。