はじめに
はじめまして、セゾンテクノロジーでデータアナリストを担当している杉山です。
「LLMを使えば、自然言語でデータを検索できる時代が来る」
世界中がそんな未来を華やかに語る中、私はずっと不安を感じていました。
「このデータをそのままAIに渡しても、正確な答えが返ってこないのでは…」
この記事では、データアナリストとして現場でぶつかってきた「データの闇」と、Snowflakeのセマンティックビューを使ってその壁を乗り越えようとした取り組みをお伝えします。
正直に言います。社内のデータは、ボロボロです
まず現実をお伝えします。多くの企業の社内データは、こんな状態です。
| 問題 | 具体例 |
|---|---|
| 表記揺れ | 同じ取引先なのに社名表記がバラバラ |
| 欠損・重複 | 埋まっていない列、ダブっている行 |
| 定義のズレ | 部署が違うと、同じ言葉でも意味が違う |
「うちだけの話では?」と思う方もいるかもしれません。でも、これは多くの現場に共通する課題です。
BIの時代は「力技」で乗り切れた
BI(Tableauなど)の時代、データがぐちゃぐちゃでもなんとかなっていました。その理由は、アナリストが間に立って「翻訳」していたからです。
ぐちゃぐちゃなデータ → アナリストの力技 → きれいなダッシュボード
(表記揺れ・欠損・重複) (JOIN・計算フィールド) (見た目は整っていた)
具体的には、こんなことをやっていました。
- 複雑なJOIN(結合)による現場補正
- 難解な計算フィールドを使ったデータクレンジング
- 「行間の意味」を読み解き、画面裏で力技を成立させる
人間が間に立って、いつもデータを「翻訳」していたのです。
AI時代、その「力技」は通用しない
生成AI・LLMの時代になると、話が変わります。
- データ自体の品質が壊滅的である場合、AIは手も足も出ない
- AIには人間のような「気を利かせる補正力」が一切ない
- セマンティクスを外側からきれいに整えても、参照元が汚いと壊滅的
- 「ありのままの仕様」しか受け取れないAIにとって、汚いデータは最大の敵
さらに、人間とAIの間には「解釈のギャップ」があります。
| 「去年」と「25年度の合計」 | |
|---|---|
| 人間 | = 同じ意味に聞こえる |
| AI | ≠ 別の言葉として処理される |
この「意味のズレ」を埋めるのが、セマンティクスの役割です。
汚いデータ + セマンティクス整備 ≠ きれいなデータ
セマンティクスを整えても、汚れたデータは綺麗にならない。
取り組み:データを理解・整備してから、セマンティクスへ
この問題に対して、私たちは以下の2ステップで取り組みました。
STEP 1:データ理解・整備
DDPで複数テーブルを理解し、BPMの業務フローを整理した上で、MART層に4つのテーブルを作成しました。
- 会社情報
- 出荷情報
- 売上情報
- 保守一覧情報
STEP 2:セマンティックビュー定義 → 自然言語クエリ検証
きれいに整備したテーブルに対して、Snowflakeのセマンティックビューで意味・関係性を付与します。その後、自然言語クエリで検証したところ、回答精度が大きく向上しました。
綺麗なテーブル → セマンティックビュー定義 → 自然言語クエリ検証 ✓
(MART層の4テーブル) (意味・関係性を付与) (回答精度が大きく向上)
デモ:AIが「答える」分岐点
セマンティクスの有無が、AIの回答を左右します。実際の検証結果がこちらです。
✅ 正しく回答できた例
Q.「〇〇社のMRRはいくら?」
→ セマンティクスに「MRR」の定義があるため、正しく回答
Q.「〇〇社の昨年の売上を教えて」
→ セマンティクスに「売上」と「昨年」の定義があるため、正しく回答
❌ 回答できなかった例
Q.「〇〇社のエリアは?」
→ セマンティクスに「エリア」の定義がないため、回答不可
Q.「〇〇社のPBを教えて」
→ セマンティクスに「PB(パートナー営業部門)」の定義がないため、回答不可
定義がある問には迷わず回答でき、曖昧な問には沈黙する。この差がセマンティクスの本質です。
私たちが作りたい世界
経営会議、ある日の一コマ(理想の姿)。
Aさん「商品Aって最近どこに売れた?それってどこの流入?」
Bさん「〇〇社です。流入は△△です。」
こんなやり取りが、知識ではなくデータから、瞬時にできる世界。それが実現すると、
- 意思決定が速くなる
- 会議の質が変わる
- 属人化しない(誰でも同じ答えにたどり着く)
今後の展望:自律型AIの未来
| ステップ | 内容 |
|---|---|
| Step1 セマンティクス拡充 | 社内の情報のすべての重要指標(KPI)と同義語のYAML定義を徹底して増強する |
| Step2 オーケストレーション | 役割ごとに特化した複数の自律エージェントが、内部で連携してデータ解釈を進める |
| Step3 完全自動化へ | かつて人がTableauの裏側で泥臭く行っていたデータ抽出・結合・可視化を完全自律化 |
まとめ
- 社内データの「汚さ」は、BI時代はアナリストの力技でごまかせていた
- しかしAI・LLMは「気を利かせる」ことができないため、データ品質がそのまま回答精度に直結する
- セマンティクスを整える前に、まずデータそのものを整備することが不可欠
- Snowflakeのセマンティックビューは、整備されたデータに「意味と関係性」を持たせる有効な手段
- 定義のあるものには答え、定義のないものには沈黙する ― それがセマンティクスの本質
「データを理解し、整備してから、AIに渡す」
この当たり前のことを、丁寧に積み上げることが、AI活用の第一歩だと実感しています。
ここまでご覧いただきありがとうございました。