@akari_sugiyamain

株式会社セゾンテクノロジー

私が経験してきた、データの闇 ― Snowflakeのセマンティックビューで「データ品質の壁」と向き合う

Posted at 2026-06-24

はじめに

はじめまして、セゾンテクノロジーでデータアナリストを担当している杉山です。

「LLMを使えば、自然言語でデータを検索できる時代が来る」

世界中がそんな未来を華やかに語る中、私はずっと不安を感じていました。

「このデータをそのままAIに渡しても、正確な答えが返ってこないのでは…」

この記事では、データアナリストとして現場でぶつかってきた「データの闇」と、Snowflakeのセマンティックビューを使ってその壁を乗り越えようとした取り組みをお伝えします。

正直に言います。社内のデータは、ボロボロです

まず現実をお伝えします。多くの企業の社内データは、こんな状態です。

問題	具体例
表記揺れ	同じ取引先なのに社名表記がバラバラ
欠損・重複	埋まっていない列、ダブっている行
定義のズレ	部署が違うと、同じ言葉でも意味が違う

「うちだけの話では？」と思う方もいるかもしれません。でも、これは多くの現場に共通する課題です。

BIの時代は「力技」で乗り切れた

BI（Tableauなど）の時代、データがぐちゃぐちゃでもなんとかなっていました。その理由は、アナリストが間に立って「翻訳」していたからです。

ぐちゃぐちゃなデータ  　 →    アナリストの力技     →  きれいなダッシュボード
（表記揺れ・欠損・重複）   （JOIN・計算フィールド）   （見た目は整っていた）

具体的には、こんなことをやっていました。

複雑なJOIN（結合）による現場補正
難解な計算フィールドを使ったデータクレンジング
「行間の意味」を読み解き、画面裏で力技を成立させる

人間が間に立って、いつもデータを「翻訳」していたのです。

AI時代、その「力技」は通用しない

生成AI・LLMの時代になると、話が変わります。

データ自体の品質が壊滅的である場合、AIは手も足も出ない
AIには人間のような「気を利かせる補正力」が一切ない
セマンティクスを外側からきれいに整えても、参照元が汚いと壊滅的
「ありのままの仕様」しか受け取れないAIにとって、汚いデータは最大の敵

さらに、人間とAIの間には「解釈のギャップ」があります。

	「去年」と「25年度の合計」
人間	＝同じ意味に聞こえる
AI	≠ 別の言葉として処理される

この「意味のズレ」を埋めるのが、セマンティクスの役割です。

汚いデータ＋セマンティクス整備 ≠ きれいなデータ

セマンティクスを整えても、汚れたデータは綺麗にならない。

取り組み：データを理解・整備してから、セマンティクスへ

この問題に対して、私たちは以下の2ステップで取り組みました。

STEP 1：データ理解・整備

DDPで複数テーブルを理解し、BPMの業務フローを整理した上で、MART層に4つのテーブルを作成しました。

会社情報
出荷情報
売上情報
保守一覧情報

STEP 2：セマンティックビュー定義 → 自然言語クエリ検証

きれいに整備したテーブルに対して、Snowflakeのセマンティックビューで意味・関係性を付与します。その後、自然言語クエリで検証したところ、回答精度が大きく向上しました。

綺麗なテーブル  　　　→  セマンティックビュー定義  →  自然言語クエリ検証 ✓
（MART層の4テーブル）   （意味・関係性を付与）      （回答精度が大きく向上）

デモ：AIが「答える」分岐点

セマンティクスの有無が、AIの回答を左右します。実際の検証結果がこちらです。

✅ 正しく回答できた例

Q.「〇〇社のMRRはいくら？」
→ セマンティクスに「MRR」の定義があるため、正しく回答

Q.「〇〇社の昨年の売上を教えて」
→ セマンティクスに「売上」と「昨年」の定義があるため、正しく回答

❌ 回答できなかった例

Q.「〇〇社のエリアは？」
→ セマンティクスに「エリア」の定義がないため、回答不可

Q.「〇〇社のPBを教えて」
→ セマンティクスに「PB（パートナー営業部門）」の定義がないため、回答不可

定義がある問には迷わず回答でき、曖昧な問には沈黙する。この差がセマンティクスの本質です。

私たちが作りたい世界

経営会議、ある日の一コマ（理想の姿）。

Aさん「商品Aって最近どこに売れた？それってどこの流入？」

Bさん「〇〇社です。流入は△△です。」

こんなやり取りが、知識ではなくデータから、瞬時にできる世界。それが実現すると、

意思決定が速くなる
会議の質が変わる
属人化しない（誰でも同じ答えにたどり着く）

今後の展望：自律型AIの未来

ステップ	内容
Step1 セマンティクス拡充	社内の情報のすべての重要指標（KPI）と同義語のYAML定義を徹底して増強する
Step2 オーケストレーション	役割ごとに特化した複数の自律エージェントが、内部で連携してデータ解釈を進める
Step3 完全自動化へ	かつて人がTableauの裏側で泥臭く行っていたデータ抽出・結合・可視化を完全自律化

まとめ

社内データの「汚さ」は、BI時代はアナリストの力技でごまかせていた
しかしAI・LLMは「気を利かせる」ことができないため、データ品質がそのまま回答精度に直結する
セマンティクスを整える前に、まずデータそのものを整備することが不可欠
Snowflakeのセマンティックビューは、整備されたデータに「意味と関係性」を持たせる有効な手段
定義のあるものには答え、定義のないものには沈黙する ― それがセマンティクスの本質

「データを理解し、整備してから、AIに渡す」

この当たり前のことを、丁寧に積み上げることが、AI活用の第一歩だと実感しています。

ここまでご覧いただきありがとうございました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up