7
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

私が経験してきた、データの闇 ― Snowflakeのセマンティックビューで「データ品質の壁」と向き合う

7
Posted at

はじめに

はじめまして、セゾンテクノロジーでデータアナリストを担当している杉山です。

「LLMを使えば、自然言語でデータを検索できる時代が来る」

世界中がそんな未来を華やかに語る中、私はずっと不安を感じていました。

「このデータをそのままAIに渡しても、正確な答えが返ってこないのでは…」

この記事では、データアナリストとして現場でぶつかってきた「データの闇」と、Snowflakeのセマンティックビューを使ってその壁を乗り越えようとした取り組みをお伝えします。


正直に言います。社内のデータは、ボロボロです

まず現実をお伝えします。多くの企業の社内データは、こんな状態です。

問題 具体例
表記揺れ 同じ取引先なのに社名表記がバラバラ
欠損・重複 埋まっていない列、ダブっている行
定義のズレ 部署が違うと、同じ言葉でも意味が違う

「うちだけの話では?」と思う方もいるかもしれません。でも、これは多くの現場に共通する課題です。


BIの時代は「力技」で乗り切れた

BI(Tableauなど)の時代、データがぐちゃぐちゃでもなんとかなっていました。その理由は、アナリストが間に立って「翻訳」していたからです。

ぐちゃぐちゃなデータ    →    アナリストの力技     →  きれいなダッシュボード
(表記揺れ・欠損・重複)   (JOIN・計算フィールド)   (見た目は整っていた)

具体的には、こんなことをやっていました。

  • 複雑なJOIN(結合)による現場補正
  • 難解な計算フィールドを使ったデータクレンジング
  • 「行間の意味」を読み解き、画面裏で力技を成立させる

人間が間に立って、いつもデータを「翻訳」していたのです。


AI時代、その「力技」は通用しない

生成AI・LLMの時代になると、話が変わります。

  • データ自体の品質が壊滅的である場合、AIは手も足も出ない
  • AIには人間のような「気を利かせる補正力」が一切ない
  • セマンティクスを外側からきれいに整えても、参照元が汚いと壊滅的
  • 「ありのままの仕様」しか受け取れないAIにとって、汚いデータは最大の敵

さらに、人間とAIの間には「解釈のギャップ」があります。

「去年」と「25年度の合計」
人間 = 同じ意味に聞こえる
AI ≠ 別の言葉として処理される

この「意味のズレ」を埋めるのが、セマンティクスの役割です。

汚いデータ + セマンティクス整備 ≠ きれいなデータ

セマンティクスを整えても、汚れたデータは綺麗にならない。


取り組み:データを理解・整備してから、セマンティクスへ

この問題に対して、私たちは以下の2ステップで取り組みました。

STEP 1:データ理解・整備

DDPで複数テーブルを理解し、BPMの業務フローを整理した上で、MART層に4つのテーブルを作成しました。

  • 会社情報
  • 出荷情報
  • 売上情報
  • 保守一覧情報

STEP 2:セマンティックビュー定義 → 自然言語クエリ検証

きれいに整備したテーブルに対して、Snowflakeのセマンティックビューで意味・関係性を付与します。その後、自然言語クエリで検証したところ、回答精度が大きく向上しました。

綺麗なテーブル     →  セマンティックビュー定義  →  自然言語クエリ検証 ✓
(MART層の4テーブル)   (意味・関係性を付与)      (回答精度が大きく向上)

デモ:AIが「答える」分岐点

セマンティクスの有無が、AIの回答を左右します。実際の検証結果がこちらです。

✅ 正しく回答できた例

Q.「〇〇社のMRRはいくら?」
→ セマンティクスに「MRR」の定義があるため、正しく回答

Q.「〇〇社の昨年の売上を教えて」
→ セマンティクスに「売上」と「昨年」の定義があるため、正しく回答

❌ 回答できなかった例

Q.「〇〇社のエリアは?」
→ セマンティクスに「エリア」の定義がないため、回答不可

Q.「〇〇社のPBを教えて」
→ セマンティクスに「PB(パートナー営業部門)」の定義がないため、回答不可

定義がある問には迷わず回答でき、曖昧な問には沈黙する。この差がセマンティクスの本質です。


私たちが作りたい世界

経営会議、ある日の一コマ(理想の姿)。

Aさん「商品Aって最近どこに売れた?それってどこの流入?」

Bさん「〇〇社です。流入は△△です。」

こんなやり取りが、知識ではなくデータから、瞬時にできる世界。それが実現すると、

  • 意思決定が速くなる
  • 会議の質が変わる
  • 属人化しない(誰でも同じ答えにたどり着く)

今後の展望:自律型AIの未来

ステップ 内容
Step1 セマンティクス拡充 社内の情報のすべての重要指標(KPI)と同義語のYAML定義を徹底して増強する
Step2 オーケストレーション 役割ごとに特化した複数の自律エージェントが、内部で連携してデータ解釈を進める
Step3 完全自動化へ かつて人がTableauの裏側で泥臭く行っていたデータ抽出・結合・可視化を完全自律化

まとめ

  • 社内データの「汚さ」は、BI時代はアナリストの力技でごまかせていた
  • しかしAI・LLMは「気を利かせる」ことができないため、データ品質がそのまま回答精度に直結する
  • セマンティクスを整える前に、まずデータそのものを整備することが不可欠
  • Snowflakeのセマンティックビューは、整備されたデータに「意味と関係性」を持たせる有効な手段
  • 定義のあるものには答え、定義のないものには沈黙する ― それがセマンティクスの本質

「データを理解し、整備してから、AIに渡す」

この当たり前のことを、丁寧に積み上げることが、AI活用の第一歩だと実感しています。

ここまでご覧いただきありがとうございました。


7
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?