2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

自然言語処理による革新的なデータ分析サービス:ThoughtSpotの概要とそのユニーク性

Last updated at Posted at 2024-10-31

概要

ThoughtSpotというBIサービスに関するトレーニングを受講したため、その概要、優位性、全体像を整理します。ThoughtSpotは、生成AIのテクノロジーが流行する前から、自然言語処理によるデータ分析を提供していました。他の自然言語処理によるデータ分析ツールと比較して、ユニークな機能があり、個人的には非常に興味深いサービスだと感じました。

image.png

引用元:検索とAI主導の分析 | ThoughtSpot

2021年頃にThoughtSpotや他のBIツールとデータ分析基盤をどのように構築すべきかの相談を受け、以下のような構成図を提案していました。当時は既存のBIツールと共存する提案をしましたが、現在でも他のBIサービスと共存させて利用することがあるようです。本サービスの導入により、データへのアクセス性が向上し、データ利活用の促進が期待できます。

image.png

ThoughtSpotとは

ThoughtSpotは、ビジネスインテリジェンスおよび分析プラットフォームであり、ユーザーが自然言語でデータを検索し、可視化することが可能です。以下の画像では、アメリカ合衆国の太平洋沿岸地域(ワシントン、オレゴン、カリフォルニアの3州)で最も売れたペットを検索しています。先週の都市別、動物別の売上金額トップ5のデータを可視化しています。作成したグラフ(ThoughtSpotでは「ANSWER」と呼ばれます)をダッシュボードとして共有することも可能です。データ取得の際には、DWHに対してクエリを都度発行しており、最新のデータを取得できます。

image.png

引用元:検索とAI主導の分析 | ThoughtSpot

image.png

引用元:検索とAI主導の分析 | ThoughtSpot

データ可視化を行う際、Google検索のように単語(カラム名やメジャー名など)を指定してデータを検索・可視化できます。カラム名などに同音異義語を登録でき、日本語や英語が混在したデータでも検索が可能です。データ取得の際には、文章からクエリを生成するのではなく、事前に予約された単語(トークン)でクエリを生成します。本記事ではこの機能を「Token-to-SQL」と呼ぶことにします(ドキュメントでは「Token-based relational search」と記載されています)。

image.png

引用元:ThoughtSpot Sage | ThoughtSpot Cloud

文章によるデータ可視化もサポートされており、文章から事前予約済みの単語(トークン)を取得し、Token-to-SQLの技術を利用してデータ取得を行います。本記事ではこの機能をText-to-Token-to-SQLと呼ぶことにします。2段階でデータ取得のクエリを生成しており、文章の表現揺れに対して生成AI(2024年10月31日時点では基盤モデルはOpenAI API)による補正とToken-to-SQL機能による補正を行い、出力されるクエリの精度を高めています。

image.png

引用元:ThoughtSpot Sage | ThoughtSpot Cloud

image.png

引用元:ThoughtSpot Sage | ThoughtSpot Cloud

また、BIの埋め込みをサポートしているため、社内向けだけでなく、自社のサイトに埋め込んで社外向けに提供することも可能です。

image.png

引用元:ThoughtSpot Embeddedの概要

他の自然言語処理によるデータ分析ツールとの比較

他の自然言語処理によるデータ分析ツールと比較して、ThoughtSpotは以下のような特徴があります。多くのツールはText-to-SQLでデータを取得するため、精度が高くない場合があり、修正もプロンプトの言い換えなど困難なことがあります。しかし、ThoughtSpotはText-to-Token-to-SQLでデータを取得するため、出力結果に対してGUIで項目を変更することも可能で、修正が容易です。また、ユーザーが修正した内容がログとして残るため、管理者が後で確認する際にユーザーの意図を把握しやすく、生成AIによる可視化機能の改善業務を効率的に行えます。

  1. Text-to-SQLではなく、Text-to-Token-to-SQLでデータ取得を行うため、精度が高い
  2. 出力結果の修正が自然言語だけでなく、項目選択によるGUI操作で可能
  3. 管理者がログから利用者の意図を把握しやすい

ThoughtSpotにおけるデータ利活用のアーキテクチャ概要

ThoughtSpotでデータ利活用を行う際のアーキテクチャは以下のように私は捉えています。ソースとなるDWHに接続し、Data Workspace内でデータ分析に利用するWorksheetやTableを定義します。そのデータモデルを参照してデータの可視化(AnswerやLiveboard)やデータの解析(SpotIQ Analysis)を行います。データの可視化を行う際には、Ask Sageという自然言語処理による可視化機能を利用できます。ThoughtSpotを外部と連携できるSyncという機能もあります。

image.png

参考になりそうなリンク集

14日間の製品トライアルが提供されています。私は既に環境を持っているため試していませんが、興味がある方は試してみると良いかもしれません。

image.png

引用元:Free 14-day trial | ThoughtSpot

製品のドキュメントは以下のリンクから参照できます。10年以上の開発実績があるため、ドキュメントも充実しています。右上のドロップダウンから、製品名(例:Cloud)とバージョン(例:10.3.0.cl)を選択できます。

image.png

引用元:ThoughtSpot Cloud Documentation | ThoughtSpot Cloud

ThoughtSpotの資格もあり、詳細は以下のリンクから確認できます。

image.png

引用元:Certification

日本向けのコミュニティサイトも用意されており、日本語での情報共有が活発に行われる可能性があります。

image.png

引用元:ThoughtSpot Japan Community

ThoughtSpot全体のコミュニティもあり、困った際にはこちらを参照することで解決できるかもしれません。

image.png

引用元:ThoughtSpot Community

2024年12月のイベント

2024年12月4日に「ThoughtSpot Day in Tokyo 2024」が開催されるようです。製品に興味がある方は参加してみると良いかもしれません。

image.png

引用元:ThoughtSpot Day in Tokyo 2024 (12月4日開催)

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?