概要
ThoughtSpotというBIサービスに関するトレーニングを受講したため、その概要、優位性、全体像を整理します。ThoughtSpotは、生成AIのテクノロジーが流行する前から、自然言語処理によるデータ分析を提供していました。他の自然言語処理によるデータ分析ツールと比較して、ユニークな機能があり、個人的には非常に興味深いサービスだと感じました。
2021年頃にThoughtSpotや他のBIツールとデータ分析基盤をどのように構築すべきかの相談を受け、以下のような構成図を提案していました。当時は既存のBIツールと共存する提案をしましたが、現在でも他のBIサービスと共存させて利用することがあるようです。本サービスの導入により、データへのアクセス性が向上し、データ利活用の促進が期待できます。
ThoughtSpotとは
ThoughtSpotは、ビジネスインテリジェンスおよび分析プラットフォームであり、ユーザーが自然言語でデータを検索し、可視化することが可能です。以下の画像では、アメリカ合衆国の太平洋沿岸地域(ワシントン、オレゴン、カリフォルニアの3州)で最も売れたペットを検索しています。先週の都市別、動物別の売上金額トップ5のデータを可視化しています。作成したグラフ(ThoughtSpotでは「ANSWER」と呼ばれます)をダッシュボードとして共有することも可能です。データ取得の際には、DWHに対してクエリを都度発行しており、最新のデータを取得できます。
データ可視化を行う際、Google検索のように単語(カラム名やメジャー名など)を指定してデータを検索・可視化できます。カラム名などに同音異義語を登録でき、日本語や英語が混在したデータでも検索が可能です。データ取得の際には、文章からクエリを生成するのではなく、事前に予約された単語(トークン)でクエリを生成します。本記事ではこの機能を「Token-to-SQL」と呼ぶことにします(ドキュメントでは「Token-based relational search」と記載されています)。
引用元:ThoughtSpot Sage | ThoughtSpot Cloud
文章によるデータ可視化もサポートされており、文章から事前予約済みの単語(トークン)を取得し、Token-to-SQLの技術を利用してデータ取得を行います。本記事ではこの機能をText-to-Token-to-SQL
と呼ぶことにします。2段階でデータ取得のクエリを生成しており、文章の表現揺れに対して生成AI(2024年10月31日時点では基盤モデルはOpenAI API)による補正とToken-to-SQL機能による補正を行い、出力されるクエリの精度を高めています。
引用元:ThoughtSpot Sage | ThoughtSpot Cloud
引用元:ThoughtSpot Sage | ThoughtSpot Cloud
また、BIの埋め込みをサポートしているため、社内向けだけでなく、自社のサイトに埋め込んで社外向けに提供することも可能です。
他の自然言語処理によるデータ分析ツールとの比較
他の自然言語処理によるデータ分析ツールと比較して、ThoughtSpotは以下のような特徴があります。多くのツールはText-to-SQLでデータを取得するため、精度が高くない場合があり、修正もプロンプトの言い換えなど困難なことがあります。しかし、ThoughtSpotはText-to-Token-to-SQLでデータを取得するため、出力結果に対してGUIで項目を変更することも可能で、修正が容易です。また、ユーザーが修正した内容がログとして残るため、管理者が後で確認する際にユーザーの意図を把握しやすく、生成AIによる可視化機能の改善業務を効率的に行えます。
- Text-to-SQLではなく、Text-to-Token-to-SQLでデータ取得を行うため、精度が高い
- 出力結果の修正が自然言語だけでなく、項目選択によるGUI操作で可能
- 管理者がログから利用者の意図を把握しやすい
ThoughtSpotにおけるデータ利活用のアーキテクチャ概要
ThoughtSpotでデータ利活用を行う際のアーキテクチャは以下のように私は捉えています。ソースとなるDWHに接続し、Data Workspace内でデータ分析に利用するWorksheetやTableを定義します。そのデータモデルを参照してデータの可視化(AnswerやLiveboard)やデータの解析(SpotIQ Analysis)を行います。データの可視化を行う際には、Ask Sageという自然言語処理による可視化機能を利用できます。ThoughtSpotを外部と連携できるSyncという機能もあります。
参考になりそうなリンク集
14日間の製品トライアルが提供されています。私は既に環境を持っているため試していませんが、興味がある方は試してみると良いかもしれません。
引用元:Free 14-day trial | ThoughtSpot
製品のドキュメントは以下のリンクから参照できます。10年以上の開発実績があるため、ドキュメントも充実しています。右上のドロップダウンから、製品名(例:Cloud
)とバージョン(例:10.3.0.cl
)を選択できます。
引用元:ThoughtSpot Cloud Documentation | ThoughtSpot Cloud
ThoughtSpotの資格もあり、詳細は以下のリンクから確認できます。
引用元:Certification
日本向けのコミュニティサイトも用意されており、日本語での情報共有が活発に行われる可能性があります。
引用元:ThoughtSpot Japan Community
ThoughtSpot全体のコミュニティもあり、困った際にはこちらを参照することで解決できるかもしれません。
2024年12月のイベント
2024年12月4日に「ThoughtSpot Day in Tokyo 2024」が開催されるようです。製品に興味がある方は参加してみると良いかもしれません。