LlamaParseとExcelスプレッドシートを用いたRAG

Last updated at 2024-09-12Posted at 2024-07-04

LlamaParseなるものが出ていたとは。そして、LlamaCloudもできてる。

LlamaIndexの提供する世界最高のパーシングサービスであるLlamaParseにようこそ。LlamaParseは、PDF、パワーポイント、ワード文書、スプレッドシートのような複雑な文書を構造化データに変換することができるLlamaCloudのコンポーネントです。スタンドアローンのREST API、Pythonパッケージ、TypeScript SDK、Web UIとして利用できます。現状はパブリックベータです。試すためにサインアップしたり、オンボーディングドキュメントを読むことができます。

クイックに試すならサインアップしてWeb UIでPDFなどをアップロードします。

日本語も動きます。OCR Language(s) でjaを指定します。

本書は、ビッグデータを主な対象としたデータ分析フレームワークである Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、どうすれば効率的な実装が行えるかまで踏み込みつつ、データ Apache Spark徹底入門 Learning Spark 2nd Editionの翻訳 + αの内容となっています AIの実装者が Apache Spark、ML owApache Spark、ML ow、  x および Delta Lakeを使いこなすための解説を行います。

● Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習

● Spark の操作とSQLエンジンの理解

● Spark 構成とSpark UIを使用した Spark操作の検査、調整、デバッグ

● JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータ ソースへの接続

● 構造化ストリーミングを使用してバッチ データとストリーミング データの 分析を実施

● オープンソースの Delta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築

● MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの管理、本番化

● [日本語版オリジナルコンテンツ ]pandas dataframe、spark dataframeに関する 各種データフレームの使い分け

● [日本語版オリジナルコンテンツ ]LLMやEnglish SDK for SparkなどAIを活用 した新たなコーディングスタイル、 LLMの利用方法の実践

©2024 Databricks Inc. — All rights reserved
---
ApacheSparkKJJJIJS_ Biks) インフラエンジニア Books ApacheSpark 30分でわかる「 Apache Spark徹底入門」 TRAP] 4/18(木) 20時からの開催です datobrick tabricksdatabricksdataApache Spark Apchi arkcksdatabricksdata Mjik A[" 'rubnck atabricksdata iJ A /"]Dim T DZE data ApacheSpark datobricks pacheSpark T: Tak ,~,*7 ! Ikhic Se ~s lk data ©2024 Databricks Inc. — All rights reserved

タイトルのサンプルノートブックでPython APIもDatabricksで試してみます。LlamaCloudでAPIキーを作成しておきます。

LlamaPraseとExcelスプレッドシートを用いたRAG

このノートブックでは、ExcelスプレッドシートへのLlamaParseの使い方を説明します。

ここでは、NVIDIAの過去5四半期の収益データを使います。

収益データのExcelはノートブックと同じパスにインポートしておきます。

%pip install llama-index
%pip install llama-parse
dbutils.library.restartPython()

LLAMA_CLOUD_API_KEYの設定

import nest_asyncio

nest_asyncio.apply()

from llama_parse import LlamaParse

api_key = "llx-..."  # cloud.llamaindex.ai　でAPIキーを入手

ExcelをパースするためにLlamaParseを使用

parser = LlamaParse(
    api_key=api_key,  # LLAMA_CLOUD_API_KEY　環境変数に設定することもできます
    result_type="markdown",
)

documents = parser.load_data("./nvidia_quarterly_revenue_trend_by_market.xlsx")

documents

Excelの中身がパースされています。

OpenAI APIキーの設定

import os

os.environ["OPENAI_API_KEY"] = dbutils.secrets.get("demo-token-takaaki.yayoi", "openai_api_key")

from llama_index.llms.openai import OpenAI
from llama_index.core import Settings

llm = OpenAI(model="gpt-4")
Settings.llm = llm

インデックスとクエリーエンジンの構築

なるほど。Excelがドキュメントとして読み込めているので、RAGの枠組みで問い合わせができるということですね。興味深い。

from llama_index.core import VectorStoreIndex

index = VectorStoreIndex.from_documents(documents)

query_engine = index.as_query_engine()

クエリー

GPT-4なので、日本語でも問い合わせできます。

response = query_engine.query("FY25 Q1の収益合計は？")
print(str(response))

FY25 Q1の収益合計は$26,044 millionです。

合ってます。

response = query_engine.query(
    "FY23 Q1からFY25 Q1にかけてのデータセンターの収益の成長は？"
)
print(str(response))

データセンターの収益は、FY23 Q1では$3,750 millionでしたが、FY25 Q1では$22,563 millionに成長しました。

これも合ってます。

Unstructuredの代替にもなりそうですが、LlamaIndexとインテグレーションされているのが強みといったところでしょうか。しかし、RAGのエコシステムがどんどん整備されていっている感じがしますね。

他のサンプルも試してみます。

はじめてのDatabricks

Databricks無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up