LlamaParseなるものが出ていたとは。そして、LlamaCloudもできてる。
LlamaIndexの提供する世界最高のパーシングサービスであるLlamaParseにようこそ。LlamaParseは、PDF、パワーポイント、ワード文書、スプレッドシートのような複雑な文書を構造化データに変換することができるLlamaCloudのコンポーネントです。スタンドアローンのREST API、Pythonパッケージ、TypeScript SDK、Web UIとして利用できます。現状はパブリックベータです。試すためにサインアップしたり、オンボーディングドキュメントを読むことができます。
クイックに試すならサインアップしてWeb UIでPDFなどをアップロードします。
日本語も動きます。OCR Language(s) でja
を指定します。
本書は、ビッグデータを主な対象としたデータ分析フレームワークである Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、どうすれば効率的な実装が行えるかまで踏み込みつつ、データ Apache Spark徹底入門 Learning Spark 2nd Editionの翻訳 + αの内容となっています AIの実装者が Apache Spark、ML owApache Spark、ML ow、 x および Delta Lakeを使いこなすための解説を行います。
● Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習
● Spark の操作とSQLエンジンの理解
● Spark 構成とSpark UIを使用した Spark操作の検査、調整、デバッグ
● JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータ ソースへの接続
● 構造化ストリーミングを使用してバッチ データとストリーミング データの 分析を実施
● オープンソースの Delta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築
● MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの管理、本番化
● [日本語版オリジナルコンテンツ ]pandas dataframe、spark dataframeに関する 各種データフレームの使い分け
● [日本語版オリジナルコンテンツ ]LLMやEnglish SDK for SparkなどAIを活用 した新たなコーディングスタイル、 LLMの利用方法の実践
©2024 Databricks Inc. — All rights reserved
---
ApacheSparkKJJJIJS_ Biks) インフラエンジニア Books ApacheSpark 30分でわかる「 Apache Spark徹底入門」 TRAP] 4/18(木) 20時からの開催です datobrick tabricksdatabricksdataApache Spark Apchi arkcksdatabricksdata Mjik A[" 'rubnck atabricksdata iJ A /"]Dim T DZE data ApacheSpark datobricks pacheSpark T: Tak ,~,*7 ! Ikhic Se ~s lk data ©2024 Databricks Inc. — All rights reserved
タイトルのサンプルノートブックでPython APIもDatabricksで試してみます。LlamaCloudでAPIキーを作成しておきます。
LlamaPraseとExcelスプレッドシートを用いたRAG
このノートブックでは、ExcelスプレッドシートへのLlamaParseの使い方を説明します。
ここでは、NVIDIAの過去5四半期の収益データを使います。
収益データのExcelはノートブックと同じパスにインポートしておきます。
%pip install llama-index
%pip install llama-parse
dbutils.library.restartPython()
LLAMA_CLOUD_API_KEYの設定
import nest_asyncio
nest_asyncio.apply()
from llama_parse import LlamaParse
api_key = "llx-..." # cloud.llamaindex.ai でAPIキーを入手
ExcelをパースするためにLlamaParseを使用
parser = LlamaParse(
api_key=api_key, # LLAMA_CLOUD_API_KEY 環境変数に設定することもできます
result_type="markdown",
)
documents = parser.load_data("./nvidia_quarterly_revenue_trend_by_market.xlsx")
documents
OpenAI APIキーの設定
import os
os.environ["OPENAI_API_KEY"] = dbutils.secrets.get("demo-token-takaaki.yayoi", "openai_api_key")
from llama_index.llms.openai import OpenAI
from llama_index.core import Settings
llm = OpenAI(model="gpt-4")
Settings.llm = llm
インデックスとクエリーエンジンの構築
なるほど。Excelがドキュメントとして読み込めているので、RAGの枠組みで問い合わせができるということですね。興味深い。
from llama_index.core import VectorStoreIndex
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
クエリー
GPT-4なので、日本語でも問い合わせできます。
response = query_engine.query("FY25 Q1の収益合計は?")
print(str(response))
FY25 Q1の収益合計は$26,044 millionです。
response = query_engine.query(
"FY23 Q1からFY25 Q1にかけてのデータセンターの収益の成長は?"
)
print(str(response))
データセンターの収益は、FY23 Q1では$3,750 millionでしたが、FY25 Q1では$22,563 millionに成長しました。
Unstructuredの代替にもなりそうですが、LlamaIndexとインテグレーションされているのが強みといったところでしょうか。しかし、RAGのエコシステムがどんどん整備されていっている感じがしますね。
他のサンプルも試してみます。