はじめに
こんにちは、しゃんはいと申します。
社内ではデータ関連の業務をやってます。
皆さんは BigQuery を使っていらっしゃいますか?
BigQueryは日々便利なエコシステムがアップデートされており、様々なデータの種類に対しての分析が簡単に実行できるようになってきました。
非常にアップデートも早くリリースを振り返れていないのが自分の中でもモヤモヤ。。。
そこで本記事の前編ではBigQueryのアップデートをサクッとまとめます。後編ではBigQuery から LLM を利用してレビューの分析の実行してみようと思います。
今回は前編の記事となります。
TL;DR
- BigQueryのアップデート(LLM関連):前編
- BigQueryからLLMを利用してレビューの分析:後編
BigQueryのアップデート
最近のリリースノートから目ぼしい物をピックアップして紹介します。
(※本記事は2023/12/01時点のものとなります)
詳しい説明はあまりしませんが、情報をまとめています。
1. Vertex AI 大規模言語モデル(LLM) リモートモデル機能(GA)
BigQueryにはリモートモデルという機能が提供されています。リモートモデルとは、Vertex AIで作成したモデルをBigQueryで利用するための機能となります。
こちらの機能がLLMモデルに対しても、一般提供(GA)となりました。
chatGPTを呼び出すUDFを作成してる人もいるのではないでしょうか?
この機能は簡易なSQLのみでモデル作成や利用が可能なのがメリットです。
▶︎ 詳細はこちらのドキュメントをご参照ください。
The CREATE MODEL statement for remote models
その他テキスト操作の上で利用可能な関数
BigQueryでは便利な関数も提供されており、参考にしてみてください。
-
ML.TRANSLATE 関数
リモートモデルを利用してテキスト翻訳を行うことができる関数 -
ML.UNDERSTAND_TEXT 関数
リモートモデルを利用してテキスト理解を行うことができる関数 -
ML.GENERATE_TEXT_EMBEDDING 関数
リモートモデルを利用してをembedding行うことができる関数
2. マルチリンガルでのEmbedding生成
最近では検索分野でも有名になっているベクトル化の機能になります。
これまで提供されていたtextembedding-gecko
では英語だけの対応でした。
新たに提供されるモデルのバージョンtextembedding-gecko-multilingual
では日本語を含む多様な言語に対応可能となりました。
▶︎ 詳細はこちらのドキュメントをご参照ください。
Language coverage for textembedding-gecko-multilingual models.
3. BigQuery DataFrames
Python利用者の中には、BigQueryのデータをノートブック上でPandasライクに操作したい人がいるのではないでしょうか?
BigQuery DataFramesを利用すると、BigQueryの多大な演算リソースを用いてPandasを利用できます。
▶︎ 詳細はこちらのドキュメントをご参照ください。
BigQuery DataFrames
最後に
簡素ではありましたが、最近のBigQueryのリリースを中心に情報をまとめました。LLMが中心にはなりましたが、BigQueryでできることはどんどん増えています。これからも機能拡充に期待したいと思います。
もし、上記をもう少し理解したい&興味がある方は以下の記事を参考にしてみてください。