5/22-24 に開催された Microsoft Build 2024 からもう一か月が経とうとしていますが、忘れぬよう(。_。)φメモメモ
2024 年最新版 Copilot stack
Microsoft の EVP である Scott Guthrie がこの Copilot stack を「AI の機能とソリューションを作成するための最も高度なプラットフォーム」と表現した通り、以前には無かったデータレイヤー、AI ツールチェーン、そして開発ツールを追加し Copilot 開発に必要なラインナップが出揃ったという印象です。このスタックを用いることでソリューション開発に必要な技術要素を整理するための指針になるかもしれません。
Copilot stack を Azure で構築する場合は、このような Azure AI のプロダクトスタックが見えてきます。現在、53,000 の企業や政府が Azure AI を利用していますが、Copilot 開発の中心地は Azure AI Studio です。モデル選択からベンチマーク、実験、処理フロー、デプロイ、監視とエンタープライズ LLM 開発に必要な要素がすべて統合されています。
Azure AI Updates
今一番アツイと言っても過言ではない、Azure AI のアップデート一覧はこのようになっています。
-
GPT-4o の GA
OpenAI 社のリリースと同日に Azure OpenAI で利用可能になりました。これまでにない連携の早さです。AI Challenge Day という RAG コンテストの第二弾を開催するにあたり評価しましたが、GPT-4v と比較して日本語の Wikipedia にかなり詳しく、写真の説明能力も向上していることが分かりました。 -
Fine-tuning for GPT-4
GPT-4 でも Fine-tuning が可能になりました。そして Build 後にはトレーニングの費用がトークン課金制に変更されたことでコスト削減も見込めます。 -
Batch API
OpenAI API からの返却が同期的でなく最大 24 時間以内の非同期であれば価格が半額になるという新しい API です。社内リポジトリなどをバッチ的に一度に大量の変換をかけたいなどのシナリオにぴったりです。 -
設定可能なコンテンツフィルター
Build でも責任ある AI は重要視されており、積極的に機能拡張が行われています。新機能として、カスタムカテゴリ、プロンプトシールド、Groundedness 検知があります。
LLM アプリパターンの分類
以下のような見せ方好きですね。
プロンプトエンジニアリング+RAG / Function calling・Planning / エージェントの分類。今後はマルチエージェントのような、別々の役割(System メッセージ)を実装したエージェントを複数繋げて複雑な処理に対応することも必要になってくるかと思います。開発しているソリューションの整理にも役立ちそうですね。
複数の社内システムから Function calling で情報を取得することも可能ですし、AutoGen のような複数の専門家エージェント間の対話によって難しいタスクを解決するなんてことも可能です。Function calling → マルチエージェントへの発展はこちらのシリーズで解説しています。
Assistants API
Assistants API に大きなアップデートがありましたね。ファイル検索ツール(ベクトルストア)が追加されました。ファイル検索ツールはドキュメントを自動的に解析してチャンク化し、Embeddings を作成して保存し、ベクトル検索とキーワード検索の両方を使用して関連コンテンツを取得してユーザーのクエリに答えます。
他にも Coming soon を含めると以下のような感じになってます。Bing 検索を活用したブラウズツールが追加予定ということで待ち遠しいですね。Assistants API の GPT-4o 対応はよ。
Assistants API の詳細なアップデート情報は以下にまとめてあります。
Azure AI Studio
LLM 開発のユニファイドプラットフォームの Azure AI Studio は GA となりました。UI の改善や評価機能の強化、Prompt Flow SDK の強化などが行われています。自分でモデルを選択して、そのモデルを使ってすぐに RAG アプリケーションを開発したいケースなどに使えます。
トレースとデバッグ
個人的に便利だと思った新機能がトレースとデバッグですね。Prompt Flow のトレース機能を使用すると、さまざまな Agent や LangChain、AutoGen、Semantic Kernel、RAG などの生成 AI アプリケーションの実行プロセスを可視化できます。
実行するには promptflow をインストールして以下のようなおまじないを最初に実行するだけです。Azure AI Studio およびローカル環境の 2 つに実行ログが生成されます。
from promptflow.tracing import start_trace
start_trace(collection="trace-openai")
Prompty
Prompty は Build で突如現れたプロンプトテンプレート形式です。マイクロ・オーケストレーターとも呼んでいました。プロンプトテンプレートに API の実行設定を入れ込むことで再現性や可読性の向上、CI との連携を狙っているのでしょうか。
ちなみに Prompty の立ち位置は以下のような場所とのこと。「マイクロ・オーケストレーター」とも呼んでいましたね。上記トレース機能の評価のところで一緒に試しています。

基盤モデル
Model Catalog
Azure AI Studio および Azure Machine Learning のモデルカタログから選択・デプロイできるモデルがさらに増えました!現在は 1,673 モデルあります。
Model as a Service(MaaS)
Model as a Service(MaaS) は Microsoft による新時代のモデル提供形態です。Maas により開発者はフルマネージドの API を利用できるため、GPU インフラの管理にワークロードを割く必要がなくなります。これによりスケーラビリティや安定性が手に入ります。以下のモデルはトークンベースの従量課金制で利用することができます。
-
Llama-3-70B-Instruct
-
Llama-3-8B-Instruct
-
Llama-2-7b, -chat
-
Llama-2-13b, -chat
-
Llama-2-70b, -chat
-
Mistral-small
-
Cohere-command-r, -plus
-
Cohere-embed-v3-multilingual, -english
-
Phi-3-mini-4k-Instruct, 128k-Instruct
-
Phi3-medium-4k-instruct, 128k-instruct
日本語が使える Cohere のモデルについては、Cohere-embed-v3-multilingual による Embeddings 検証をすでに実施済みです。
ちなみに気になるデータプライバシーについては、以下のように規定されているため安心してお使いいただけます。
Microsoft は、これらのプロンプトと出力をモデル プロバイダーと共有しません。また、Microsoft は、Microsoft、モデル プロバイダー、またはサード パーティのモデルをトレーニングまたは改善するために、これらのプロンプトと出力を使用しません。 モデルはステートレスであり、プロンプトや出力はモデルに保存されません。
Phi-3, Cloud↔Edge
記事書き中...
データ
今回の Build では多くのデータベースがベクトル検索機能に対応したとの発表が相次ぎました。この流れは止まりそうにないですね。
Azure AI Search
Microsoft にとって最も急速に成長しているサービスの 1 つである Azure AI Search ですが、Satya の Keynote では以下 1 枚出すだけで終わってしまいました。ですが翌日ビッグな採用事例の発表がありましたね。機能としては、LLM 連携を強化する新機能が追加されました。今回の新機能はベクトル検索機能の強化、マルチモーダル検索の強化、Fabric OneLake との統合の 3 つにフォーカスしています。詳しい機能紹介は以下の Qiita にて紹介しています。
OpenAI 社採用事例
史上最も急速に成長している消費者向けサービスである OpenAI 社の ChatGPT において、GPTs および Assistants API に Azure AI Search が採用される!うぉぉぉ
動画と対訳
Azure Cosmos DB
- Low-latency, clound-scale vector search backend by DiskANN
→ちゃんと書く
Azure Database for PostgreSQl
- Azure AI extension for Azure Database for PostgreSQl
- In-database embeddings in Azure Database for PostgreSQl
Microsoft Fabric
Copilot stack のデータレイヤーにおける重要サービス。以下に素晴らしいまとめがあります。
データプラットフォームの AI 統合
今後のビジョン。AI には高品質なデータが必要であり、そのデータを蓄積・加工できるデータ基盤の整備も必要になってきますよねと。Azure AI Search には OneLake ファイル インデクサーが搭載されました。構造化データのリアルタイム分析→ OpenAI これやりたいですね。
Microsoft Build 2024 Newsbook
Updates はこちらを参照