AWS関連で、今年学んだこと Advent Calendar 2025

【AIP-C01対策】タスク１.２：FMを選定して設定する。

Last updated at 2025-12-04Posted at 2025-12-02

スキル1.2.2

柔軟なアーキテクチャパターンを作成し、コードを変更せずに動的なモデル選択とプロバイダーの切り替えができるようにする (AWS Lambda、Amazon API Gateway、AWS AppConfigの使用など)。

Generative AI Application Builder on AWS（GAAB）統合ガイド
- アーキテクチャの概要
- アーキテクチャの詳細

GAABは“任意のモデルプロバイダー / ナレッジベース / メモリタイプ” を差し替え可能な設計となっており、「コード変更なしでプロバイダー切り替えできる柔軟性」を実現するサンプルとして適切。方針としてはDynamoDBにLLMのアクセス先情報を登録し、LLM呼び出しに際してDynameDBから情報を選択。

(9)にて、デプロイウィザードで管理者ユーザーが提供するすべての LLM 設定オプションは、DynamoDB に保存されます。デプロイでは、この DynamoDB テーブルを使用して、実行時に LLM を設定します。
具体的なユースケースは以下の通り。

(6)にてDynamoDBからLLMオプションの情報を取得し、(8)でそのLLMにアクセスしています。

AWS LambdaでのAWS AppConfigエージェントの使用
AWS LambdaでAWS AppConfigのフィーチャーフラグを使う
AWS AppConfigでフィーチャーフラグと自由形式の構成データを作成する
AWS AppConfigとは、AWS Systems Managerの機能の一つ。専用のLambda Extensionが提供されており、Lambdaを利用するとより簡単にAppConfigを活用できる。feature flagのローカルキャッシュなどの実装が省略できる。
AWS AppConfig にコンテキストに基づいてフラグ値を分けることができるマルチバリアントフラグが登場したので Lambda から使ってみた
ブログタイトルの通り。

スキル1.2.3

耐障害性の高い AIシステムを設計し、サービス中断中も継続的に運用できるようにする (AWS Step Functionsサーキットブレーカーパターン、リージョンの可用性が限られているモデルに対する Amazon Bedrockクロスリージョン推論、クロスリージョンモデルのデプロイ、グレースフルデグラデーション戦略の使用など)。

レジリエントなAIエージェント構築には以下の戦略が必要。

障害の隔離：各コンポーネントの境界で検証を行い、障害をシステム全体のワークフローから隔離する
キャパシティプランニング：リクエスト毎分（RPM）とトークン毎分（TPM）を推定。
SLOメトリクス設定：レイテンシを増大させない。不必要な推論ループを減らすようなプロンプトエンジニアリングやプロンプトキャッシングも有効。
決定論的オーケストレーション：ワークフローを明示的に定義しないと、LLMのミスやハルシネーションの影響を大きく受ける。
冗長性の確保：単一障害点を最小限に抑える

Graceful Degradationとは、「優美な劣化」と訳される設計思想で、システムが何らかの不具合や負荷によって機能が制限された場合に、完全に停止するのではなく、最低限の機能を維持し続けることです。障害が発生した場合も、致命的な障害を防ぎ、サービス全体の停止を避けることを目指します。

Amazon Bedrock でクロスリージョン推論のサポートを開始
クロスリージョン推論によるスループットの向上
Amazon Bedrockでのクロスリージョン推論の始め方
クロスリージョン推論を使用することで、オンデマンドモードを使用する Bedrock のお客様は、より高いスループット制限 (割り当てられたリージョン内のクォータの最大 2 倍) を得ることができ、需要のピーク時にレジリエンスを強化できます。
顧客は、事前に定義された一連のリージョンから選択することで推論データのフローを制御でき、適用されるデータレジデンシー要件と主権法に準拠できるようになります。
クロスリージョン推論を使用しても追加のルーティングコストは発生せず、リクエストを行ったリージョン (ソースリージョン) に基づいて請求されます。

スキル1.2.4

FMカスタマイズデプロイとライフサイクル管理を実装する [Amazon SageMaker AIを使用したドメイン固有のファインチューニングされたモデルのデプロイ、モデルデプロイのための低ランク適応 (LoRA) やアダプターなどパラメータ効率の高い適応手法、SageMaker Model Registryを使用したバージョニングとカスタマイズ済みモデルのデプロイ、自動デプロイパイプラインを使用したモデルの更新、デプロイが失敗した場合のロールバック戦略、モデルの廃止と交換のためのライフサイクル管理の使用など]。

PEFTアプローチの例）

LoRAは多言語適応やドメイン適用、プロンプトチューニングはSaaSのテナント分離、P-tuningは複雑または小規模なモデルに、それぞれ効果的である。
プレフィックスチューニングはtransformerの各アテンション層で学習可能なベクトル（プレフィックス）を追加する。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up