【生成AIインフラ入門】WebUIとLLMはなぜ「別物」なのか?「疎結合」のメリットを徹底解説
生成AIサービスを支えるインフラの基本原則、**「疎結合(Loose Coupling)」**について解説します。
「ChatGPTのような画面(WebUI)」と「AIの頭脳(LLM)」は、実は一つのプログラムではありません。これらが「API」という窓口を通じて独立して動くことで、現代のAIサービスは驚異的なスピードで進化しています。
本記事の内容は、こちらの動画でも詳しく解説しています。
YouTube動画でチェック:
https://youtu.be/xfyUS8OwLys?si=E7lGFiwh0QIru79U
1. まずは「密結合」を知る
「疎結合」を理解するために、その反対の概念である**「密結合」**から考えてみましょう。
昔のデスクトップアプリをイメージしてください。ユーザーが操作する画面(UI)と、実際の処理を行うロジックが1つのプログラムの中にガッチリと組み込まれている状態が「密結合」です。
| 状態 | 特徴 | デメリット |
|---|---|---|
| 密結合 | UIと処理が一体 | 片方を変えるともう片方にも影響が出て、変更に弱い |
2. 現代の標準「疎結合」とは何か
現代のWebサービス、特に生成AIサービスは**「疎結合」**で設計されています。WebUIとLLMが「API」という共通の窓口だけでつながっている状態を指します。
システム構成をレイヤーで分けると、以下のようになります。
| レイヤー | 役割 | 技術例 |
|---|---|---|
| ブラウザ / WebUI | ユーザーとの対話・描画 | React, Next.js |
| API エンドポイント | リクエスト受信・認証・振り分け | HTTPS / REST / JSON |
| LLM サービス | テキスト生成処理 | OpenAI, Claude, Gemini |
| GPU クラスタ | モデル推論の実行 | NVIDIA A100, H100 |
このように役割を分けることで、お互いに独立して進化できるようになります。
3. 疎結合がもたらす3つの大きなメリット
システムを疎結合にすることで、主に以下の3つのメリットが得られます。
① LLMを自由に交換できる
APIの仕様さえ合わせておけば、WebUI側を一切作り変えることなく、中身のLLMだけを最新のものに差し替えられます。特定のベンダーに依存する「ベンダーロックイン」を避けることができます。
② スケールを独立して調整できる
「AIの回答が遅い」という時は、LLMを動かしているサーバー(GPUクラスタ)だけを増やせば解決します。WebUI側のサーバーを無駄に増やす必要がないため、コスト効率が大幅に向上します。
③ 複数のUIから同じLLMを使える
一つのLLM(API)に対して、ブラウザ、スマホアプリ、Slackボット、社内システムなど、あらゆる入り口からアクセスさせることが可能になります。
4. 実際のリクエストの流れ
ユーザーが「こんにちは」と入力してから回答が返ってくるまで、システム内部では以下のようなやり取りが行われています。
- ユーザーの入力: WebUIでメッセージを送信。
- JSONリクエストの生成: WebUIがデータをJSON形式に変換してAPIへ送る。
- APIサーバーの検証: 認証トークンや利用制限(レートリミット)をチェック。
- LLMの推論: GPU上でAIが計算を行い、回答を生成。
- レスポンス返却: 再びJSON形式でWebUIへ回答を戻す。
- 描画: WebUIが画面上にテキストを表示。
技術的な補足(JSONの例)
APIを通じてやり取りされるデータのイメージです。
{
"model": "gpt-4",
"messages": [
{
"role": "user",
"content": "こんにちは"
}
]
}
まとめ
- WebUI(画面)とLLM(頭脳)は別のシステムとして存在している。
- 両者は**「API」**という窓口だけでつながっている(=疎結合)。
- 疎結合だからこそ、AIの交換、拡張、マルチデバイス展開が容易になる。
これが現代の生成AIサービス設計におけるもっとも重要な基本原則です。
動画でより詳しく学ぶ
動画では、図解やアニメーションを交えてさらに分かりやすく解説しています。営業職からエンジニアの方まで、共通言語として持っておきたい知識を凝縮していますので、ぜひご覧ください!