Kubernetes 1.35で進化するAIネイティブワークロード運用 — Podレベルリソース管理と動的スケーリングの時代へ

Posted at 2025-11-27

はじめに

AI/ML ワークロードをクラウドネイティブに運用する流れが急速に広がっています。これまではモデルのトレーニングや推論サービスを Kubernetes 上で動かす際、GPU の管理や動的なリソース割り当て、セキュアな通信設定など、いくつもの課題がありました。

2025年11月にリリースされた Kubernetes 1.35 では、こうした課題に対応するための 新しい alpha 機能群 が登場しています。特に「AI-native workloads（AI ネイティブワークロード）」のオーケストレーションを改善する機能がいくつか追加されており、エンタープライズ環境での実用を見据えた動きが見えてきました。

本記事では、これらの新機能のうち スケーラビリティ・セキュリティ・安定性 の観点で注目すべきものを中心に解説します。

💡 コラム：そもそも「Alpha機能」とは？

Kubernetes では、新しい機能は Alpha → Beta → Stable（GA） の順に成熟していきます。「Alpha機能」はその最初の段階であり、まだ開発途上・仕様変更の可能性がある試験的機能です。

段階	概要	デフォルト有効	本番利用
Alpha	開発初期。仕様変更・削除の可能性あり。	❌ 無効	🚫 非推奨
Beta	安定化段階。APIはほぼ確定。	⚪ 一部有効	⚠️ 慎重に
Stable (GA)	安定版。将来も維持される。	✅ 有効	✅ 推奨

Alpha 機能はデフォルトでは無効で、明示的に有効化する必要があります。例：

kube-apiserver \
  --feature-gates=PodLevelResources=true,InPlacePodVerticalScaling=true

🚧 注意点

将来のリリースで API仕様や動作が変更／削除される可能性 があります。
安定性が保証されない ため、本番利用は避け、PoC や検証環境でのテストが推奨されます。
周辺ツール（kubectl, Helm, Operatorなど）が未対応な場合があります。

💡 それでも試す価値がある理由

AI/ML ワークロードのように新しい運用領域では、こうした Alpha 機能を早期に検証することで以下のようなメリットがあります：

近い将来の機能方向性をいち早く把握できる
自社クラスタ設計やGPUスケジューリング戦略を先取りできる
顧客やチームに「次期Kubernetes対応方針」を示せる

1. Kubernetes 1.35 の新機能 — AIワークロードを支える3本柱

1.1 Pod-Level Resources + In-place Vertical Scaling (α)

これまでの Kubernetes では、CPU やメモリなどのリソース要求 (requests / limits) は コンテナ単位 でしか設定できませんでした。しかし AI/ML ワークロードでは、「Pod 全体としてのリソース消費」を前提に設計されるケースが多く、個々のコンテナに正確なリソース配分をするのは現実的ではありません。

Pod-Level Resources はこの課題を解消します。Pod 全体で必要なリソース量を指定できるようになり、スケジューラがそれに基づいて最適なノードに配置します。さらに In-place Vertical Scaling により、Pod を削除せずに CPU / メモリを再調整できるようになります。

apiVersion: v1
kind: Pod
metadata:
  name: ai-trainer
spec:
  containers:
  - name: trainer
    image: my-ml-trainer:latest
  resources:
    requests:
      pod.kubernetes.io/memory: "64Gi"
      pod.kubernetes.io/cpu: "8"

これにより、以下のような運用が可能になります：

モデル学習中に必要メモリ量を動的に増やす
推論サービスが高負荷時に一時的にリソースを拡張
Pod 再起動なしで垂直スケーリングが可能

1.2 Dynamic Resource Allocation (DRA) 拡張

GPU や AI チップなど特殊なリソースを動的に割り当てる仕組みとして、Kubernetes 1.29 で登場した Dynamic Resource Allocation (DRA) が 1.35 でさらに拡張されました。

これにより、AI ワークロードが以下のような柔軟な挙動を取れるようになります：

トレーニング → 推論 → 後処理というフェーズ間で GPU 要求を動的に変更
一時的に GPU リソースを解放し、他のジョブに譲渡
複数の Pod が共有する GPU プールを効率的に利用

resources:
  claims:
  - name: nvidia-gpu
    resourceClassName: nvidia.com/gpu
    requests:
      count: 2

これにより、リソース効率とコスト最適化 が大幅に改善されます。特にエンタープライズ環境では、GPU のアイドル時間を減らすことが経済的インパクトに直結するため、非常に有用です。

1.3 Workload Identity + Pod Certificates Rotation

セキュリティ面でも重要なアップデートがあります。これまでは Pod 間通信をセキュアに保つために Service Mesh や外部 CA 管理が必要でしたが、Workload Identity の強化により、Kubernetes 自体が Pod 単位の証明書管理と自動ローテーション を提供できるようになります。

これにより：

モデルサーバ、前処理・後処理サービス間の通信を mTLS で保護
外部 PKI に依存しないゼロトラスト構成が容易に
短命な Pod でも安全に認証・通信が可能

AI パイプライン全体をマイクロサービス化する場合に不可欠な基盤要素となります。

1.4 containerRestartRule と安定性向上

AI トレーニングやデータ前処理バッチは長時間実行が前提となりますが、1 コンテナが異常終了しただけで Pod 全体が中断してしまうのは望ましくありません。

Kubernetes 1.35 では containerRestartRule が導入され、コンテナ終了時の再起動ポリシーをより細かく制御できるようになりました。

restartPolicy: OnFailure
containerRestartRule: Always

これにより、たとえば「特定コンテナだけ再起動し、他のコンテナは継続動作」といった柔軟な挙動を定義できます。 AI モデルのトレーニングジョブの安定稼働に役立ちます。

2. 実運用を想定した3つのシナリオ

ワークロード	主な課題	有効な新機能
モデル学習バッチ	リソース変動が大きい、長時間実行	Pod-level Resources / DRA / containerRestartRule
推論サービス (API)	短時間で負荷が変動、セキュリティ要求	In-place Scaling / Workload Identity
データ前後処理	ジョブ多発・リソース効率重視	DRA / Pod-level Resources

すべてが単一の Kubernetes クラスタ上で完結し、リソース・セキュリティ・安定性が統合的に制御できる時代が近づいています。

3. 今後の展望と留意点

これらの機能は現時点では Alpha 機能 のため、本番適用には慎重な検証が必要です。
GPU 管理まわりでは、NVIDIA Device Plugin や Kueue などの関連プロジェクトとの連携を意識することが重要です。
今後の Kubernetes リリースでは、AI/ML ワークロードを “第一級市民” として扱う方向に進化していくでしょう。

まとめ

Kubernetes 1.35 は、単なるコンテナオーケストレーターから「AIネイティブ基盤」への進化を強く印象づけるリリースです。

特に以下の3点は、今後の AI プラットフォーム設計において重要なキーワードになります：

Pod-Level Resource Management — 柔軟なスケーリングと効率化
Dynamic Resource Allocation (DRA) — GPU/特殊リソースの最適運用
Workload Identity & Security — ゼロトラストな AI パイプライン構築

AI ワークロードを Kubernetes に統合する時代は、すでに始まっています。本番環境への導入前にこれらの新機能を試し、次世代の AI プラットフォーム基盤をいち早く検証してみてはいかがでしょうか。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up