RunPodでUnslothコンテナを使う際の注意点(2025年12月末時点)
最近Unslothのコントリビューターになったこともあり(嬉しい!)、年末にRunPodでファインチューニング環境を立てようとしたら、いくつかハマりポイントがあったのでメモしておきます。
Unsloth公式コンテナの現状
Unsloth公式から提供されているDockerイメージは便利で、基本的な環境が整っています。
しかし、最新版のtorch2.9 cu128ではFlash Attention 2 (FA2)の公式prebuilt wheelが存在しないため、自分でビルドする必要があります。
FA2のセットアップには非常に時間がかかるので、時間制のRunPodでは避けたい選択肢です。
そのため、
unsloth/unsloth:2025.11.2-pt2.8.0-cu12.8-trans4.57.0_whisper_fix
など、PyTorch 2.8.0 + CUDA 12.8ベースのものを選択する必要があります。
FA2を有効化するには、Pod起動後に以下のコマンドでインストールします。
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.3/flash_attn-2.8.3+cu12torch2.8cxx11abiTRUE-cp311-cp311-linux_x86_64.whl
これでTorch 2.8 + CUDA 12.8対応のFA2が導入され、トレーニング速度が大幅に向上します。
RunPodのGPUとリージョンの制約
このコンテナ(Torch 2.8 + CUDA 12.8)はCUDA 12.8のフル対応ドライバが必要です。特にRTX 4090(Ada Lovelaceアーキテクチャ)では動作が制限され、リージョンによって対応状況が大きく異なります。
RTX 4090での対応状況(2025年12月31日時点)
| リージョン | CUDA 12.8 + Torch 2.8 対応 |
|---|---|
| EUR-CZ1 | ◯(対応) |
| US-IL1 | ◯(対応) |
| EUR-RO1 | ×(非対応) |
| EUR-IS1 | ×(非対応) |
| EUR-NO1 | ×(非対応) |
| US-NC1 | ×(非対応) |
| US-CA3 | ×(非対応) |
また、日本リージョン(AP-JP1など)はH200中心の構成で、RTX 4090自体が配置されていないため、そもそも選べません。
RTX 5090の場合
- Blackwellアーキテクチャのため、CUDA 12.8+にネイティブ対応
- Community Cloud / Secure Cloud ともに、ほぼすべてのリージョンで問題なく動作
- VRAMも32GBと豊富で、Unslothの高速トレーニングに最適
Community cloudの5090が0.7$/hなのに対し、on-demandのEUR-CZ1が0.6$/h なので通常用途ならRTX 5090がおすすめです。
少しでも金をけちりたいspotのRTX4090を利用したい人向けの記事でした。