Qwen の埋め込みモデルをファインチューニングして、いざ推論にかけようとしたら――
8万件のデータを、8vCPU・32GBメモリで処理するのに約27時間。コストは1回あたり約3,000円。
さすがにコスパが悪すぎる。
「GPUを使えばもっと速くなるのでは?」
「Cloud Run の GPU、去年ベータで出たし、申請も不要と書いてある。これは使ってみるしかない!」
そんな軽い気持ちで始めたら、思いのほか時間と手間がかかった。
これはその記録です。
第一章:GPUの利用には Quota申請が必要
「Cloud Run の GPU は申請不要で使える」──
そんな情報を信じて試したのですが、それはもう古い話でした。
2025年7月現在、Cloud Run で GPU を使うには Quota(上限)引き上げ申請が必要です。
とはいえ、少し気になったのが、申請の通りやすさには差があるということ。
◾️ 所感:使ってるプロジェクトほど通る
今回は複数の GCP プロジェクトで試してみました。
- 実験用プロジェクト → 申請即却下
- 日常的に使っているプロジェクト → 申請即承認
おそらく、ある程度の 課金実績やアクティビティがあるかどうかで自動審査の通りやすさが変わる印象です。
Cloud Run GPU は申請不要という話は、今となっては誤解を生むかもしれません。
実際は「課金履歴があるプロジェクトなら、ほぼ即通る」 くらいの感覚でいた方が安全です。
...とはいえ、却下されたプロジェクトも先月1万円近く課金してたので、正直よくわかりません。
基準がブラックボックスすぎてモヤモヤします
第二章:Terraform を通す
第一章で quota 問題を突破したら、いよいよ Terraform を通す準備が整います。
Cloud Run の GPU 対応 Job を作るために、設定をいくつか追加しましょう。
✅ 入れておきたい設定3つ
以下の3つを Terraform の google_cloud_run_v2_job
に追加すると、GPU を使う構成になります。
-
node_selector
→accelerator = "nvidia-l4"
を指定。GPU ノードで実行させるために必須。 -
launch_stage = "BETA"
→ GPU 対応は 2025年現在まだ GA ではないので、これを入れないとエラーになります。 -
limits
の GPU 指定("nvidia.com/gpu" = "1"
)
→ 指定しなくても暗黙で動く可能性はあるけど、明示しておいたほうが無難。
resources.limits
にgpu
を含めたいなら"nvidia.com/gpu"
を追加。
📄 公式の Terraform リファレンスはこちら
https://registry.terraform.io/providers/hashicorp/google/6.42.0/docs/resources/cloud_run_v2_job#example-usage---cloudrunv2-job-gpu
第三章:Dockerfileの罠
もともと uv
を使っていて、uv
の公式イメージを使っていたんですが、
なぜか GPU 対応の torch
が入らない 状態にハマりました。
今思えばcudaのバージョンがあってなかったのかなと思います。
すべてを調べきったわけではありませんが、回避方法としては以下の2パターンがありそうです。
-
pyproject.toml
に CUDA 対応の PyTorch index を指定する方法 -
torch
の 公式 GPU 対応イメージ(pytorch/pytorch
)を使う方法 ← これが手っ取り早い
✅ 使えるDockerベースイメージ例(L4向け)
以下のようなイメージであれば、L4 + CUDA 12.4(本当は12.2) 環境に合っています。
FROM pytorch/pytorch:2.6.0-cuda12.4-cudnn9-runtime AS builder
WORKDIR /app
ENV PYTHONUNBUFFERED=1
RUN pip install --no-cache-dir uv
第四章:ここまでやれば
おそらく、ここまでやれば GPU が使えるようになっているはずです。
私の場合は、ここまでの構成を整えてようやく動作確認ができました。
✅ 成果:27時間 → 30分、そして100円ちょっと
- CPU(8vCPU / 32GB)で処理したときは、約27時間・約3,000円かかっていたバッチ推論。
- 同じ処理を GPU(L4)で実行したところ、約30分・約100円ちょっとで完了。
時間もコストも、圧倒的に改善されました。
Cloud Run の GPU はまだ情報が少ないですが、しっかり構成すれば十分に実用的だと感じています。
というか起動早い、コスパいい、VRAMそこそこある!で便利すぎる!
仲間を募集中
株式会社ホープでは、福岡で働くエンジニアを募集中です。
ぜひ、求人を見てみてください!
▼ Wantedly求人
https://www.wantedly.com/projects/2066560
▼ コーポレートサイト
https://www.zaigenkakuho.com/recruit/
「自治体を通じて人々に新たな価値を提供し、会社及び従業員の成長を追求する」
この理念の実現に向けて、今後も自治体の課題解決に取り組んでいきます。
ご応募お待ちしております!