3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

KCCSデジタルソリューションAdvent Calendar 2024

Day 23

早い者勝ちで使えない!?Google CloudでH100を使う方法(Flex Startモード篇)

Last updated at Posted at 2024-12-27

はじめに

こんにちは、京セラコミュニケーションシステム 川村(@kccs_takahiro-kawamura)です。

昨今、大手クラウドベンダーを中心にGPUを何基追加調達したみたいなニュースが頻繁に出ていますね。
こんなに調達していたらすぐに使えるだろうと思ったら大間違いです。
LLMのトレーニング用途で利用されるH100、H200といったGPUは早い者勝ちの争奪戦が行われています。
残念ながらこれらのGPUは今使いたい!と思って使えるものではありません。
では、どうすれば利用できるのか、Google CloudでGPUを利用する方法を今回は記載したいと思います。

本記事は2024年12月ごろに作成しております。よって、引用している文章などはこの時点での最新となります。ご了承ください。

本記事の対象者

  • Google CloudでGPUが使いたい方

GPUを使うためには

Google Cloudでは、Compute EngineでVMインスタンスを作成するときにGPU搭載のマシンタイプを選択することでGPUを利用できます。
ただし、この方法は早い者勝ちの争奪戦に勝つ必要があり、空きリソースがない場合はVMインスタンスを作成できず利用できません。
ではどのように利用するのかと言うと、Dynamic Workload Scheduler(以降、DWS)という仕組みを用いて、GPUを使いたいということをGoogle Cloudへリクエストします。

DWSとは

Google Cloud上で大規模で複雑なワークロードを効率的にオーケストレートするための、フルマネージドサービスです。
従来のワークフローオーケストレーションツールとは異なり、DWSは、ワークロードの規模や複雑さ、そしてリソースの可用性に適応的に対応できる点が大きな特徴です。
リソースの可用性に適応的に対応できる、この仕様を用いてGPUを確保します。

DWSには2つのモードがあります。

  • Flex Startモード
    リソースの取得可能性を高め、最適化された経済性を実現するモードです。
    AI / MLジョブのGPUの容量を必要な量、期間、希望のリージョンを指定してリクエストします。
  • Calendarモード
    ジョブ開始日時の予測性が高い場合に使用します。
    正確な開始日時と決まった期間に必要となるトレーニングとテストのワークロードに対応します。

今回はFlex Startモードの使い方について記載します。

Flex StartモードでGPUを利用するためには以下の手順が必要です。
1. インスタンステンプレートを作成する
2. インスタンスグループを作成する
3. サイズ変更リクエストを行う

1. インスタンステンプレートを作成する

3. サイズ変更リクエストを行う でリクエストするVMインスタンスの設定を行いテンプレートにします。
Google Cloudのコンソールから、Compute Engine → インスタンス テンプレートと画面を遷移します。
画面上段にある インスタンス テンプレートを作成 のボタンを選択します。
instance_template_1.png

利用したい内容に合わせて適宜設定は変更してください。
今回は、以下のような設定にします。初期設定から変更している部分のみを記載します。
instance_template_2.png
instance_template_3.png

  • リージョン:asia-northeast1
  • GPUタイプ:NVIDIA H100 80GB
  • GPU数:8
  • マシンタイプ:a3-highgpu-8g
  • 予約:使用しない

DWSの仕様上、予約は使用できません。

2. インスタンスグループを作成する

続いては先ほど作成したインスタンステンプレートを使用してインスタンスグループを作成します。
左側のメニューからインスタンス グループを選択してください。
画面上段にある インスタンス グループの作成 のボタンを選択します。
利用したい内容に合わせて適宜設定してください。
今回は、以下のような設定にします。
instance_group_1.png
instance_group_2.png
instance_group_3.png

初期設定から変更している箇所で重要な部分を箇条書きにします。

  • インスタンス数:0
  • サイズ変更リクエストを使用してVMを一度に作成する:有効
  • 場所:シングルゾーン
  • リージョン:asia-northeast1
  • ゾーン:asia-northeast1-b
  • 自動スケーリング:自動スケーリングの構成を削除
  • 障害発生時のデフォルトのアクション:アクションなし

・ asia-northeast1リージョンでは、asia-northeast1-bのみがH100を利用できます。各リージョンとゾーンで利用可能なGPUはこちら
・DWSの仕様上、自動スケーリングは使用できません。
・DWSの仕様上、障害時のアクションは行えません。

3. サイズ変更リクエストを行う

続いては先ほど作成したインスタンスグループにサイズ変更リクエストをしてH100のリソースを要求します。
インスタンスグループの一覧に作成したインスタンスグループが表示されているのでそれを選択します。
instance_group_4.png

概要タブでサイズ変更リクエストのペン🖊️マークを選択します。
resize_request_1.png

画面右側に サイズ変更リクエスト のペインが表示されるので、 +サイズ変更の新規リクエスト を選択します。
resize_request_2.png

さらに画面右側に サイズ変更の新規リクエスト のペインが表示されるので必要なインスタンス数、利用時間を入力してリクエストを作成します。
resize_request_3.png

リクエストを作成すると サイズ変更リクエスト のペインに先ほど作成したリクエストが表示されます。
resize_request_4.png

概要タブでは、サイズ変更リクエストが 1 accepted になっており、VMインスタンスのところにリクエストしているリソースが表示されています。
resize_request_5.png

このリクエストをGoogle Cloudが承認するとH100が利用できるようになります。

まとめ

今回はDWSのFlex StartモードでH100を利用するための手順を記載しました。
いつから利用できるのかは不明瞭な点についてはご注意ください。
改めて手順を記載しますと、
1. インスタンステンプレートを作成する
2. インスタンスグループを作成する
3. サイズ変更リクエストを行う
以上の3ステップです。

次回の記事もお楽しみに!

おしらせ

弊社X(旧:Twitter)では、Qiita投稿に関する情報や各種セミナー情報をお届けしております。情報収集や学びの場を求める皆さん!ぜひフォローしていただき、最新情報を手に入れてください😄

3
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?