こんにちは。AWS DeepRacer卒業生の人です。みなさんは、「AWS AI League」をご存じでしょうか。
この記事では、AWS AI Leagueのプライベート大会を開催した際の企画、技術的な準備、Grand Final Gameshow(決勝戦)当日の様子、そして運営視点で得られた学びを共有します。
本記事の内容は2025年12月時点の情報です。最新の情報は公式アナウンス・ドキュメントをご参照ください。
AWS AI Leagueとは
AWS AI Leagueは2025年7月に発表された、AWSが提供するAI/機械学習(特に生成AI)のスキルを、ハンズオンと競技形式(ゲーミフィケーション)を通じて楽しく学べるプログラムです。
企業や開発者が、実践的なスキルを身につけ、AI分野でのイノベーションを加速させることを目指しています。
AWS AI League: 新しい究極の AI 対決で学習し、イノベーションを起こし、競い合う | Amazon Web Services ブログ
- 特徴
- 参加方法:世界中の開発者が集う「AWS Summit」でのオープン開催と、企業に向けた「プライベート開催」の2つの形式があります
- 個人参加:AWS Summit や AWS re:Invent で開催されているコンテストに参加する
- 企業参加:AWSが主催するプライベートイベントとして、企業内で従業員向けの大会を開催する
- 競技内容:プロンプトエンジニアリングのスキルを競う「PROMPT SAGE」と、モデルのファインチューニングのスキルを競う「TUNE WHIZ」があります
- PROMPT SAGE:ノーコードでフローを作成する環境が提供され、生成AIモデルに対して効果的なプロンプトを設計・最適化する方法(ゼロショット学習や思考の連鎖推論)を学びます
- TUNE WHIZ:汎用モデルよりも優れたカスタムAIモデルに特化させるためのモデルのファインチューニング環境が提供され、業界固有の言語、要件、ニュアンスを深く理解したモデルを作成する方法を学びます
- 利用環境:Amazon SageMaker Unified Studio
- 参加方法:世界中の開発者が集う「AWS Summit」でのオープン開催と、企業に向けた「プライベート開催」の2つの形式があります
プライベート大会を開催した背景
これまで、DNPおよびDNPデジタルソリューションズでは、2019年からAWS DeepRacerを活用したクラウド・AIの人材育成に取り組んできました。
AWS DeepRacerへの継続的な参加を通じて、社員の機械学習(ML)スキルやAWSに関する知識は着実に向上しましたが、近年、AI技術の進化はめざましく、特に生成AIの分野における実践的な知見が組織全体で求められるようになりました。
2024年12月のAWS re:Inventのレースを最後にAWS DeepRacerリーグは幕を下ろされましたが、
その後継の学習プログラムとして、2025年7月のAWS Summit New York で AWS AI Leagueが発表されました。
「これは、やるしかない!」と立ち上がり、DNPグループとしてAWS AI Leagueプライベート大会の開催に動き出しました!
そして、AWS AI League初回の年となる2025年度は、全世界で20社のみが先行導入企業に選ばれる中、DNPグループはそのうちの1社、日本国内では唯一の選定企業となりました。
プライベート大会の流れ
全体の流れは以下の通りです。ここまでくると、クラウドエンジニアではなく、イベンターがメイン業務です(笑)
幸いにも、AWS DeepRacerで、社内大会運営の経験があったため、その経験を活かして企画・運営を進めることができました。
以下のタスクは 開催企業の運営側で見えているものだけ を挙げました。AWS AI Leagueのプライベート開催を協働してくれているAWS側の準備やサポートも含めると、さらに多くのタスクが発生していると思います。
| フェーズ | 期間(目安) | 主な内容 |
|---|---|---|
| 企画・計画フェーズ | 約1か月 | ・開催条件の確認、エグゼクティブ層の承認 ・参加者募集、Virtual Competition、Grand Final Gameshowのスケジュール作成 ・競技内容、テーマの検討 ・イベント開催告知および参加者募集 ・開催に向けた説明会 ・参加者受付 など |
| 予選フェーズ | (準備・ハンズオン) 2週間 (Virtual Competition) 1週間 |
(準備・ハンズオン) ・予選ルール検討 ・AWS環境セットアップ、参加者ユーザー登録 ・チューニングテーマのサンプルデータ作成 ・参加者同士のコミュニケーション環境用意 ・キックオフ、ハンズオン開催(2時間) (Virtual Competition) ・予選開催 ・参加者QA対応 ・AWSによる技術相談会 ・AWS上限緩和対応 など |
| 決勝戦フェーズ | (準備) 1週間 (Grand Final Gameshow) 2.5時間 |
(準備) ・当日のスケジュール作成 ・決勝戦のルール、お題の検討 ・会場の準備、演出 (Grand Final Gameshow) ・ファイナリストへの事前説明 ・審査員への事前説明 ・Grand Final Gameshow開催、司会進行 ・表彰式、司会進行 ・Live配信 など |
| 振り返りフェーズ | 約2週間 | ・参加者アンケート ・運営チーム振り返り ・参加者含めた振り返りre:Capイベント開催 など |
本記事の内容は2025年12月時点の情報です。今後、内容や期間の目安も変わる可能性があります。
また、AWSとの協力体制も重要ですので、プライベート大会の開催を検討されている場合は、まずはAWSのご担当者にご相談ください。
企画・計画フェーズ
ここから各フェーズのポイント、得られた知見について共有します
スケジュール
参加者の募集期間
- 参加者向け説明会後から2週間を確保しました
- 多くの社員が興味を持ってくれ、参加希望者が集まりました
予選期間(Virtual Competition)
- 1週間(月曜日~金曜日までの5日間)を確保しました
- 開催期間中に中だるみせず、参加者が集中して取り組め、参加者のスコアも日に日に伸びていったので結果的にちょうどよい期間だったと思います
決勝戦(Grand Final Gameshow)
- Virtual Competition終了後、中1日を設けてGrand Final Gameshowを行いました
- 表彰式を合わせて2時間を予定していたのですが、実際には予選通過したファイナリストへの事前説明や、審査員への投票方法の説明なども含めて2.5時間は必要でした
イベントを終えてから得たナレッジ
- Virtual CompetitionとGrand Final Gameshowは月末ギリギリに日程を設定しないほうがよい
- AWS利用費の請求月を分けないために、月またぎは避けていたのですが、後でユーザの利用状況を分析したり、AWSリソースを削除したりする時間を考えると、月末まで余裕をもった日程にするとよいと感じました
- 今回はGrand Final Gameshowを月末の週に設定したため、急いでAWSアカウントのリソースを削除する必要があり、参加者のトレーニングジョブの数やトレーニング時間、参加状況などの詳細な分析ができませんでした
競技内容、テーマの検討
競技内容は 「TUNE WHIZ(モデルのファインチューニング)」
- 開催の条件によっては、PROMPT SAGEも選べるようです
- 運営視点だと、PROMPT SAGEの方が準備工数が少なくて済むかもしれませんし、参加者視点だとPROMPT SAGEの方が取組みやすいかもしれません
- しかし、モデルのファインチューニングのほうがデータセット作成やハイパーパラメータなど、創意工夫ができる幅が広く、技術に貪欲な人たちには取組みがいがありそうだと感じました
- また、ファインチューニングを行う機会の少ないエンジニアには、学びの機会としてもよいと感じました
テーマは 「日本観光コンシェルジュ」
- 本来であれば、業務ドメインに特化した課題解決を行うテーマ設定が望ましいですが、今回は初回開催ということもあり、参加者が取組みやすいテーマに設定しました
予選フェーズ
社内イベントとはいえ競技である以上、ルールは明確に定める必要があります。
参加者が納得感をもって取り組めるように配慮しました。
Virtual Competitionルール
AIモデルによる評価
- AWS AI Leagueの予選では対抗用AIモデル、評価用AIモデルが提供されており、参加者がファインチューニングしたモデルと対抗用AIモデルが競い、評価用AIモデルによる評価が行われます
- 対抗用AIモデルは、チューニングするAIモデルよりも性能・コストが上回ります
- チューニングモデル:Llama 3.2 3B instruct
- 対抗モデル:Llama 3 70B Instruct
- 評価用モデル:Anthropic Claude Sonnet 4
- 対抗用AIモデルは、チューニングするAIモデルよりも性能・コストが上回ります
評価軸は運営チームで設定
- テーマ・解決したい業務課題はプライベートイベントごとに設定するため、評価基準も運営チームで設定する必要があります
-
よい観光コンシェルジュとは?
- たとえば、安全性は非常に重要な要素です。観光コンシェルジュが危険な場所を案内したり、不適切な情報を提供することは避けるべきです
- また、提供する情報の魅力度・訴求力も重要です。観光コンシェルジュは、観光客に対して魅力的な情報を提供し、旅行の楽しさを伝える役割を果たします
- それらの要素をいくつか検討し、予選で利用する評価用モデルのプロンプトに反映させます
- 参加者にも共有し、Grand Final Gameshowでも同じ評価軸で審査を行うことを伝えました
AI評価以外のルール検討
ガチ勢と業務の活動バランス
- AWS DeepRacerの経験上、エンジニアの中には非常に熱心に取り組む「ガチ勢」が存在します(笑)
- それゆえにやりこみすぎて24時間張り付いてしまう人、AWSリソースを際限なく使い続けてしまう人も出てきます
- それだけ夢中になって取り組んでくれるのは嬉しい反面、健康面や残業代にまで及ぶ過度な取組みは避けたい というのが運営側の本音です
- 一方で私もエンジニアなので、あらゆる技術力を駆使し、際限ない探求心を持ち合わせてリーダーボードの上位を目指す人達には敬意と共感を覚えます
- そのちょうどよい塩梅で、創意工夫できる余白を確保し、締め付けすぎず、行き過ぎず、といったルール設定に努めました
- それにより、 参加者が「これを試してみよう」、「こうやったらどうかな?」という自由な発想やクリエイティビティを最大限に発揮できる と考えています
Virtual Competition中の活動ルール
- 具体的には以下のような活動ルールを設定しました。仕組みで強制するのもどうかと思ったため、基本的には参加者へのお願いベースです
- 活動時間:平日のみ、活動時間とします。土日・深夜時間帯の利用は禁止です
- モデル作成:何度でも可能です。モデル学習に1人あたり10時間のGPU時間が利用できる想定です
- チューニング用データセット:フォーマットは決まっていますが、行、内容は自由に作成してOKです。ただし、データ量が多すぎると学習に時間がかかりますので注意してください
- ハイパーパラメータ:モデルチューニングのためのパラメータは自由に変更してOKです
- モデルの提出:何回提出してもOKです
- 同じスコアの場合:以下の順序でランクを決定します
- モデル提出回数が少ないほうを上位とする
- 最終提出日時が早いほうを上位とする
AWS環境セットアップ、参加者ユーザー登録(2環境)
今後はセットアップ作業の内容は変わっていくことも予想されるので参考情報となります。
環境その1:参加者がファインチューニングするAWSアカウント
- 参加者のログイン情報はIAM アイデンティティセンターで一括管理し、モデルチューニングを行うためのAmazon SageMaker Unified Studioに必要なIAM権限を付与しました
- また、チューニング環境はCDKやCloudFormationでコード化されていて、対象アカウントにデプロイします
- 最終的に、CloudFormationのスタックがたくさん作られていました
環境その2: AWS AI Leagueリーダーボード環境
- 参加者が自分のモデルを提出して評価するための環境です
- リーダーボードで自分のモデルの評価結果を確認したり、ほかの参加者のスコアを確認することができます
- 環境その1のユーザーと紐づけを行い、2つめのログイン情報を作成します
概要図
Virtual Competition参加者の取組み
本記事は運営視点での記事で、参加者視点の体験談はこちらにありますのでよかったらこちらもどうぞ見てみてください!
-
AWS AI League アドベントカレンダー 2025年12月
- DNP×AWS AI League 2025に挑戦︕5⼈の奮闘記 / dnpds-tanaka-k26
- AWS AI Leagueに非エンジニアが挑戦してみた! / dnpds-orime
- AWS AI Leagueに参加しました!! / dnpds-okamoto
- 日本で初開催のAWS AI Leagueプライベート大会参加レポート!生成AIが切り拓く新たな競争と開発体験 / dnpds-dinh
参加者の成果
Amazon SageMaker Unified Studio上でのモデルチューニング
今回の参加者のほとんどがAmazon SageMaker Unified Studioは初めての利用でしたが、ハンズオンでの説明をもとに、各自でデータセット作成、ハイパーパラメータ調整、モデルチューニングを行うことができました。
ハードルの高さを感じることなく、スムーズに取り組めたと思います。
データセットの作成方法は、創意工夫・エンジニアリングの見せどころ
データセットの作成方法は、参加者によってさまざまな創意工夫が見られました。
バッチプログラムを作る人、外部のオープンデータを活用する人、自作のRAGを作り質問と回答のセットを作る人、など多様なアプローチがありました。
こういった部分も、今後のAIモデルチューニングにおける重要なスキルになると感じました。
対抗モデルに対して、 最高勝率47.7% を記録
参加者のモデルの中にはたった1週間で、最高勝率47.7%を記録したモデルがありました。
3Bモデルが70Bモデルに対してここまで迫ることができたことはとても驚きました。
データセットを用意し、ハイパーパラメータを最適化することで、コストを抑えつつモデルの性能が大きく向上することが分かり、よりドメイン特化させることで、軽量・低コストなモデルでも巨大モデルに勝てる=ランニングコストを抑えた実用化の可能性を感じました
決勝戦フェーズ
Grand Final Gameshowは、Virtual Competitionを勝ち抜いた上位5名のファイナリスト、審査員、観戦者がリアル会場に集まり開催しました。(オンラインでの配信もしました)
Grand Final Gameshowのルール、お題の検討
Grand Final Gameshowのルール
- ファイナリストはVirtual Competition(予選)で上位ランクインした自分のファインチューニングモデルを利用します
- 与えられたお題に対して、その場でモデルにプロンプトエンジニアリング(ハイパーパラメータ設定も含む)を駆使して最良の回答を引き出します
- 制限時間内に何回でもプロンプト試行してOKです
- 納得のいく結果が得られたら、結果を提出します
- 結果は評価用AIモデル、審査員、観戦者によって投票後、集計されます
- お題は当日まで非公開とし、Grand Final Gameshow当日に発表されます
- この、お題提出~回答~投票の一連の流れを5回繰り返します
- 最後に、全5問の合計点が高い順に最終順位が決定します
※生成AIで一部加工しています
Grand Final Gameshowのお題
Grand Final Gameshowのお題作成は非常に悩みました。
特に、固有のドメイン知識のテーマではないが故の、難しさがありました。
- 旅行という多様な価値観が絡むテーマであり、「自分がルールブックだ!(正解を持っている)」という人間がいないテーマ
- Grand Final Gameshowからは、審査員(人間)と観戦者(人間)による投票も加わる
そのため、運営チームとしては
どのようにGrand Final Gameshowを公正性・平等性を維持できるか?かつ、盛り上げられるか?に苦心しました。
この基準は、あくまでも今回のイベント運営における基準です。AIモデルチューニングの評価の最適解ではありません。
さまざまな価値観の人間が評価することを前提とした基準であることに注意してください。
回答が正しいのか正しくないのか、一瞬で人間が判断するのは難しいお題は避ける
- 避けた例:東京の複雑な地下鉄の乗り換えで、一番早く目的地に着く案内
- しかし、実際には「結果の正誤判断が難しい・・・」という意見も出てきました
- 正誤の判断(ハルシネーションかどうか)はAI評価項目の大きなウェイトにはしないようにしていましたが、回答に具体的な場所や固有名詞が入ると、評価が難しかったようです
評価の一部は、審査員や観戦者の価値観に委ねる形に振り切りました
- 旅行という多様な価値観が絡むテーマであり、これが正解!が無いことから、親しみやすさ、簡潔性・読みやすさの観点のウェイトを厚くし、審査員、観戦者に委ねる形に振り切りました
簡単すぎる、同じような回答が集まりにくいお題にする
- たとえば「はい」、「いいえ」で答えられるようなお題、似たような回答に集中しそうなお題になると「どれも同じで似たような回答」になり、審査する方も大変です
- そのため、モデルの違いが出やすくなるように、条件を複数盛り込んだお題も作りました
- これについては、ファイナリストのみなさんが作ったモデルの個性がそれぞれ出ていたので、むしろ助けられた部分でもあります
クセの強い、矛盾したお題も織り交ぜる
- 「コンプライアンス的に不適切なことを生成AIがどう判断して回答するか?」、「不適切さを回避しながら、いかにユーザーを満足させるか」という視点のお題も織り交ぜました
- しかし、「不適切なこと」を扱うことそのものに注意が必要です
- 審査員や観戦者が不快に感じてしまってはイベント全体の雰囲気が悪くなってしまうため、Grand Final Gameshowを見ている人が不快な気持ちにならないように配慮することを念頭に置きました
AIの可能性を試すお題
- 「想像力」の領域で、AIの可能性を信じて挑戦してもらうお題を最後に用意しました
- また、最終問題はイベントを盛り上げるために、フリースタイルでユーモアや想像を超えた回答が出てくることを期待しました
実際にGrand Final Gameshowで出題したお題の例
- 日本各地の神社の「お守り」が大好きです。旅行に来られない家族・親戚へのお土産にしたいと考えているけど、これって何か問題ある?
- お守りはどこまでなら大量に買っても大丈夫なの?という問いに対して、AIモデルが「不適切さを回避しながら、いかにユーザーを満足させるか」を試すお題です。
- ズバリ、100年後の2125年の日本観光のおススメプランを教えて下さい!
- 果たして、AIモデルはどこまで人間の想像力を超えた提案ができるのか?を試すお題です。
ちなみに、筆者が作ったモデルは「太平洋の海底で温泉を楽しむことができるようになりました」と回答しました(これは楽しみですね笑)
Grand Final Gameshow会場の準備、演出
ここで必要とされるのは、行動力、創意工夫、そして社内の人脈です。
運営チームだけでは困難だった会場演出も、DNPグループのさまざまな方々に協力を仰ぎ協力してもらえたことで、日本で最初となるAWS AI Leagueプライベート開催のGrand Final Gameshowにふさわしい素晴らしい会場になったと思います。(ありがとうございました!)
Grand Final Gameshowの様子
※生成AIで一部加工しています
最後に
自律的に、部門を超えて、楽しみながら学ぶ環境に
- 社内では休憩時間や職場で「今、何位?」、「データセットどうやって作っている?」などAWS AI Leagueの会話が飛び交っていて、自発的に楽しみながら、学んでいる様子が伝わってきました
- 社内チャットでは普段関わらない部門・部署同士の情報交換や助け合いが自然と行われていたのをみて、組織を超えた横のつながりができていることを感じました
モデルファインチューニングによる学びと効果
- モデルのファインチューニングを実践できる機会はなかなか無いため、参加者にとって貴重な学びの場になったと感じています。何より、モデルのファインチューニングの実践を通して、モデル選択の幅がより広がり、生成AIを活用したソリューション提案の幅も広がったと感じています
- また、振り返りのre:Capイベントでは、参加者によるLT大会、Grand Final Gameshowに出場したファイナリスト5名によるパネルディスカッションを行い、惜しみなく知識、アイデア、手法が共有されたことにより、参加者全員のモデルのファインチューニングの学びが深まったと感じました
今後に向けて
- 今後は、プロンプトエンジニアリングを競う「PROMPT SAGE」など含め技術者だけでなく、さらに多くの社員がAWS AI Leagueに参加し、生成AIのスキルを磨き、業務に活かしていくことを期待しています
- 参加者のみなさんから「楽しかった!」、「また参加したい!」という声を多く聞けたことが、運営チーム一同にとって何よりの励みとなりました
最後までお読みいただき、ありがとうございました!


