【機材協力について】
本記事(および本連載プロジェクト)は、株式会社ハイレゾ様よりGPUのクラウドサービス「GPUSOROBAN」の計算資源(NVIDIA A100 80GB)を無償でご提供いただき、開発・検証を行っています。
0.はじめに
こんにちは!東京大学文科3類2年で、東大AI研究会 代表の青木宏太朗です。
私たち東大AI研究会は東大で活動するサークルで、1年かけて0からGPT型モデルを開発するために、毎週水曜日に勉強会を開催しています。勉強会では初心者でも理解しやすいスライドと、充実したカリキュラムを用いて開発を進めています。
当サークルではこの度、株式会社ハイレゾ様の協力のもと、汎用モデルをフルスクラッチで開発することになりました。「GPT型モデルのフルスクラッチ開発プロジェクト」、題して
SGT(Scratch Generative Transformer)プロジェクト
です!本シリーズでは、プロジェクトの企画段階からゴールに至るまでの、文系学生の挑戦の様子をリアルタイムでお届けします。
株式会社ハイレゾ様は自社でGPUデータセンターを運営し 「GPUSOROBAN」 というGPUのクラウドサービスを提供する会社です。高性能GPUは非常に高価で、私たちのような学生サークルが簡単に手を出せるような代物ではありません。GPUSOROBANではクラウド上で必要な期間・量だけGPUを借りることができるため、初期投資を抑えてGPUを活用し開発を行うことができます。今回はそのGPUの一部を東大AI研究会に無償で提供していただけることになりました。
1.企画背景
2025年春、入学当初でこのサークルに入会した際は、AIに関する知識は微塵もありませんでした。それどころかパソコンもまともに触ったことがなく、tabキーの位置を先輩に質問した思い出があります。それでも1年間でGPT型モデルを0から開発することができました 。
「GPT型モデルを0から開発」といえども、パラメータ数も0.5B程度で計算資源に限界があり、完成したモデルの性能は微妙...。なんとか計算資源を確保してより性能のいいモデルを作成できないものか...と頭を悩ませているときに、株式会社ハイレゾ様からGPUを提供していただけることになりました!
このような願ってもない貴重な機会に、私は「G検定に再挑戦しよう」と考えました。
「...G検定落ちてるの?」とお思いの方、実は....私は2025年9月にG検定を受験し、合格しています。AIの知識に乏しかった当時の私にとっても、G検定の勉強は非常に興味深く、様々なAIモデルを知ることができましたし、AIの歴史や法律の知識まで学ぶことができました。G検定の勉強で得た知識が、東大AI研究会代表として活動する礎になっています。
「成長の機会を与えてくれたG検定に、今度は自分ではなく、G検定で得た知識を基に開発したGPT型モデルで挑戦したい。」そのような思いが、SGTプロジェクトの背景に存在します。なお、今回は公式問題そのまま使うのではなく、出題範囲や学習領域を参考に独自でモデルの評価を行います。
G検定とは以下のような資格です。
G検定とは、一般社団法人日本ディープラーニング協会(JDLA)が実施する、AI・ディープラー
ニングの活⽤リテラシー習得のための検定試験です。 AI・ディープラーニングに関わる全ての方
が受験対象です。 AI・ディープラーニングについて体系的に学ぶことで、「AIで何ができて、何ができないのか」「どこにAIを活用すればよいか」「AIを活用するためには何が必要か」が理解で
き、データを活用した新たな課題の発見やアイデアの創出が可能になる、デジタル施策の推進に自信が持てるようになるなど、あなたのビジネスやキャリアの可能性が飛躍的に広がります。
出典:日本ディープラーニング協会 公式サイト「G検定とは」(https://www.jdla.org/certificate/general/ )
日本ディープラーニング協会(JDLA)について
本協会は、ディープラーニングを中心とする技術による日本の産業競争力の向上を目指します。そのため、ディープラーニングを事業の核とする企業および有識者が中心となって、産業活用促進、人材育成、公的機関や産業への提言、国際連携、社会との対話 など、産業の健全な発展のために必要な活動を行っていきます。
出典:日本ディープラーニング協会 公式サイト「協会について」(https://www.jdla.org/about/ )
2.フルスクラッチ開発に挑戦する意義
手短に東大AI研究会についてお話します。webから超高性能AIを使えるこの時代に、なぜ私たち東大AI研究会はGPT型モデルのフルスクラッチ開発に挑戦しているのでしょうか?
答えは単純。面白いからです。
GPT型モデルの構造は非常に面白いです。誤差逆伝播法からTransformerに至るまで、GPT型モデルの開発では多くの工夫が施された様々なアルゴリズムを実装します。
そういったアルゴリズムは本や論文の文章で学ぶよりも、実際に自分で実装してみた方がずっと理解しやすく、やりがいもあって、楽しみながら学ぶことができます。理解できないものは楽しくありませんし、楽しくなければ何事も続きません。
理解し、楽しみ、GPT型モデルの面白さを追求できる。そこにフルスクラッチ開発に挑戦する意義があります。
3.既存モデル利用ではなく、実装から学ぶ理由
世間ではLlamaやQwenなどの高性能なオープンソースモデルが公開されていて、これらの既存モデルをファインチューニングすれば、より楽に、より短期間でG検定の特化モデルを作れるでしょう。
しかし、そこからGPT型モデルについて何か新しいことが学べるでしょうか?ファインチューニングではなく、実装から学ぶことには大きな意義があります。Flash attentionなど、計算資源を最大限利用するためのアーキテクチャの工夫や、事前学習を行ううえで生じる問題など、実装から学ばなければ分からないことが沢山あります。
実際に手を動かして工夫を施し問題を解決する...そこに東大AI研究会が最も大切にする「楽しさ」が宿ります。楽じゃないからこそやりがいがありますし、やりがいがあるからこそ楽しいのです。学びも楽しさも両方得られる点に、実装から学ぶ理由があります。
4.使用するGPU環境の概要
今回は株式会社ハイレゾ様のGPUSOROBANを使用し、6月1日から7月31日の間NVIDIA A100 80GBをお借りします。
【GPU環境の概要】
GPU:NVIDIA A100 80GB ×1
Compute Platform:GPUSOROBAN
OS:Ubuntu 22.04
CUDA / Driver:12.8 / 570.86
Python:3.11
PyTorch:2.7.0
5.SGT プロジェクト全体のゴール
SGTプロジェクトには以下の目的があります。
①G検定相当の知識を有するモデルを作成する。
・フルスクラッチで汎用モデルを作成します。その際にGPQAなどの一般的なベンチマークに加え、G検定の出題範囲や学習領域を参考にした独自の評価セットを作成し、AI・ディープラーニングに関する基礎知識をどの程度獲得できたかを検証します。
②計算資源を最大限利用するための工夫を理解する。
・Flash AttentionやKVキャッシュなど、学習と推論における計算効率を最大化するための技術の実装を通して、GPT型モデルに対する理解を深めます。
③長期にわたる実際の開発環境を体感する。
・SGTプロジェクトは約3か月に渡ります。アーキテクチャの考察から外部のGPUを利用する学習プランに至るまで、実務に近い体験をすることで、実際の開発環境への理解を深めます。
以上3つの目標を達成することを、SGTプロジェクトのゴールとします。
これからも定期的に技術記事をアップロードしていきますので楽しみにしていてください!
次回はPart2【データ準備編】をお届けします!
関連リンク
株式会社ハイレゾ 公式サイト:https://highreso.jp/
クラウドサービス GPUSOROBAN:https://soroban.highreso.jp/

