0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

4070TiとGroq無料APIだけでLLMをゼロから鍛える話

0
Last updated at Posted at 2026-04-24

はじめに

自分専用のAIシステム「H.A.L.O.(Hasetoshi's Advanced Logical Operator)」を
自前のハードウェアと無料APIだけで構築・訓練するプロジェクトを開始しました。

クラウドGPUは使わない。有料APIにも頼らない。
RTX 4070TiとGroqの無料枠だけで、LLMを本当にゼロから鍛えられるのか。

本記事はその設計思想と計画の記録です。


H.A.L.O.とは

H.A.L.O. = Hasetoshi's Advanced Logical Operator

S.D.A.P.(Self-Designed with AI-assisted Protocol)思想に基づく専用AIシステムです。
市販のAIサービスに依存せず、自分の思想と論理で動作するAIを育てることを目標としています。


環境

項目 内容
GPU NVIDIA RTX 4070 Ti(VRAM 12GB)
OS Windows 11
ベースモデル gemma3 4B(g34b)/ gemma3 12B(g3CB)
データ生成API Groq(llama-3.3-70b-versatile)無料枠
学習環境 ローカル(Unsloth)+ Google Colab(T4)

なぜSelf-Playカリキュラム学習か

問題

  • 人間が学習データを手動で作るのは現実的でない
  • 高品質なデータセットの購入・取得にはコストがかかる

解決策

Groq API(Llama3.3 70B)とH.A.L.O.を自動対話させてデータを生成する。
Groq(70B) ←→ H.A.L.O.(4B)
↓ 自動対話
JSONLファイルに保存

ファインチューニングデータとして使用

Groqの無料枠(100,000トークン/日)を活用することで、
コストゼロでデータ生成が可能です。


5フェーズカリキュラム設計

カリキュラム学習の研究(Bengio et al., 2009)に基づき、
易→難の順でフェーズを設計しました。

フェーズ 日数 データ種類 難易度 1日の回数 ペア数
Phase1 19日 説明・要約 10回 960ペア
Phase2 19日 質問応答 10回 960ペア
Phase3 19日 逆質問 10回 960ペア
Phase4 19日 批判的対話 10回 960ペア
Phase5 23日 全種類混合 2回 960ペア
合計 約99日 5種類 易→難 - 4,800ペア

各フェーズの前に3日間の試運転期間を設けています。


システム構成

E:\HALO\halo-selfplay
├── test_run_p1.py # Phase1 試運転
├── self_run_p1.py # Phase1 本番(説明・要約)
├── self_run_p2.py # Phase2 本番(質問応答)
├── self_run_p3.py # Phase3 本番(逆質問)
├── self_run_p4.py # Phase4 本番(批判的対話)
├── self_run_p5.py # Phase5 本番(全種類混合)
├── run_selfplay.bat # タスクスケジューラ起動
├── data/ # Self-Playデータ(JSONL)
└── logs/ # 実行ログ

Windowsタスクスケジューラで毎朝9:10に自動実行されます。

試運転: halo:latest(g34b)で高速確認
本番: gemma3:12b(g3CB)で高品質データ生成


試運転プロセス(各フェーズ共通)

各フェーズ開始前に3日間の試運転を実施します。

日程 内容 判定基準
1日目 スクリプト動作確認 + 褒め合い出現率カウント エラー・文字化け・タイムアウトがないか
2日目 10回以上実行 + 褒め合い出現率カウント + 精度確認 褒め合い出現率10%以下 かつ 回答の深さ・批判の質がOK
3日目 本番同条件で10回実行 問題なければ翌日から本番GO

いずれかの日程で問題が発生した場合はプロンプトを修正して再試運転します。
トークン上限に達して試運転が完了できなかった場合は、試運転期間を延長します。


トークン設計

1回の実行: 3ターン × 約3,000トークン = 約9,000トークン
1日の上限: 90,000トークン(Groq無料枠の安全マージン)
Phase1〜4: 10回/日 × 9,000 = 90,000トークン
Phase5: 2回/日 × 36,000 = 72,000トークン


ファインチューニング環境

g34b(gemma3 4B)→ ローカル

RTX 4070Ti 12GB VRAM
ファインチューニング必要メモリ: 約52GB
→ VRAM 12GB + RAM 64GB = 76GB で対応可能
フレームワーク: Unsloth + LoRA

g3CB(gemma3 12B)→ Google Colab

Tesla T4 15GB VRAM(無料枠)
フレームワーク: Unsloth + LoRA
保存先: Google Drive(約12GB空き)


期待する成果

項目 期待値
人格定着 大(システムプロンプトなしでH.A.L.O.として振る舞う)
専門応答品質 中(4Bの上限内で向上)
批判的思考
逆質問能力
知能そのもの なし(4Bの上限は変わらない)

SPIN論文(Self-Play Fine-Tuning)の実績では約+5ポイントの改善が報告されています。
ただし今回はAI同士のSelf-Playデータのため、それより低い可能性もあります。
数値的な改善よりも「H.A.L.O.らしさの定着」が主な目標です。


今後

  • Phase1〜5の順次実行と品質評価
  • FT前後の応答品質の定量比較
  • g3CBのColab学習実行
  • 結果レポートの随時公開

GitHubリポジトリ: https://github.com/hasetoshi-03528/HALO-Project


おわりに

個人研究者が自前のRTX 4070Tiと無料APIだけで、
100日間のLLMトレーニングプロジェクトを回しています。

うまくいくかどうかわかりません。
でもやってみないとわからないというのが、
S.D.A.P.思想の根本にあります。

結果は随時レポートします。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?