はじめに
自分専用のAIシステム「H.A.L.O.(Hasetoshi's Advanced Logical Operator)」を
自前のハードウェアと無料APIだけで構築・訓練するプロジェクトを開始しました。
クラウドGPUは使わない。有料APIにも頼らない。
RTX 4070TiとGroqの無料枠だけで、LLMを本当にゼロから鍛えられるのか。
本記事はその設計思想と計画の記録です。
H.A.L.O.とは
H.A.L.O. = Hasetoshi's Advanced Logical Operator
S.D.A.P.(Self-Designed with AI-assisted Protocol)思想に基づく専用AIシステムです。
市販のAIサービスに依存せず、自分の思想と論理で動作するAIを育てることを目標としています。
環境
| 項目 | 内容 |
|---|---|
| GPU | NVIDIA RTX 4070 Ti(VRAM 12GB) |
| OS | Windows 11 |
| ベースモデル | gemma3 4B(g34b)/ gemma3 12B(g3CB) |
| データ生成API | Groq(llama-3.3-70b-versatile)無料枠 |
| 学習環境 | ローカル(Unsloth)+ Google Colab(T4) |
なぜSelf-Playカリキュラム学習か
問題
- 人間が学習データを手動で作るのは現実的でない
- 高品質なデータセットの購入・取得にはコストがかかる
解決策
Groq API(Llama3.3 70B)とH.A.L.O.を自動対話させてデータを生成する。
Groq(70B) ←→ H.A.L.O.(4B)
↓ 自動対話
JSONLファイルに保存
↓
ファインチューニングデータとして使用
Groqの無料枠(100,000トークン/日)を活用することで、
コストゼロでデータ生成が可能です。
5フェーズカリキュラム設計
カリキュラム学習の研究(Bengio et al., 2009)に基づき、
易→難の順でフェーズを設計しました。
| フェーズ | 日数 | データ種類 | 難易度 | 1日の回数 | ペア数 |
|---|---|---|---|---|---|
| Phase1 | 19日 | 説明・要約 | 易 | 10回 | 960ペア |
| Phase2 | 19日 | 質問応答 | 中 | 10回 | 960ペア |
| Phase3 | 19日 | 逆質問 | 中 | 10回 | 960ペア |
| Phase4 | 19日 | 批判的対話 | 難 | 10回 | 960ペア |
| Phase5 | 23日 | 全種類混合 | 全 | 2回 | 960ペア |
| 合計 | 約99日 | 5種類 | 易→難 | - | 4,800ペア |
各フェーズの前に3日間の試運転期間を設けています。
システム構成
E:\HALO\halo-selfplay
├── test_run_p1.py # Phase1 試運転
├── self_run_p1.py # Phase1 本番(説明・要約)
├── self_run_p2.py # Phase2 本番(質問応答)
├── self_run_p3.py # Phase3 本番(逆質問)
├── self_run_p4.py # Phase4 本番(批判的対話)
├── self_run_p5.py # Phase5 本番(全種類混合)
├── run_selfplay.bat # タスクスケジューラ起動
├── data/ # Self-Playデータ(JSONL)
└── logs/ # 実行ログ
Windowsタスクスケジューラで毎朝9:10に自動実行されます。
試運転: halo:latest(g34b)で高速確認
本番: gemma3:12b(g3CB)で高品質データ生成
試運転プロセス(各フェーズ共通)
各フェーズ開始前に3日間の試運転を実施します。
| 日程 | 内容 | 判定基準 |
|---|---|---|
| 1日目 | スクリプト動作確認 + 褒め合い出現率カウント | エラー・文字化け・タイムアウトがないか |
| 2日目 | 10回以上実行 + 褒め合い出現率カウント + 精度確認 | 褒め合い出現率10%以下 かつ 回答の深さ・批判の質がOK |
| 3日目 | 本番同条件で10回実行 | 問題なければ翌日から本番GO |
いずれかの日程で問題が発生した場合はプロンプトを修正して再試運転します。
トークン上限に達して試運転が完了できなかった場合は、試運転期間を延長します。
トークン設計
1回の実行: 3ターン × 約3,000トークン = 約9,000トークン
1日の上限: 90,000トークン(Groq無料枠の安全マージン)
Phase1〜4: 10回/日 × 9,000 = 90,000トークン
Phase5: 2回/日 × 36,000 = 72,000トークン
ファインチューニング環境
g34b(gemma3 4B)→ ローカル
RTX 4070Ti 12GB VRAM
ファインチューニング必要メモリ: 約52GB
→ VRAM 12GB + RAM 64GB = 76GB で対応可能
フレームワーク: Unsloth + LoRA
g3CB(gemma3 12B)→ Google Colab
Tesla T4 15GB VRAM(無料枠)
フレームワーク: Unsloth + LoRA
保存先: Google Drive(約12GB空き)
期待する成果
| 項目 | 期待値 |
|---|---|
| 人格定着 | 大(システムプロンプトなしでH.A.L.O.として振る舞う) |
| 専門応答品質 | 中(4Bの上限内で向上) |
| 批判的思考 | 中 |
| 逆質問能力 | 中 |
| 知能そのもの | なし(4Bの上限は変わらない) |
SPIN論文(Self-Play Fine-Tuning)の実績では約+5ポイントの改善が報告されています。
ただし今回はAI同士のSelf-Playデータのため、それより低い可能性もあります。
数値的な改善よりも「H.A.L.O.らしさの定着」が主な目標です。
今後
- Phase1〜5の順次実行と品質評価
- FT前後の応答品質の定量比較
- g3CBのColab学習実行
- 結果レポートの随時公開
GitHubリポジトリ: https://github.com/hasetoshi-03528/HALO-Project
おわりに
個人研究者が自前のRTX 4070Tiと無料APIだけで、
100日間のLLMトレーニングプロジェクトを回しています。
うまくいくかどうかわかりません。
でもやってみないとわからないというのが、
S.D.A.P.思想の根本にあります。
結果は随時レポートします。