4070TiとGroq無料APIだけでLLMをゼロから鍛える話

Last updated at 2026-04-24Posted at 2026-04-24

はじめに

自分専用のAIシステム「H.A.L.O.（Hasetoshi's Advanced Logical Operator）」を
自前のハードウェアと無料APIだけで構築・訓練するプロジェクトを開始しました。

クラウドGPUは使わない。有料APIにも頼らない。
RTX 4070TiとGroqの無料枠だけで、LLMを本当にゼロから鍛えられるのか。

本記事はその設計思想と計画の記録です。

H.A.L.O.とは

H.A.L.O. = Hasetoshi's Advanced Logical Operator

S.D.A.P.（Self-Designed with AI-assisted Protocol）思想に基づく専用AIシステムです。
市販のAIサービスに依存せず、自分の思想と論理で動作するAIを育てることを目標としています。

環境

項目	内容
GPU	NVIDIA RTX 4070 Ti（VRAM 12GB）
OS	Windows 11
ベースモデル	gemma3 4B（g34b）/ gemma3 12B（g3CB）
データ生成API	Groq（llama-3.3-70b-versatile）無料枠
学習環境	ローカル（Unsloth）+ Google Colab（T4）

なぜSelf-Playカリキュラム学習か

問題

人間が学習データを手動で作るのは現実的でない
高品質なデータセットの購入・取得にはコストがかかる

解決策

Groq API（Llama3.3 70B）とH.A.L.O.を自動対話させてデータを生成する。
Groq（70B） ←→ H.A.L.O.（4B）
↓ 自動対話
JSONLファイルに保存
↓
ファインチューニングデータとして使用

Groqの無料枠（100,000トークン/日）を活用することで、
コストゼロでデータ生成が可能です。

5フェーズカリキュラム設計

カリキュラム学習の研究（Bengio et al., 2009）に基づき、
易→難の順でフェーズを設計しました。

フェーズ	日数	データ種類	難易度	1日の回数	ペア数
Phase1	19日	説明・要約	易	10回	960ペア
Phase2	19日	質問応答	中	10回	960ペア
Phase3	19日	逆質問	中	10回	960ペア
Phase4	19日	批判的対話	難	10回	960ペア
Phase5	23日	全種類混合	全	2回	960ペア
合計	約99日	5種類	易→難	-	4,800ペア

各フェーズの前に3日間の試運転期間を設けています。

システム構成

E:\HALO\halo-selfplay
├── test_run_p1.py # Phase1 試運転
├── self_run_p1.py # Phase1 本番（説明・要約）
├── self_run_p2.py # Phase2 本番（質問応答）
├── self_run_p3.py # Phase3 本番（逆質問）
├── self_run_p4.py # Phase4 本番（批判的対話）
├── self_run_p5.py # Phase5 本番（全種類混合）
├── run_selfplay.bat # タスクスケジューラ起動
├── data/ # Self-Playデータ（JSONL）
└── logs/ # 実行ログ

Windowsタスクスケジューラで毎朝9:10に自動実行されます。

試運転: halo:latest（g34b）で高速確認
本番: gemma3:12b（g3CB）で高品質データ生成

試運転プロセス（各フェーズ共通）

各フェーズ開始前に3日間の試運転を実施します。

日程	内容	判定基準
1日目	スクリプト動作確認 + 褒め合い出現率カウント	エラー・文字化け・タイムアウトがないか
2日目	10回以上実行 + 褒め合い出現率カウント + 精度確認	褒め合い出現率10%以下かつ回答の深さ・批判の質がOK
3日目	本番同条件で10回実行	問題なければ翌日から本番GO

いずれかの日程で問題が発生した場合はプロンプトを修正して再試運転します。
トークン上限に達して試運転が完了できなかった場合は、試運転期間を延長します。

トークン設計

1回の実行: 3ターン × 約3,000トークン = 約9,000トークン
1日の上限: 90,000トークン（Groq無料枠の安全マージン）
Phase1〜4: 10回/日 × 9,000 = 90,000トークン
Phase5: 2回/日 × 36,000 = 72,000トークン

ファインチューニング環境

g34b（gemma3 4B）→ ローカル

RTX 4070Ti 12GB VRAM
ファインチューニング必要メモリ: 約52GB
→ VRAM 12GB + RAM 64GB = 76GB で対応可能
フレームワーク: Unsloth + LoRA

g3CB（gemma3 12B）→ Google Colab

Tesla T4 15GB VRAM（無料枠）
フレームワーク: Unsloth + LoRA
保存先: Google Drive（約12GB空き）

期待する成果

項目	期待値
人格定着	大（システムプロンプトなしでH.A.L.O.として振る舞う）
専門応答品質	中（4Bの上限内で向上）
批判的思考	中
逆質問能力	中
知能そのもの	なし（4Bの上限は変わらない）

SPIN論文（Self-Play Fine-Tuning）の実績では約+5ポイントの改善が報告されています。
ただし今回はAI同士のSelf-Playデータのため、それより低い可能性もあります。
数値的な改善よりも「H.A.L.O.らしさの定着」が主な目標です。

今後

Phase1〜5の順次実行と品質評価
FT前後の応答品質の定量比較
g3CBのColab学習実行
結果レポートの随時公開

GitHubリポジトリ: https://github.com/hasetoshi-03528/HALO-Project

おわりに

個人研究者が自前のRTX 4070Tiと無料APIだけで、
100日間のLLMトレーニングプロジェクトを回しています。

うまくいくかどうかわかりません。
でもやってみないとわからないというのが、
S.D.A.P.思想の根本にあります。

結果は随時レポートします。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up