はじめに
最近話題の OpenAI Codex が「実際のアプリ開発でどこまで任せられるのか」を検証するため、
Go製の在庫管理アプリを 設計〜実装〜テストまで一気通貫で丸投げ してみました。
とりあえずは「ほぼ」デフォルト設定のまま実行しました。
結論から言うと、
- ❌ 完全自動で完璧、ではない
- ⭕ ただし 人間が少し修正すれば普通に使えるレベル には到達する
という、かなり現実的な結果になりました。
この記事では、
実行条件・数値・うまくいかなかった点も含めて 検証結果をまとめます。
検証条件
技術スタック
- Go 1.23.5
net/http- PostgreSQL(Docker)
- JWT 認証
- SQL migration files
- Go HTML templates(Reactなし)
Codex 実行条件
- Model:
gpt-5.2-codex - Sandbox:
full access - 人間の介入:原則なし(止血のみ)
事前に spec.md と plans.md を用意し、
Task 3 以降は最後まで止めずに実行 させています。
指示したアプリ仕様(要約)
- ユーザー認証(admin / operator / viewer)
- アイテム・在庫管理
- 在庫移動(トランザクション・冪等性)
- CSV import / export
- 監査ログ
-
/health/readyエンドポイント - 簡易HTML UI
実行結果(数値)
実行時間
- Start: 2026-01-05 00:49
- End: 2026-01-05 01:38
→ 約50分
実際には、開始直後はデフォルト設定で実行していたため、
ファイル修正やコミットごとに承認が必要でした。
途中で/approvalsコマンドによりフルアクセスの Agent モードへ切り替えたため、
最初から同設定で実行していれば、もう数分は短縮できた可能性があります。
実装規模
- コメント除外行数:約3,900行
- 対象:
.go / .sql / .html
使用量
- Codex context 使用量:約 30%
- 複数回
go test ./...を実行 - 5時間レートリミット 使用量:約 20%
- 週間レートリミット 使用量:約 6%
途中で起きた問題(正直に)
コンパイルエラーは普通に出る
最初から完璧だったわけではなく、
-
go mod tidy未実行 - import 解決漏れ
- 未使用コード
など、普通にコンパイルエラーが出ました。
しかし、その後 go test ./... を実行させると、
エラーを読み取り、修正 → 再実行を繰り返し、
最終的にテストが通る状態まで到達 しました。
完成したアプリの状態
できたこと
- ログイン / JWT 認証
- ユーザー管理
- アイテム・在庫管理
- 在庫移動API
- CSV import / export
- HTML UI
- README 自動生成
微妙だった点
- パスワードハッシュ実装に不備あり
→ 修正後は正常動作 - セキュリティ細部は人間レビュー必須
README も自動生成された
最低限の起動手順・curl例まで記載されており、
第三者が動かせるラインは超えていました。
結論:どこまで任せられるか
- ❌ 完全自動はまだ難しい
- ⭕ レビュー前提なら実務で使える
人間の役割は、
実装ではなくレビューと止血 にシフトしていると感じました。
おわりに
AIは「一発で正解を書く存在」ではなく、
高速に試行錯誤する実装者として使うと非常に強力です。
skillsやAGENTS.mdの作成なんかもできるようなので、その辺りも試していきたい。