前回のおさらい
前回、詐欺ダメ.comをClaude Codeで作ってみた を書いたら、GeminiとGrokから色々ツッコまれた。
その中で一番反応がデカかったのが「AIが書いたコードをレビューしていない、これは負債のブラックボックス化ではないか」という指摘だ。
この指摘自体正しいと思うが、結論が違う。
今日はその話を、もう一段メタな視点で書いてみた。
人間はAIに何を期待しているのか
経営層・AIを検討するユーザーはAIにこう期待している。
「AIにコードやドキュメントを書かせれば、人件費はほぼゼロで生産性は爆上がりするのではないか」
気持ちは分かる。Claude Codeを触ったことのある人なら、誰でも一度はそう思う。
だが、同時にこうも思っている。
「いやでも、AIが書いたコードやドキュメントをそのまま出すのはさすがに怖い」
これも分かる。私もそう思う。
つまり、生産性は信じているが、正確性は信用していない。
この状態で何が起きるか。
レビュアーが消えない、むしろ増える
「AIにコードを書かせる」ということは、人間がレビュアーに回るということだ。
ここまではみんな何となく分かっている。
問題は次のフェーズである。
AIが秒で生み出すコードを、人間が秒で読めるのか?
無理だ。
10倍速で生まれるコードを、レビュアー1人で捌けるはずがない。
となれば、レビュアーを2人、3人、5人と増やすことになる。
コーダーを消したのに、レビュアーが増えかねない未来?
「構造がおかしくない?」という事。
人間レビュアーは、構造的に欠陥が多い
ここでハッキリ書いておきたい事。
人間のレビュアーには、構造的な弱点が3つある。
① 感情で詰まる
指摘した箇所が直っていない、イライラする。
「とりあえず前に指摘したココ!直してから出直してこい」と突き返す。
突き返した後ろにあったかもしれない致命的なバグは見ない。
「完走しないレビュー」、これが人間レビュアーの第一の弱点。
② 休む
人間なので休日は休む。
体調不良や私用で休む事もあるのはしょうがない、人間だもの。
休まれるとレビュー業務が止まるから、レビュアー複数人体制にする。
複数人になると判定基準がブレる。
ブレるから議論が発生し、貴重な時間と体力を消耗する。
レビューが始まる前にすでに体力を削っている状態だ。
③ ツールは仕様を知らない
GitHubのレビューツールも、各種テストツールも優秀だがコード体系のチェックしかしない。
「この実装は、仕様書3章の要件Bを満たしているか」という判定はできない。
「カバレッジ80%超えているからOK」も同じ話で、行カバレッジでは「ユーザーが画面Aで操作Bをしたとき、最終的に画面Cで正しい結果が見えるか」を保証できない。
なので、詐欺ダメ.comでは 「カバレッジ + 実機fixture + KPI監視」の3点セットで担保している。
コーダーがシナリオテストを書けばいい?
確かにそう、だがそのシナリオを書くのも、レビューするのも、結局は仕様を頭に入れた人間。
つまり何をやっても、仕様理解という重い作業が人間のレビュアーに残り続ける。
この3つは全部、AIの得意分野である
上に挙げた3つの弱点を、AIの特性と並べてみる。
| 人間レビュアーの弱点 | AIレビュアーの特性 |
|---|---|
| ① 感情で詰まる | 24時間、同じ基準で淡々と処理 |
| ② 休む | 深夜だろうが連休だろうが回る |
| ③ ツールは仕様を知らない | 仕様書・コード・テスト・履歴を横断把握、ストーリー単位の整合性チェックも可能 |
…これはもう、AIレビュアーの勝ち筋しか見えない。
つまり・・・
コーダーをAI化する前に、レビュアーをAI化すべきである。
順番が明らかに逆、世の中の議論は。
「AIにコードを書かせて大丈夫か?」ではない。
「AIにレビューさせるには何が必要か?」を先に解くべき。
レビューがAIで回るようになって初めて、コーダーのAI化が真の意味で生産性に効く。
それまでは、AIコーディングはただの 「人間レビュアーボトルネック増産機」 にしかならない。
ただし・・・
AIレビュアー × AIコーダーの構成は、放っておくと無限修正ループに陥る。
レビュアーAIが何百件も指摘 → コーダーAIが直す → またレビュアーが弾く → 以下無限……
これは机上の空論ではなく、確実に起きる。
だからこそ「停止条件」がセット必須になる。
- 同一指摘の再発回数で打ち切り
- レビュー往復回数の上限
- 重要度Highだけは必ず修正・Lowは無視
- 一定ループ後は人間にエスカレーション(ここで人間の登場!)
「レビュー観点の展開」というマーケット構想
レビューの観点は、業界・言語・プロダクト特性で大きく異なる。
- 金融系 → 監査ログ・トランザクション整合性
- 医療系 → 個人情報保護・GDPR対応
- ゲーム → パフォーマンス・UX
- 詐欺対策のようなadversarial系 → 攻撃面の網羅性
- ドキュメントの作成 → プレゼンノウハウ
これらは全て、レビュー観点パッケージ として md化できる。
そして、それをマーケットで売り買いできる世界があってもいい。
「このプロジェクトは観点パッケージ v2.3 を採用」
「業界標準セットを継続購入」
そういう市場が立ち上がれば、AIレビュアーの精度はパッケージ品質で担保される。
レビュー知識を辞書として流通させる、新しい市場の余地は十分にあると思う。
興味ある方、是非ご連絡を・・・w
最後に
前回の記事で「コードを読んでいなくて怖くないのか」と聞かれた答えはこう。
「読まないで済む仕組みを、別軸で組んでいるから」
ただし本音を言えば、いつかレビュアーごとAIに任せたい。
そうなって初めて、個人が公共サービスを爆速で作り運用し続けたり、プロジェクト内の生産性が爆上がりすることが当たり前になる。
そういう世界が来るまでは、詐欺ダメ.comでは設計書とER図と実機KPIで踏ん張る予定。
※別で作業しているプロジェクトはガッツリレビューしています・・・w
順番を間違えないために、まずレビュアーからAIに。
今日はそういう話でした。