成果物
まだ作ってる最中
前提
postmanが重かったりしたのでAPIクライアント作ろうと思い作り始めました。
codexなしで0の状態から2日ほど終業後に作業し、以下の機能は実装していました。
- リクエストを送信する機能
- それに付随する必要な機能
- リクエストを保存する機能
いわゆるメインとなる機能を作り、あとは便利にしていくための実装が必要な状態でした。
テストやたくさんの簡易なタスクや追加機能開発がIssueとして積み重ねてしまい、
このままでは当面終わらないなと感じた段階で人手が欲しいからcodexを導入してみたという経緯になります。
導入してみた人間の感想
Devinのようなエージェントを扱ったのは、Codexが初めてです。
いくつかの観点から評価していくべきだと思うので、評価軸を4.1に出力させています。
評価軸を参考に人間の感想をかきます。
Codexの使用環境
- Arcブラウザからの利用
- codexにお願いし、上がってきた内容をCopilotを駆使しながら修正し、マージすると言うのが主な流れ
Codexへのプロンプト例
- 新規機能を作らせた際のプロンプト
- https://chatgpt.com/s/cd_6829c0ed0ca08191b27968907b3d8c0f
- どう言う動作を期待しているかのみ伝えているが、そんなに悪くない結果
- 新規のUIと動作の追加を依頼しているので、ほどほどなサイズ感の依頼
- デザイン等なしで依頼しているが、大体どの辺に配置するべきかは勝手に考えてくれてる
- 新規機能作らせた2
-
https://chatgpt.com/s/cd_6829c61f470c8191ace3cecdb1a1befb
- 初めて明らかにうまくできていない
- タスクが大きすぎた
-
https://chatgpt.com/s/cd_6829d63a80b481919fe2f1990e10f2af
- 上記でタスクの細分化をやらせてみる
- 簡単ではなさそうなので後日時間を作って詳細な指示の仕方を考える
-
https://chatgpt.com/s/cd_6829c61f470c8191ace3cecdb1a1befb
- 新規機能作らせた3
-
https://chatgpt.com/s/cd_6829c65580d081918de12347bebd6b6b
- フォルダよりは簡易な機能
- 問題なく作成できている
- この辺りが雑に指示を投げて作成できるラインかなと感じる
-
https://chatgpt.com/s/cd_6829c65580d081918de12347bebd6b6b
- eslint動くようになったからlintエラー直させようとした際のプロンプト
- https://chatgpt.com/s/cd_6829c13f33c48191ba9204e215b94501
- lintが動かせないので1番初めのすごく雑にお願いした際はlintそのものが動かないんだと勘違いしている
- エラーログを渡すことで解決
- 後から気づいたけどLintをcodexに動かしてもらうことも可能だった
- エラーログを渡すことで解決
アウトプットの品質・安定性
生成されるコードや提案の品質、安定して期待通りの結果が得られるか。
- そこそこ高いと感じる
- o3と並走している人間の方が上ではある
- パッケージのinstallができないため、vitestなどのテスト実行を伴う修正作業は、Codex単体では完結しない
- 簡易なタスクであれば人間がレビューする際にテストを実行し、その結果を確認することで良しと出来る
- 動かないESLintを動くように修正依頼をかけ、LintError全て解決してくれみたいな投げ方をするとcodexでは無理
- lintを実行することができるようになれば出来るようになるのかもしれない
- 動かないESLintを動くようにした上で、ESLintのエラーログを全てぶん投げて修正してほしいは大体可能
- 上記のような大量の修正でeasyな物をタスクとして与えると非常に良い結果を生む
下記はESLintのエラーが71件から4件にまで減少した画像
Codex単体ではLintの実行ができないため、すべての問題が解消されてないわかる。
バグるかと言われると大丈夫な範囲になってるんだけど、lintやtestが動かないのは問題。
学習コスト・導入のしやすさ
CodexやAIツールの導入・利用にあたって、どれくらい学習が必要か、直感的に使えるか。
- 学習コストにおいてはほぼ無い
- 割と雑にお願いしてもやってくれる
- 参考:プロンプト例
- AGENTS.mdを作成すると良い
- 知らないファイルが出てくるとめんどくさいと感じるが、AGENTS.mdもcodexで生成させたりレビューさせたりすることが可能なので非常に楽
- 割と雑にお願いしてもやってくれる
カスタマイズ性・柔軟性
プロンプトや指示の工夫でどこまで自分好みに調整できるか。
対応範囲・得意不得意
どんな言語やフレームワークに強いか、逆に苦手な領域は何か。
- devinと違ってブラウザにアクセスしないので、フロントが比較して苦手なはず
- ただ現状フロントのコードを書かせている限りは特に問題を感じない
- フロントで完結するコードを書かせているからかもしれない
- モノレポにすればバック、フロント共に確認できるので都合よく動くかも
- 流行りの言語であれば問題なく扱えると思われる
- ネット情報が少ない新しい技術だと厳しいんじゃなかろうか
- どの生成AIもそうだと思う
- ネット情報が少ない新しい技術だと厳しいんじゃなかろうか
人間との協働・役割分担
AIと人間の得意分野をどう分担するのが効率的か。
- codexにおいてはネットワークが繋がらないので環境構築をcodexに頼むことができない
- 最初の環境構築はo3等と協力し頑張ったのちに、いろいろなAPIを作ったりする作業をcodexに依頼するのが効率的だと感じる
セキュリティ・プライバシー
コードやデータを外部AIに渡す際のリスクや注意点。
- 学習に使って良いかと最初に問われるので、企業のプロジェクトであればオフにすれば良いと思う
- 今回個人開発n使って良いにした
- codexはネットワークが使えないので、codex側のミスにより漏れることはない
今後の期待・課題
現状の課題や、今後こうなってほしいという期待。
- テストツールくらいは動くようになって欲しい
- Plusでも使えるようになることを期待している
- 3万は高い
- 環境構築はできたら嬉しいなと思う
- もしかしたら可能かもしれない。検証不足