はじめに
弊社では開発効率と開発者体験の最大化のため、2024年末よりAI Agentを利用したAI駆動開発を積極的に推進しています。
この記事の執筆時点では、開発組織においては以下の制度を導入し、開発効率の向上を目指しています。
- エンジニアは好みに応じてGitHub Copilot、Cursor、Windsurfからの選択制でAI IDEへのアクセス権を付与
- Devinを毎月3,000ACUs(Agent Compute Unitの略、Devinの課金単位)を目処に全エンジニア/ビジネスサイドの一部メンバーにアクセス権を付与
- Cline等のオープンソースのAI Agentを活用できるようにAnthropic、OpenAI、GeminiのAPIキーを全エンジニアに付与
そして、弊社はDevinを日本国内でもトップクラスに利用しており、Cognition AI社とのメンバーとは密にコミュニケーションを取っています。
(DevinのLPにもスクロールしているロゴの中に弊社のロゴを乗せてもらえています。)
DevinとCursor等のAI IDEを用いたVibe Codingは、作業対象が同じものになるケースがほとんどなので、弊社では以下のように各々の特性を踏まえて使い分けを行うケースが多いです。
このあたりの判断は弊社の各エンジニアやチームリーダーの判断に委ねています。
- UI系の対応や細かい不具合修正など、AIと細かい単位で対話しながらコーディングをするほうが効率的なタスク → Vibe Coding
- MCP(Model Context Protocol)を使ってNotionなど外部サービスのデータを利用したいタスク → Vibe Coding またはCline
- リアーキテクトや複数のリポジトリをまたぐAPIの修正系タスクなど、やや規模が大きくゴールが明確なタスク → Devin
- Vibe Codingでは対応が難しいデータ分析系タスクや、CI pipelineでのPRのレビュー → Devin
Devin 1.xの振り返り
以前の記事 でも述べた通り、Devin 1.0は2024年3月に発表され、2024年12月にGA(一般提供)されました。
従来のAIコーディングアシスタントとは一線を画す「完全自動型AIエンジニア」として登場し、与えられた情報をもとに自律的に開発プロセス全体を実行できる点が大きな特徴でした。
弊社ではDevin 1.0の時代から不具合修正や機能追加、リアーキテクト等、多くのタスクでDevinを活用しています。
ただ、一方で以下のような問題もあり、CursorなどでのVibe Codingに比べるといろいろと敷居が高い部分があったのも事実です。
- 導入のためには$500/月が最低限必要となるため、効果計測もできていない状態で個人や小規模組織で手軽に導入するのは難しい
- Devinのセッション開始時のプロンプトが曖昧だったり、一度にアサインするタスクの量が多すぎると、意図とは異なる方向の修正を行ってしまい、結果としてACUを無駄に消費することになる
- Devinのタスクの遂行を監視していたとしても、意図と異なる修正がされ始めたときに、割り込みを行うことが難しく、中断してWIPのPRを作成させ、人間側で残タスクを遂行することになるケースがそこそこ発生する(割り込みはClineでは可能)
その中で、2025年4月3日にDevin 2.0がGAされ、多くの機能が追加されました。
Devin 2.0の機能追加で上述の問題の多くに対応がされており、Devinの導入/運用に関する敷居がだいぶ低くなった印象です。
以下で詳しく見ていきます。
Devin 2.0の新機能
1. 新しい料金プラン(Coreプラン)の追加
Devin 2.0では、従前のTeam PlanとEnterprise Planに加えて、$20/月から利用可能なCoreプランが追加されました。
Devin APIが利用できない、最大Session数が限定されるなど、一部機能の制限はあるものの、主要機能はCoreプランでも利用できます。
とりあえず個人や小規模組織でどんなものか試してみたいというときにはCoreプランは非常に魅力的なプランかなと思います。
2. Devin自体の性能の向上
2024年12月の正式リリース以降、内部AIモデルのClaude 3.7への移行や、各種内部動作の改善を通してDevinの性能は大幅に向上し続けています。
今回のDevin 2.0のリリースでもDevin自体の性能は大幅に向上しており、同一タスクを任せた場合のACUの消費効率が83%以上向上しているとのことです。
実際に2024年12月にDevin 1.0がGAされた時点でアサインしたタスクと同じようなタスクを任せた場合、消費するACUや所要時間が数分の1になっています。
また、ソフトウェア開発において、タスクの詳細を明確にし「何をするか」を決める作業は、実際の実装と同じくらいかそれ以上に時間がかかることがあります。
Devin 2.0 ではこれを踏まえ、コードベースを事前に調査し、詳細なプランを作成するようになりました。
Interactive Planning Modeによって作業の実行前にプランを修正することもできるので、開発開始時に意図しない動作になるリスクも低減できます。
これらの性能の向上を通して、Devin 1.xで解決できなかったタスクもDevin 2.0では解決できるようになっている可能性があるので、もう一度試してみると良いかもしれません。
3. Devin IDE
Devinが実行しているセッションに関して、Devin内にあるVS CodeベースのIDE上で、Devinのセッションの実行状況を確認しつつ、「Unfollow Devin」の実行によってエンジニア側でDevinの動作に介入できるようになりました。
エンジニア側でコードを修正し、Devin内部でテストを実行したうえでDevinの動作を継続できます。
感覚としてはブラウザ上でVS Codeでの開発を行えるGitHub CodespacesにAI Agentが組み込まれたような操作感です。
Devin 1.5からこのIDE自体は存在していたのですが、Devin2.0での大きな変化として、途中でエンジニアが介入してコードの修正を行うことができるようにもなったことが大きいです。
Quick Agentという機能によってDevin IDE内でVibe Codingもできるようになっています。
これによって、Devinの動作が意図からズレたときにエンジニアサイドからの介入によってDevinにタスクを継続させられるケースが増えました。
4. Devin IDEの並列実行
Devin 2.0では、複数のDevin Sessionを起動しつつ、Devin IDEで同時に操作するオペレーションフローが実現できるようになりました。
CursorやWindsurfといったIDEでもIDEを複数起動すれば同じことは可能ではありますが、複数IDEの起動にはPCのマシンリソースやAPIのレートリミットという限界があります。
(これらのIDEだと、現状自律的に呼ばれるAPIのコール回数にも上限があり、一定頻度での確認も必要になります。)
Devinの場合には、Devinが操作するVMインスタンスが遠隔で起動し、Devinが自律的に実行していくタスク状況をブラウザベースで確認/操作するだけなので、これらの限界はありません。
強いて言えば、人間側のAI Agentのマネジメント能力とDevinの残りのACUsが制約条件になります。
並列実行に関して、Devin 2.0の紹介動画中ではCognition AI社のCEO Scottが「The new flow allows you to run your own team of Devins」と述べています。
Introducing Devin 2.0: a new agent-native IDE experience.
— Cognition (@cognition_labs) April 3, 2025
Generally available today starting at $20. 🧵👇 pic.twitter.com/0DWrVwmpJn
何セッションのDevinを並列実行し、高い精度でタスクを完了できるかが割とDevinを利用するエンジニアサイドの腕の見せどころになりそうです。
5. Devin Search
Devin Searchは、コードベースに対して自然言語で検索を行うことができる機能です。
それだけであれば、GitHub、CursorなどのChat機能と変わらないのですが、リポジトリをまたいで検索をしたり、Deep Searchができる点が差別化要素となっています。
その判断の根拠となっているコードのリンクも示してくれるので、ハルシネーションなのかどうかの判断も容易に行えます。
私も以下のようなユースケースでDevin Searchを活用しています。
選択したリポジトリのドメイン知識に基づいてくれるうえに、だいぶ回答精度が高く助かっています。
- 以前弊社がオフショア開発主体だった時代のドメイン知識があまりないコードの内容を把握したいとき
- セキュリティチェックシートの回答などで複数プロダクト横断で特定のセキュリティ制御の有無やサードパーティーのサービスの利用有無を確認したいとき
- 特定の修正がリポジトリをまたいで影響を与える範囲を調査したいとき
- 既存サービス群のリアーキテクトや横断的な機能追加に関連した壁打ち
6. Devin Wiki
Devin Wikiはコードベースの内容から自動でWikiを生成してくれる機能です。
ER図やそれが指すコードの内容を含めてすべてWikiを自動で生成し、数時間おきに自動で内容を更新してくれます。
私の経験則上、「開発ドキュメントが作成されていないか、あったとしても保守開発時に開発ドキュメントがメンテナンスされておらず、あまり役に立たなくなっている」という問題は多くの開発組織で発生しています。
この問題に対して、Devin Wikiは有効な解決策になりそうです。
実際に弊社のリポジトリに関するDevin Wikiの内容を見ても、ほとんどのリポジトリでDevin Wikiの内容は正しく、新規入社者や異動してきたエンジニアのオンボーディングに活用していきたいと考えています。
現在は英語でしか生成されないものの、多言語対応であったり、Excel、Google Spread Sheet、Notionへの連携機能が実装されればより便利になりそうです。
もっともDevin Wikiにも限界はあり、サービスの中心部分に数千行〜数万行にわたるゴッドクラスが存在していたり、循環的複雑度が高いコードがあると、Devin Wikiの内容も不正確になる傾向性があります。
これは人間側も正しく内容を把握することが困難なケースなので、現状致し方ないと思っています。
この点は今後の改善に期待ですね。
さいごに
ここ数ヶ月でAI Agentを利用したAI駆動開発は多くの組織で導入され、特に日本だとCursorの導入やGitHub Copilot Editの利用によるVibe Codingからこれを進めていくケースが非常に多い印象です。
Devin1.xでは初期費用の高さと完全自律型であることに起因したハンドリングの難しさによって、Devinを導入/活用する敷居がVibe Codingの導入に比べて高いという問題がありました。
前述のとおり、Devin 2.0では従前の問題点の多くに対応がされ、Devinの導入/運用に関する敷居がだいぶ低くなりました。
- 導入のためには$500/月が最低限必要となるため、効果計測もできていない状態で個人や小規模組織で手軽に導入するのは難しい → Coreプランの追加
- Devinのセッション開始時のプロンプトが曖昧だったり、一度にアサインするタスクの量が多すぎると、意図とは異なる方向の修正を行ってしまい、結果としてACUを無駄に消費することになる → Interactive Planning Modeの追加
- Devinのタスクの遂行を監視していたとしても、意図と異なる修正がされ始めたときに、割り込みを行うことが難しく、中断してWIPのPRを作成させ、人間側で残タスクを遂行することになるケースがそこそこ発生する → Devin IDEの追加
まだDevinを未導入の方はAI IDEだけではなく、DevinもAI駆動開発に用いるサービスとして検討の対象にしてみるといいかもしれません。
おまけ
2025年4月21日にDevinを開発しているCognition AI社のCEO Scott, President Russelが来日され、Cognition AI社、日本マイクロソフト社、弊社の三社合同でMeetupを開催することになりました!
私もパネルディスカッションで登壇予定です。
CEO Scott, President Russelが日本で登壇されるのは初めてとのことで、Devinに関して直接両名に話を聞くことができるとても貴重な機会となります。
ぜひご興味のある方はご参加ください!