概要
支援型 AI ではなく、完全自律型の AI で「エンジニア」として作業が可能な AI が登場しました。
まだ完全な商用リリースではないですが、エンジニアにとっては影響のある情報だと思うので、公式発表された内容の日本語情報がまだ少ないために記載します。
また、結構エンジニアの仕事をまんまこなしてしまう系の AI なので、「ついに仕事が奪われる?」についても後半で言及したいと思います。
Devin(デヴィン)とは
「Devin(デヴィン)」 とは、2024年3月12日に Cognition 社が発表した新しい AI で、投稿された公式の Youtube 動画 の概要欄には、以下の様に書かれていました(執筆時現在)。
Meet Devin, the world’s first fully autonomous AI software engineer.
👉 『世界初の完全自律型 AI ソフトウェア・エンジニア、"デヴィン" を紹介します。』
YouTube 動画では、AI エンジニア という切り口で、Devin という AI が実際にタスクをこなす様子のデモンストレーションが解説付きで紹介されており、動画時間も 1分50秒 と短いので、その内容を全て翻訳してみました。
動画内発言の全文翻訳(意訳)
Qiita のコミュニティガイドライン に基づき、意訳した YouTube の元ネタの画像等は貼り付けていません。実際の動画や切り抜き画像がなくて見づらくてすみません🙇♂️ 本家の動画リンクは末尾に置いてます。
Hey, I'm Scott from Cognition AI.
and today I'm really excited to introduce you to Devin, the first AI software engineer.
Let me show you an example of Devin in action.
コグニション AI のスコット(代表:スコット・ウー氏)です。
今日は、世界初の AI ソフトウェアエンジニア、Devin を紹介します。
Devin の実力をお見せしましょう。
I’m going to ask Devin to Benchmark the performance of Llama and a couple different API providers.
From now on Devin is in the driver’s seat.
Devin に LLaMA(ラマ。Meta 社の LLM)といくつかの API プロバイダーのパフォーマンスをベンチマークしてもらいます。ここからはデヴィンが運転席に座ります(= 作業モードに入ります)。
First Devin makes a step-by-step plan of how to tackle the problem.
After that it builds the whole project using all the same tools that human software engineer would use.
まず Devin は、問題にどう取り組むか、ステップバイステップの計画を立てます。
その後、人間のソフトウェア・エンジニアが使うのと同じツールを使って、プロジェクト全体を構築します。
[実際に、Devin がタスクを一覧にしている様子が紹介される]
Devin has its own command line, its own code editor, and even its own browser.
In this case, Devin decides to use the browser to pull up API documentation, so that it can read up and learn how to plug into each of these apis.
Devin は独自のコマンドライン、独自のコードエディター、そして独自のブラウザまで持っています。
この場合、Devin はブラウザーを使ってAPIドキュメントを引き出すことにしました。
[実際に、Devin が搭載されたブラウザを使って Web 上からドキュメントを漁って情報を理解しようとしている様子が紹介される]
Here Devin runs into an unexpected error.
Devin actually decides to add a debugging print statement.
ここで Devin は予期せぬエラーに遭遇したようです。
そして Devin は、デバッグ用の print 文を追加することにしたみたいですね。
[実際に、ビルドしたらエラーでうまくいかず、エラー対応しようとしている様子が紹介される]
Re-runs the code with the debugging print statement, and then uses the error in the logs to figure out how to fix the bug.
Finally, Devin decides to build and deploy a website with full styling as visualization.
You can see the website here.
デバッグ用の print 文を使ってコードを再実行し、ログのエラーを使ってバグを修正する方法を考えます。最後に、Devin は視覚化として完全なスタイルを持つウェブサイトを構築し、デプロイすることにしました。
そのウェブサイトはここで見ることができます。
[実際に、構築した Web サイトの表示確認の様子を紹介]
All of this is possible today because of the advancements that we’ve made in both reasoning and long-term planning.
It’s hard problem and we’ve only just started, but we're super excited about the progress that we’ve made so far.
推論と長期計画がうまく進歩したおかげで、今日、この様なデモの紹介が可能になりました。始まったばかりで、まだまだ課題もありますが、この進歩に私たちはとても興奮しています。
In the meantime if you'd like to try out Devin on your own real world tasks, send us a request below and we'd be happy to forward it to Devin.
Devinを実世界のタスクで試してみたい方は、以下からリクエストをお送りください。
[Devin 利用申請のための Google フォームを案内]
これまでの AI サービスとの違い
これまでは、人間が操作することが前提で、「作業を楽にする」的な 作業支援型 の側面が強かった印象ですが、今回の Devin は 完全自律型、つまり「自分で作業を開始し、問題があれば自ら修正し、成果物を提出する」という タスクを完遂 できる点が、従来の AI サービスとの大きな違いだと思います。
特徴
他記事も含めて調べた範囲での特徴をまとめてみました。
- 支援型ではなく自律型であり、実際にタスクをこなせる
- タスク完了後に積極的にユーザーにコミュニケーションを取るように設計されている
- リアルタイムで進捗状況を報告し、それに対するユーザーからのフィードバックを受け入れ、必要に応じて仕様変更を受け入れた作業を行うことができる
- ソースコードのバグを自律的に見つけ、修正することができる
- プロンプトの要求によって、ゼロからのアプリ構築、更にはBaaS/SaaSへのデプロイまで実現してしまう
- 独自のトレーニングによって、更にチューニングすることができる(しかも GitHub 上のリンク提供だけで微調整を設定できる)
- GitHub の Issue へのリンクがあれば、必要なセットアップとコンテキストの収集をすべて自律して行える
- Upwork(フリーランスエンジニア向けの仕事を受発注するアメリカのプラットフォーム)上で、実際に受注したタスクを完遂できた!
- 日本で言うと、「ココナラ」「ランサーズ」「クラウドワークス」の様なサイトで受注した仕事を完遂できたということ
実際のパフォーマンスは?
SWE-bench という AI 向けのテストで、現状の最新 AI を遥かに凌駕する歴代最高のベンチマークを記録した様です。
SWE-bench とは
「SWE-bench」 は、Django や scikit-learn のようなオープンソースプロジェクトに見られる、実際の GitHub の Issue を解決するようにエージェントに求める難しいベンチマークテストのことです。
つまり、AI に現実に存在する GitHub の Issue を解決させ、どれくらい解決できるのかを評価するベンチマークです。
Devin のパフォーマンス
(ベンチマーク時の)従来の最先端モデルは、アシストあり(どのファイルを修正すべきかのヒントを与える)の状態でも、結果が 4.80% でした。アシストなし(どのファイルを修正すべきかを教えない)状態だと、結果は最高でも 1.96% にとどまります。
しかし、Devin はここで、アシストなし で結果が 13.86% というパフォーマンスを叩き出した様です。
※ このパーセンテージが人間と比べて高いのか低いのかはわかりません🙏 ただ、他の AI よりも明らかに高いことはわかります。
Cognition 社とは
アメリカのニューヨークとサンフランシスコに拠点を置く、IT ベンチャー企業です。
実際のホームページは、about と blog しかない記事数もほとんどない超簡素なページでした。Devin の話が無かったら不安になるレベルで質素な Web サイトです。
動画では「Cognition AI」と発言しておりますが、記事を探すと「Cognition Labs」という呼称もあり(実際のドメインも cognition-labs.com
)、Cognition の中の部門やグループとして複数あるのでしょうか。
ただ、AI 研究部門としては「推論」に特化した研究をしている様な記事が散見されました。
一応、投資ラウンドでは初期で 2100万ドル(約31億円)の資金調達にも成功しており、「資金も十分にあるよ!」と採用も若干ポジションで募集している様です。
- Machine Learning Researcher
- Software Engineer
- General Application
SNS のフォロワーはたくさんいる
2024年1月に開設した X の SNS アカウントは、今回の話題もあってか、執筆現在ですでに 10万に迫るフォロワーがおります。
一般公開はまだ。ウェイトリスト申請のみ
執筆時現在では、まだ Devin の一般公開はされておりませんでした。現在はウェイトリスト申請のみ可能で、フォームから申請すると使えるかも…という状況です。
ちなみに、"Hire Devin"(Devin を雇いませんか?)みたいなフレーズで早期アクセスを募集していました。
いよいよエンジニアの仕事が奪われるのか
あくまで個人的な所感です。
結論、全エンジニアの仕事が置き換わることは、まだ当然考えにくいです。
そもそも、AI が実装の低レイヤーをやってくれるなら、それより上位のタスクに移行するか、それを管理するタスクが新たに生まれるだけだと思います。
低レベルのままではいられなくなる
ただ、「AI エンジニアに単純実装を任せるのがコスパ良い」となった時には、単純なタスクしかできない、いわゆる 「駆け出しエンジニア」 は、淘汰されるかもとは思いました。
やはり決め手は、「特徴」 にも挙げましたが、GitHub の Issue を自ら解決しちゃうのと、"実際に受注したタスクを完遂しちゃった" というのが大きいです。
特に日本だと、人間のエンジニアですら「GitHub の Issue を解決どころか見れないエンジニア」ってザラに居るのではないでしょうか?
こうなると、どうしても一定レベルのエンジニアは生き延びづらくなると思います。やはり生身の人間は AI に比べて報酬が高いので💰
一方、低いコストで単純な実装が AI でもできるなら、今までエンジニアを抱える理由が強くなかった事業者が AI を活用する未来も生まれるので、それら AI の扱いに関するポジションで人を探すシーンも生まれてくると思います。
結局、エンジニアスキルは必要
ChatGPT の登場時も同感でしたが、今回の様な AI の登場・進化によって、低レイヤーな仕事は徐々に置き換わるかもですが、新しく生まれるタスクやポジション等もあるので、「仕事が奪われる」のではなく「仕事のレベルがシフトする(上がる)」 というのが変わらない理解です。
かつての「切符を切る駅員さん」がいなくなり、自動改札に置き換わり、駅員さんはもっと違う仕事をする様になったのと同じだと思います。
重要なのは、その時に対応・理解ができる知識・経験があるかだと思います。そういう意味で、エンジニアのスキルは結局必要になってくるので、「AI に置き換わるから覚えなくていい」なんてことはないと再認識しました。
むしろ、今まで以上にアンテナを張って知見は広げておくのが良いと思います。「〇〇言語・〇〇フレームワークだけ触れてれば OK」なんてスタンスだとリスクが高まります。
参考
公式の Devin 紹介記事およびデモ動画
今回の内容を動画で詳細に解説したものもあります。興味がある方はこちらご覧ください。
そして、時は動き出す!
Devin に驚いていたら、もう次の弾丸が込められていた様です。