結論:動く。えらい。
人類の夢、AGI
CodeAGIについて話す前にまずAGIについて語ります。
AGIとはもちろん素早さ、敏捷性(agility)……ではなく汎用人工知能のことです。
例えば、今だと「ChatGPT、Excelのデータをこれこれこういう順番からこれこれこういう順番に並び替えるためにPythonコードを書いてほしいの」とお願いすると、ChatGPT様は「こちら、コードになります」と書いてくださるわけですよ。
これだけでも仕事は効率化され、「お疲れさまでした!」と晴れやかな顔で帰ることができるはずなのですが、AGIはもう一歩賢い。
AGIだと、自分で思考してくれる、つまり「Excelのデータをこれこれこういう順番からこれこれこういう順番に並び替えて」「はい!(ええっと、つまり、Pythonがいいかな?Pythonでコードを作成して、このファイルとこのファイルを……こう処理してっと……)できました」と、全部やってくれるんだと思います。
まるで、人間の秘書のようですね。
Auto-GPTやAgentGPTなんかは、GPTでどうするかを問い続け、うまいこと関数を使ったりして、(ある程度の単純作業を複数組み合わせて、)勝手にタスクをこなしてくれる域くらいにはいっているようです。例えば論文を取得して、翻訳にかけて……要約して……などなどです。
AGIがあったら何がうれしいか、それは「私はが寝てるからお前が仕事に行ってきて」と言ってAIが勝手に働いてくれる夢の未来が近いんじゃないかということです。
CodeAGI
CodeAGIは、コードの作成において自律的に考えて自律的にふるまうため、そこがAGIというわけですね。
CodeAGIでできることは、「ドキュメントをしっかり書いて渡したら、後は勝手に生成AIがプログラムを作ってくれる」というものですね。
CodeAGIを使ってみよう(前準備)
CodeAGIをインストールしてみます。
インストーラー式です。
インストーラーをダウンロードして、インストールしてみましょう。
利用規約を読んで、OKして……。
おっと、アカウント登録が必要なのか。
メールアドレスとパスワードのほか、会社名、部署名、名前などが必須です。
個人というよりも企業向けのサービスなんですね。
認証キーが送られてくるので、認証。
生成AIを選択しましょうか。
なじみのあるOpenAIを使用することにするか。
すると、OpenAIのキーを求められる。βのCodeAGI、このCodeAGI自体は無料ですが、外部APIの分はこっちで負担しないとならないわけです。
無料キャンペーンなんかもやっているようだが、応募者抽選キャンペーンのようだし、これは自分で用意しておくことにしましょうか。
つまるところ、OpenAIのAPIキーが必要になります。
(ChatGPTのアカウントとは別で、クレジットカードの登録が必要になります。
とはいえ、最初はおためしでいくらかもらえたと思います。)
(余談)
ローカルのLLMでGPUなんかの力を借りて、自分で計算して、出力を得るタイプのソフトではない場合(つまり、OpenAIなり、Azureなりに頼る場合)、使うたびに、APIの料金というものが発生します。
(月額で固定料金の、Webの、ChatGPTとは異なる)
GPTを使ったサービスの、「生成は何回まで無料」「月額サブスクリプション」という料金形態は、こういうところからきている。定額の場合、あまり使われすぎると赤字になるので(しかも、GPT-4oとか、いいやつだと結構高いので)こちらが、結構たいへんなのです。
そうなってくると、こうやってキーを自前で用意してもらうか、月額サブスクリプションかってことが多いようです。
タダでGPT-4o試させてくれるのは破格です。
自分のキーだから、GPT-4は高いからGPT3.5で試してみましょうかっと。
ちなみにコストは、OpenAIが決めていて、ちょいちょい変わるんですけれども(今のところ、古いのが安くなったり、逆に最新のやつのほうが安くなったりで、高くなるってことはないんだけど)、どれが安いのかはチェックしておくとよさそうですね。
ふむふむ、gpt-3.5-turbo-0125が安いかな~っ。
サンプルを動かしてみる
とはいえどういう風に書いたらいいんだろう、ということでサンプル設計書を見てみよう。
あっ、すごい、かなり、かなり詳細が決まってるタイプな!?
(油断していた……)。
1からだとしんどそうなので、「会議室予約システム」をベースにいじってみましょう。
Excel形式のファイルが二つあります。
テーブル定義書
テーブルは、かなりしっかり詳細に記されています。
画面設計書
画面レイアウトシート……とはいっても、GPT-3.5には、画像を読み込む機能はないのでGPT-4oか人間用ですね。
CodeAGIの説明には、
画像データを解析することで、画面プログラムのコード生成を実現
とあるので、GPT-4oなんかだったら解釈してくれるのでしょう。
こちらは、画面項目一覧(会議室予約登録画面)。
アクション定義書(会議室予約登録画面)シートには、手順がきちんとインデントをつけて定義されていますね。
とりあえずやってみる
GPTというか、LLMの良いところはデータをポンポン放り込んでも「あれがない、これがない、エラー」とならない点です。ファイル名こそ指定があるようですが、結構、想定された形ではないものも読み込んでくれるはずです。
クイックリファレンスを眺めつつ、とりあえず動かしてみましょう。
プロジェクトの設定で、「新規作成」。
プロジェクト名、プロジェクト説明。コード出力先フォルダ、OS、DB……。
ブラウザや、言語を設定します。
フレームワークを選ぶと、勝手にフォルダ構成を指定してくれました。
とりあえず、サンプルのテーブル定義書と画面設計書を設定し、生成を試みてみました。
おお……。
おお……!?
GPT3.5だぞ~!?よくできるなあ?!
吐き出されたコードを眺めてみます。
テーブル定義など、コンポーネントが用意されていますね。
気になるお値段は、0.15ドル=22円くらいでした。
そうはいっても、ほんとに好きなExcel突っ込んでもいいのか?
サンプルのExcelがかなりしっかりとした記述をもったExcelで不安になってきました。
ほんとにこれって好きなシステムを作れるやつなんでしょうか?
項が1個ずれたり、なくなってたらエラーをはいて落ちてしまったりしないのか?
厳格なExcelのフォーマットに従わなくても大丈夫なんでしょうか。
弊社のごちゃごちゃしたあんな設計書やこんな設計書、突っ込んでも大丈夫なんでしょうか。
ダイジョブであってほしい。
というわけで、ちょっと気になったので、雑なExcelを用意してみました。
とりあえず、ラーメンタイマーの仕様書です(このシート1枚だけです。アクション定義書を上書きしました)。
ラーメンタイマー定義書
プロジェクト概要
ラーメンタイマーは、ユーザーがラーメンを作る際に使用する簡単なタイマーアプリケーションです。このアプリケーションは、特定の時間が経過した際にアラームを鳴らし、ユーザーに通知します。
目的
ユーザーが設定した時間(例:3分、4分、5分)に基づいて、正確にタイマーをカウントダウンする。
タイマー終了時にアラームを鳴らし、視覚的に通知する。
シンプルで直感的なユーザーインターフェースを提供する。
略……。
これで出してみると……。
おお、ちゃんとなんか、パーツがタイマーっぽいぞ。
中も、ラーメンタイマーっぽい。
というわけで、結構ざっくりしたExcelをポイしても動いてくれそうです。
これは大変にありがたい点ですね。
所感
まあ中でAPIを複数回たたいてやってもらってるだけだろうしな~と思ったら思った以上にしっかりとした構成の、しっかりしたパーツが生成されて驚きました。
割とどんなExcelでもよさそう
テキトーなExcelファイルを入れてみたわけですが、それでもきちんと動いてくれました。
設定が必須なところはそう多くはなく、あっても選ぶだけなので、ぱちぱちやってGOと生成すると、ほんとにすぐに動きます。
エラーを吐いて落ちたり、あれがないとだめとかこれがないとだめとか言いません。かなり柔軟性があると思いました。
LLMの良いところ、きちんとした形式のファイルに変換して渡さなくったってぐいぐい動く。その良さを全く殺してなくていいですね。
なんか動く。すぐ動く。えらい。
APIの選択肢が広い
ほか、うれしいのはOpenAIのAPIのみならずAzureなどにも対応してくれているところです。これはすごい。
OpenAIのAPIで組んでいたシステムを「やっぱりAzureにして」って言われて移植したことがありました。その作業自体は重くはなかったんですが、いろいろ変えなくちゃいけないうえに最新のAPIリファレンスはどれだという作業がめんどくさくはあったので、ぱっぱと使うAPIを切り替えられるのはかなりうれしいです。
使用言語やDBのカバー範囲が(異様に)広い
生成AIの部分のみならずDBの選択肢が、知ってるやつは(まだ未対応なのか、グレーアウトされたものを含めて)全部あって「網羅してやる」という意気込みがすごかったです。これもLLMの強みかもしれません(中で、DB名はこれと指定しているのでしょうから……)。
とはいえ、DBごとに癖があって気を付けないとならないこともあるはずで、長い出力を得るなら一貫した命令を出さないといけないわけですが、それにも対応していくぞ、という意気込みを感じます。ありがたいですね。
すぐ動く成果物が得られるわけではなさそう(現状)
実行環境とセットではないので(たとえばC#のexeがあって、クリックしたら起動するような成果物ができるものではない)知識がない人が0から書類だけきっちり書ききって、あとは手放しでコーディングというのはまだですね。ちょっと難しいかなあ。
ただ、どういうパーツが必要でどう組んでいけばいいかみたいなところのガイドラインとしてあったらうれしくはあるかと思います。
DBの定義なんかは書類がしっかりしてる分、出てくるモデルもしっかりしてて、かなり流用できそうです。
初心者くらいの知識でこれを利用して骨組みとして、楽に、きれいに、美しいコードが書けるかもしれない。
DBがあるWebシステム前提かもしれない(現状)
DBが前提のシステムを想定しているような気がします。Web系の、SpringBootとかの、あのへんの分割なんだろうか。かなり、Webシステムの開発を意識しているやつのようですね。
わりと、DBや、Web操作の部分はいらなくて、手元のCSVに読み書き~みたいなソフトも作ったりするんですが、それはまだ対応してないんじゃないかな。DBが欲しいときは強そうである。