はじめに
お疲れ様です!
つい先々月ぐらいに、ついにAIがPCを操作できるでよ〜という話を聞きました。
んじゃあ僕はもう実家に帰って農業をするしかないなと思ったのですが・・・😭
幸いなことにまだ解雇されていないので、今年もこうやってアドベントカレンダーに投稿することができます。これは大変ありがたいことです🙏
ということで、仕事は全部代わりにAIにやってもらいたいですよね・・・!😊
上司にバレないうちに、早速やっていきましょう!
公式サンプルを使ってみる!
これを入れます!まだベータ版だそうですが、その実力はいかに🧐
ここで前提として、Claude 3.5 Sonnet V2で諸々処理しますので、
- Anthropic公式でユーザ課金し、APIキーを手にいれる
- Bedrockでモデルアクセスを要求したAWSのアカウントのアクセスキーを発行する
- Vertexでプロジェクト作成したGoogleCloudのクレデンシャル情報を発行する
のいずれかが必要です(2024/12現在)。各々、手っ取り早い方法で準備しましょう。
準備
今回は2の、Bedrockを使いました。今のところオレゴンリージョンだけ対応なようでしたので、オレゴンでClaude 3.5 Sonnet V2を有効化し、IAMアクセスキーを発行、AWS CLIを入れたPCにプロファイルを設定します。この辺りは他記事ご参照ください。
起動用にdockerをインストールしたら、先ほどのgithubからプロジェクトをクローンして、下記コマンドでコンテナを起動します。
export AWS_PROFILE=your-profile-name
docker run \
-e API_PROVIDER=bedrock \
-e AWS_PROFILE=$AWS_PROFILE \
-e AWS_REGION=us-west-2 \
-v $HOME/.aws:/home/computeruse/.aws \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
すると、
Xvfb started successfully on display :1
Xvfb PID: 9
starting tint2 on display :1 ...
starting mutter
starting vnc
PORT=5900
starting noVNC
noVNC started successfully
✨ Computer Use Demo is ready!
➡️ Open http://localhost:8080 in your browser to begin
何かが始まりました!🙌
ブラウザを立ち上げて、localhost:8080にアクセスします。
やったぁ。これでもう仕事をしなくていいぞ!
左側が指示を出すチャット、右側がDockerで起動したUbuntuのようです。
クッキーを焼かせる
利用にあたっては公式のガイドラインをよく読み、危険な操作、危険なURLへのアクセスなどを行わないよう、十分な注意を払うとともに、実行は自己責任でお願いいたします🙏
早速ですが、仕事をしてもらいましょう・・・ふふふ・・・😎
ということで、往年の伝説のゲーム「クッキークリッカー」でクッキーを焼いてもらいます。
念の為ですが、クッキークリッカーは、こちらです。
まずはURLを指定して、クッキークリッカーを開いてもらいます。
下記のような指示を出しました。
すると、自動で以下のようなことをやってくれました。
- 画像認識してアドレスバーのポインタ位置を取得し、クリックを実行
- アドレスバーにカーソルが入った状態でURLテキストを入力
- エンターを入力
画面にクッキーが表示され、何となくクリスマス感でてきましたね!1🎄🥰
ゲーム画面まで到達したことを画像認識で確認し、以下のようなことを言ってきました。
ゲームが正常にロードされ、プレイ可能な状態になりました。画面中央に大きなクッキーが表示され、現在のクッキー数が0であることが表示されています。これでゲームを開始できる状態です。
次の指示をお待ちしています。クッキーをクリックしたり、アップグレードを購入したりするなど、具体的にどのようなアクションを取るべきかお知らせください。
それにしてもClaudeさん、明らかにクッキークリッカーを知っている反応ですね。
(それはそうなんですが)
まずは、15回クリックしてもらいます。「連続で15回クッキーをクリックして」・・・
毎回画像認識を挟みながら、15回クリックをしてくれました。
このまま無限にクリックさせてもいいのですが、Bedrockの課金額をチェックしている上司に間違いなくバレるので、右下の自動オプションを購入してもらいます。
カーソルが購入されました。これにより、自動的に10秒ごとにクッキーが1枚生産されるようになりました。画面では以下の変化が確認できます:
- クッキー生産速度(CpS)が0.1になりました
- 左側のゲーム画面に小さなカーソルアイコンが表示され、自動的にクッキーをクリックするようになっています
- 右側の施設欄にカーソルが1つ所有していることが表示されています
カーソルは正常に動作しており、10秒ごとに自動的にクッキーを生産します。次の指示をお待ちしています。
無事、カーソルを購入してくれました!
しかも回答を見るに、結果画像の認識とその理解が的確です。CpSが0.1になったこと、カーソルアイコンが増えていること、施設欄の表示、カーソルの効果など、いろいろと画面から分かる点に言及しています・・・!すごい😳
このまま同様に続けていけば、効率良くクッキーを焼いてくれそうな気がしますね!
ちなみにあくまで参考ですが、今回の一連の検証で30~40回くらいの画像認識とトークンの送受があり、課金額は0.5ドルくらいでした。
おわりに
以上、クッキーを自動で焼く方法でした!
ではなくて、Claude 3.5 Sonnet V2のComputer use機能の紹介でした。
ぱっと思いつく範囲ですが、スクショをバシバシ撮ってくれて状況把握も的確なので、画面操作を要求するテスト工程とかはすごく相性良さそうです・・・!(載せてないですが、画面ロード中であることなど判定して自動で待ってくれたりもしました。アドリブが効きそうな点が良いですね。)
色々夢が広がりますね。例えその行きつく先が我々の滅びの道であっても・・・🤗
以上、快適なClaudeライフをお過ごしください!👍
-
この記事はQiita Advent Calendar 2024に参加しています。 ↩