記事の概要
OpenManusをGeminiで動かして、ブラウザを立てるところまで試してみたので、手順を残す。(試す程度なら余裕で無料!)
環境
OS:Windows
python:3.12.8(https://www.python.org/downloads/release/python-3128/)
構築手順
コマンドプロンプトなどで、以下のコマンドを実行する。
python -m venv open_manus_env
open_manus_env\Scripts\activate
cd open_manus_env
git clone https://github.com/mannaandpoem/OpenManus.git
cd OpenManus
pip install -r requirements.txt
python -m playwright install
copy config\config.example.toml config\config.toml
「config.toml」はメモ帳などで以下のように修正する。
config.toml
[llm]
model = "gemini-2.0-flash"
base_url = "https://generativelanguage.googleapis.com/v1beta"
api_key = "★TODO:GeminiのAPIキー"
max_tokens = 4096
temperature = 0.0
# Optional configuration for specific LLM models
[llm.vision]
model = "gemini-2.0-flash"
base_url = "https://generativelanguage.googleapis.com/v1beta"
api_key = "★TODO:GeminiのAPIキー"
GeminiのAPIキーは以下の手順などを参考に取得してください。
実行方法
コマンドプロンプトなどで以下のコマンドを実行し、OpenManusを起動する。
python main.py
以下のようなログが出るので、「ブラウザでChatGPTを起動して」などと入力する。
(open_manus_env) C:\XXXXXX\open_manus_env\OpenManus>python main.py
INFO [browser_use] BrowserUse logging setup complete with level info
INFO [root] Anonymized telemetry enabled. See https://docs.browser-use.com/development/telemetry for more information.
Enter your prompt (or 'exit'/'quit' to quit):
以下のようなログが出力され、ブラウザにChatGPTが表示される。
(open_manus_env) C:\XXXXXX\open_manus_env\OpenManus>python main.py
INFO [browser_use] BrowserUse logging setup complete with level info
INFO [root] Anonymized telemetry enabled. See https://docs.browser-use.com/development/telemetry for more information.
Enter your prompt (or 'exit'/'quit' to quit): ブラウザでChatGPTを起動して
2025-03-10 00:04:37.446 | WARNING | __main__:main:19 - Processing your request...
2025-03-10 00:04:37.447 | INFO | app.agent.base:run:137 - Executing step 1/30
2025-03-10 00:04:38.643 | INFO | app.agent.toolcall:think:53 - ✨ Manus's thoughts: ChatGPTをブラウザで起動するには 、BrowserUseToolを使ってChatGPTのウェブサイトを開きます。
2025-03-10 00:04:38.644 | INFO | app.agent.toolcall:think:54 - 🛠️ Manus selected 1 tools to use
2025-03-10 00:04:38.647 | INFO | app.agent.toolcall:think:58 - 🧰 Tools being prepared: ['browser_use']
2025-03-10 00:04:38.648 | INFO | app.agent.toolcall:execute_tool:140 - 🔧 Activating tool: 'browser_use'...
2025-03-10 00:04:40.857 | INFO | app.agent.toolcall:act:113 - 🎯 Tool 'browser_use' completed its mission! Result: Observed output of cmd `browser_use` executed:
Navigated to https://chat.openai.com/
2025-03-10 00:04:40.858 | INFO | app.agent.base:run:137 - Executing step 2/30
2025-03-10 00:04:41.565 | INFO | app.agent.toolcall:think:53 - ✨ Manus's thoughts: ChatGPTのウェブサイトを開きまし た。他に何かお手伝いできることはありますか?例えば、ChatGPTに何か質問したり、ChatGPTの画面を操作したりできます。
感想
自然言語で想定しているブラウザが表示されている。。。
何気ないけど、すごいのでは?