はじめに
今日(2025/9/19)、中島聡さんが YouTube で紹介していた MulmoChat を Windows11 環境で実際に試してみました。
MulmoChat は、NLUI(自然言語UI)を活用したマルチモーダルなボイスチャットの OSS で、音声で指示を出すと画像生成や画像を含めたスライド資料を作ってくれる新しいアプリ・サービスです。
情報発信のあり方がマルチモーダルに変わります。
この記事では、私が Windows 11 環境でセットアップして動かすまでの流れ と、実際に動かしてみた感想をまとめます。
セットアップ手順(Windows 11)
1. Node.js と Yarn の準備
- Node.js(LTS版、20系推奨)をインストール
- Yarn を有効化(自分は
npm install -g yarn
で導入しました)
2. リポジトリを取得
git clone https://github.com/receptron/MulmoChat.git
cd MulmoChat
yarn install
3. .env
を作成
プロジェクト直下に .env
ファイルを作成し、OpenAI と Gemini の API Key を設定します。
OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxx
GEMINI_API_KEY=AIzaxxxxxxxxxxxxxx
4. 開発サーバーを起動
yarn dev
→ http://localhost:5173/ にアクセス
実際に動かしてみた
1. ボイスチャット
- ブラウザで「Start Voice Chat」をクリック → マイクに話しかける
- AI が音声で応答してくれるのを確認!
- 音声UIで直感的に会話できる体験はかなり面白かったです。
2. 画像生成(失敗)
- 「〇〇の絵を描いて」と指示すると、「image generation failed」。
- ログを確認すると以下のエラー:
Quota exceeded for metric: generativelanguage.googleapis.com/generate_content_free_tier_requests, limit: 0
- 原因は Gemini API の無料枠では画像生成のクォータが 0 になっているため。
- → 解決策は Gemini の有料課金を有効化すること。
3.資料生成
音声で「〇〇について説明して」と伝えると、文章ベースのプレゼンテーションを Canvas に生成してくれます。
ここでは「ラブブの流行と歴史」について自動でまとめが出力されました。
感想
- かんたんセットアップ!
-
git clone → yarn install → .env 設定 → yarn dev
のシンプルさ。 - 所要時間10分もあればできちゃいます!
-
- 音声で質問して、プレゼン資料を作れるのも凄い!
- 画像生成は、Google 2.5 Flash(nanobanana)だからか精度が高そう!
- 画像生成は残念ながら無料枠では動かず。ただ、これは課金で解決可能!
- 情報発信のあり方が変わりますね。クリエイターもビジネスマンも全員触った方がいいです!
OSSなので誰でも触れるのがありがたいですし、自然言語UIの可能性を考える良いきっかけになりました。
興味のない方こそぜひ試してみてください!
参考リンク
- GitHub: receptron/MulmoChat
- YouTube: 【世界初】“話すだけ”でイラスト&資料を生成するAIツール「MulmoChat」を作ってみた