キャラクターと擬似会話してみた！

Last updated at 2026-01-22Posted at 2026-01-21

はじめに

マイク入力による音声認識や、Discord上のメッセージに反応して、用意した音声データを再生するキャラクターBotを作ってみました。

詳細なセットアップ方法や実装については、以下GitHubリポジトリをご確認ください。

この記事では、本システムの主な機能や使い方の概要を紹介します。

本システムでは、以下のことは行っていません。

あくまで「用意した音声データの再生・制御」にフォーカスしています。

Raspberry Pi 5は必須ではありません。
Windows PCでも同様に動作します。

セットアップ手順は上記GitHubのREADMEにまとめているので、そちらに沿って進めてください。
ここではいくつか補足を記載します。

本記事に掲載している、実際に動かしている様子の動画では、「つくよみちゃん(COEIROINK)」の音声データを使用しています。

実際に試す場合は、任意の音声データを用意してください。

音声データの利用にあたっては、著作権・利用規約・二次利用可否などに十分注意してください。

以下記事の「6-2」までを参考に、Raspberry Pi 5のセットアップを行います。

開発や運用の都合上、IPアドレスを固定しておくと後々楽になります。
IPアドレス固定の方法については、以下の記事が参考になります。

また、以前Raspberry Pi 5で仮想環境へのPyTorchインストールがうまくいかなかったことがありました。
以下記事にその際の内容をまとめているので、Raspberry Pi 5を使用する場合は参考になるかもしれません。

Discord Botの作成方法については、以下の記事が分かりやすいです。

BotのトークンやチャンネルIDは、.envの設定で使用します。

本システムでできることを簡単にまとめます。

実際に動かしている様子(音声認識による操作)

※本動画では、Windows PC上で実行しています。

実際に動かしている様子(Discordメッセージによる操作)

※本動画では、Raspberry Pi 5上で実行しています。

音声データを増やすことで、キャラクターの反応のバリエーションがより豊かになります。
今回は実装しませんでしたが、人感センサーと組み合わせて「近づいたら話しかけてくる」ような仕組みにしても面白そうです。

課題としては、レスポンス速度や音声認識精度があります。
今回は無料で利用できる構成を選びましたが、OpenAI APIなどを利用することで、精度や体験面を改善できる可能性がありそうです。

興味がある方は、ぜひいろいろ試してみてください。