032 AI屋さんの マルチモーダルLLMにトークン全文入力 英会話 streamlit+Gemini
音声入力、音声出力 の大規模言語モデルです。
streamlitの 標準機能にデフォルトで音声入力が実装されています。
インターネットのブラウザ越しのマイクも利用できます。
スマホ一台あれば クラウドのwebアプリで 英会話教室の開校です。
準備は、pip install streamlit のみでokです。
音声ファイルを Gemini へ そのまま送信します。
マルチモーダルLLMは、Geminiを使用します。
音声合成、音声出力は、gtts です。
gttsは、Google製の無料の音声合成ライブラリです。
音声合成の、言語設定を固定するので
英会話向けには、英語固定です。
完成した、英会話アプリ
音声ファイルを渡すだけで、勝手にLLMが 文字起こしして
翻訳して、JSON形式で 回答します。
音声は、日本語以外もそのまま認識されます。
翻訳した内容で、Geminiと会話をしてくれます。
プロンプトに設定資料を全文入力して
キャラ設定した、Geminiさんと 楽しくお話しできます。
ソースコードも下記参照、
目次
今回も無事に、マルチモーダルLLM さんと英会話できました。
032 AI屋さんの マルチモーダルLLMにトークン全文入力 英会話 streamlit+Gemini
完成です。おめでとうございます。
ー続くー