はじめに
オフラインで音声認識/音声合成が可能な「M5Stack Unit ASR」が登場したので使ってみましたが、やはり、日本語で使いたいということで、試してみました。
使い方
使い方は @GOROman さんが書いてくださっているので、そちらをご覧ください。@GOROman さん、ありがとうございます。
M5Stack Unit ASRで始めるオフライン音声認識
日本語化
日本語テンプレートを使って、Smart Pi Platformでファームウェアを作成します。
テンプレート: Unit_ASR_Firmware_Config_Template_JP.json
作成されたFW: jx_firm.tar.gz
読み上げ音声のVOICE VOX春日部つむぎ版: jx_firm_20250305.tar.gz
コマンド一覧
コマンド番号 | ワード | 応答 | 備考 |
---|---|---|---|
0xFF | えむふぁいぶ | こんにちは | ウェイクワードとして動作 |
0x01 | うえ | おーけー | |
0x02 | した | おーけー | |
0x03 | ひだり | おーけー | |
0x04 | ひだりにまわす | おーけー | |
0x05 | みぎ | おーけー | |
0x06 | みぎにまわす | おーけー | |
0x07 | すすむ | おーけー | |
0x08 | まえ | おーけー | |
0x09 | うしろ | おーけー | |
0x0A | もどる | おーけー | |
0x10 | ひらく | おーけー | |
0x11 | とじる | おーけー | |
0x12 | かいし | おーけー | |
0x13 | ていし | おーけー | |
0x14 | おん | おーけー | |
0x15 | おふ | おーけー | |
0x16 | さいせい | おーけー | |
0x17 | いちじていし | おーけー | |
0x18 | あかりをつける | おーけー | |
0x19 | あかりをけす | おーけー | |
0x1A | まえに | おーけー | |
0x1B | つぎに | おーけー | |
0x20 | ぜろ | おーけー | |
0x21 | いち | おーけー | |
0x22 | に | おーけー | |
0x23 | さん | おーけー | |
0x24 | よん | おーけー | |
0x25 | ごー | おーけー | 認識しない? |
0x26 | ろく | おーけー | |
0x27 | なな | おーけー | |
0x28 | はち | おーけー | |
0x29 | きゅう | おーけー | |
0x30 | オッケー | おーけー | |
0x31 | えーえすあーる | こんにちは | ウェイクワードとして動作 |
0x32 | こんにちは | こんにちは | ウェイクワードとして動作 |
0x40 | おんりょうあっぷ | おーけー | |
0x41 | おんりょうだうん | おーけー | |
0x42 | おんりょうおさいだい | おーけー | |
0x43 | おんりょうちゅう | おーけー | |
0x44 | おんりょうさいしょう | おーけー | |
0x45 | ファームウェアのバージョン | バージョン いち | |
0xFE | - | はい、えーえすあーるです | |
0x50 | - | ぜろ | |
0x51 | - | イチ | 正しく読み上げできない |
0x52 | - | ニ | 正しく読み上げできない |
0x53 | - | さん | |
0x54 | - | ヨン | 正しく読み上げできない |
0x55 | - | ご | |
0x56 | - | ロク | 正しく読み上げできない |
0x57 | - | なな | |
0x58 | - | ハチ | 正しく読み上げできない |
0x59 | - | きゅう | |
0x5A | - | じゅう |
最後に
英語の初期テンプレートの数十個を日本語化したところ、想像以上に正確に識別できるようです。一方、読み上げは若干違和感がありました。
すこし使ってみたところで気づいた点としては、
- 認識しづらい言葉がある(数字の五「ご」、「ごー」にしてみたが。。。)
- 発音のアクセントは少し違和感がある(日本語の話者は女性の「櫻子」さんのみだが。。。)
- 正しく読み上げできない文字がある(「バージョン いち」は読み上げできるが、「いち」はうまくいかない、など)