初めに
近年、オフライン音声認識モジュールが安価で入手できるようになりました。
ただ、購入してみて中国語のコマンドしか入っていなくて がっかりしたり ウエイクワードやコマンドワードをどのように変更すればよいか思案することもあると思います。
そこで、今まで試してみた音声認識モジュールについて比較してみます。
HLK-V20
英語のコマンドが入っているものを購入しました。
入力距離は 0~1m と 1~5m が選択できる。
ウエイクワード無しで動作するコマンドもあり。
ウエイクワードやコマンドワードを変更し書込む方法は情報不足で確認出来ませんでした。 ☜ 最近、見つけたので最後のメーカーサイト他に追加しました。
LD3320
最初に手にした自分でプログラム可能なモジュールです。
LD3320 の内部レジスターを読み書きすることで音声認識が可能となります。
よってマイコンとペアで動作します。
mp3の再生機能も持っていてステレオ再生も可能です。
ただ、音声認識ワードは中国語(ピンイン)で入力するので基本は中国語となります。
日本語や英語もピンイン表とにらっめっこして似た発音を探すことになりますが、どうしても限られた単語になってしまいます。
ASRPRO
ブロックでプログラム作成でき、モードを切り替えればVSCODEでのプログラムも可能です。
いろんなサンプルプログラムも用意されており、中国語ではありますが学習ビデオもあります。
ただ、実際にモデルを作成するには実名認証が必要になり中国本土の携帯番号が必要になります。
ユーザー名とパスワード設定でログインはできるので、そこから開発者フォーラムに入ってホワイトリストへの追加をお願いすればモデル作成も可能となります。
長距離入力、音声再生中の中断、割込み等も対応されています。
まだ、日本語には対応されていません。
書込み回路とマイクが搭載された開発基板と、搭載されないASRPRO-CORE基板があり それぞれ FLASH 2Mと4M の物があります。
CI-03T
M5Stack Unit ASR に組み込まれているモジュールです。
ノーコードでプログラムし、書込むことができます。
具体的にはウエイクワード、コマンドワードを決め 後は、項目ごとに設定入力していけば自動的にプログラムが作成されます。
色んな場面を想定したサンプルが用意されているので比較的簡単にプログラムし動作確認することができます。
日本語サンプルがあるのもありがたいです。 ただ、日本語TTSは今一です。
wavやmp3ファイルへの変更もできるので そちらで検討するのが良いかもしれません。
ここまでは、ユーザー名とパスワードでログインできますが SDKをダウンロードして本格的にとなると実名認証が必要となるので中国の携帯番号が必要となります。
ブロックでプログラム作成も可能なようですが そのダウンロードにも実名認証を求められます。
CI-03T は FLASH 2M ですが 4M となると名前が変わります。
2個目のマイク端子も引出されているので2マイクでの動作確認もできます。
SU-03T
CI-03T と同様な方法でプログラム作成、書き込みができるようです。
その他
alliexpressで探してみると その他にもいくつか見つけることができます。
SW入力でコマンドワードを登録できるものもあります。
最後に
特定の人の数語を認識するだけでも高価で大きな基板(装置)が必要だったことを思うと、切手よりも小さな基板で音声認識が可能になったのは驚きです。
メーカーサイト他
LD3320
http://www.icroute.com/web_cn/ICRoute_index.html
https://github.com/libdriver/ld3320/
HLK-V20
https://www.hlktech.com/Goods-98.html
https://www.youtube.com/watch?v=mWg7piM9wAE&t=17s
HLK-V20 Manual
http://www.robotsforfun.com/webpages/HLK-V20%20User%20Manual%20EH.pdf
https://h.hlktech.com/mobile/download/fdetail/93
https://aitendo3.sakura.ne.jp/aitendo_data/product_img/audio/voice/HLK/hlk-v20.pdf
音声認識モジュールHLK-V20プログラミング
https://blog.csdn.net/Fhgh964/article/details/134765123
HLK-V20/HLK-V20S 规格书
https://h.hlktech.com/download/HLK-V20_V20S/1/HLK-V20%E5%92%8CHLK-V20S%E8%A7%84%E6%A0%BC%E4%B9%A6%20V2.1.pdf
ASRPRO
https://www.cnblogs.com/jeikerxiao/p/18276982
http://www.gdwrobot.com/courses/outline/commonTechDoc/offlineSpeechRecognizeASRPRO01.html
CI-03T
https://www.smartpi.cn/#/
https://help.aimachip.com/docs/offline_ci03t
SU-03T
https://docs.aimachip.com/zh-cn/latest/file/offlineVoice/SU03T.html
https://blog.csdn.net/yychuyu/article/details/135888115