近年、生成AIやNFPが注目を集める中、筆者は音声認識技術の可能性に注目しています。かつては精度が低く、ネタ扱いされていた音声認識も、近年は驚くほど進化しています。
しかし、特に日本では音声認識や音声入力がまだ十分に普及しているとは言えません。
こちらの記事を見ると海外と比較して日本は 音声アシスタントを使っている割合が少ないことが分かります。
日本で音声入力が普及しない理由
日本における音声入力普及率が低い理由として、筆者は以下の2点を挙げます。
国民性
日本は人口密度が高く、公共の場ではマナーを重んじる傾向があります。
例えば、混んでる電車やカフェなどで音声入力を使えばどうでしょうか?なんかブツブツ独り言を言ってる変な人という印象になりますよね。
普段結構音声認識を割と使う私でも、そういうところでは使う勇気がありません。
日本語の難しさ
日本語は、同じ読み方でも意味が異なる言葉が多く、音声認識エンジンにとって処理が難しい言語と言えます。
とはいえ、最近は音声認識の日本語対応化も進んできていて、手入力より効率がいい場合もあります。
それこそ、最近流行りのテキスト生成AIと組み合わせることで、微妙な間違いも修正してくれます。
各OS標準搭載の音声入力機能
iOS
音声認識の中でも、iPhone などに搭載されているのは特に高性能です。「改行」といえば改行してくれたり、句読点の付与も自動で行ってくれます。
chat GPTなどのテキスト生成AIと組み合わせれば、文章作成において手入力はほぼいらないレベルです。
Mac
MacのPCを持っていないので何とも言えませんが、おそらくiOS同様高性能だと予想できます。
Android
私は Android ユーザーなので こちらは よく使っています。
↑これは Android 標準搭載の音声認識で入力した文章です。
分節間に空白が発生しやすいという欠点があります。
Window
Windows 11には「ディクテーション」という音声入力機能が搭載されています。
Windows 10でも同様の機能が搭載されていますが、日本語入力に対応していないため「Windows 音声認識」という代替機能を利用します。
実際に精度比較してみた
私はiPhone、Android、Windows10のPC、Windows11のPCを持っているので、これらの端末を並べて、同時に音声入力して、音声認識の精度や特性の違いを確かめてみました。
入力する文言は直近のニュースから適当に選びました。
大谷翔平選手が11日のパドレス戦で腰の張りを訴えて試合途中で交代し、12日の試合は大事をとって欠場する見込みです。
ドジャースは相手の本拠地サンディエゴでパドレスとの3連戦の第2戦に臨み、大谷選手は2番・指名打者で先発出場しました。
1回の第1打席はワンアウトランナーなしで迎え、相手の先発ピッチャーでバッターの手もとで揺れながら変化するナックルボールが得意のウォルドロン投手と対戦しました。
大谷選手はナックルボールを見定めながら高めの速球を打って、ここはレフトフライとなりました。
第2打席は3回、ツーアウト二塁のチャンスでアウトコースに落ちるナックルボールを捉え、大きな当たりを見せましたが、2打席連続のレフトフライでした。
出典: https://www3.nhk.or.jp/news/html/20240512/k10014447001000.html
結果
iPhone
大谷翔平選手が11日のパドレス戦で星の針を訴えて、試合途中で交代し、12日の試合は大事をとって欠場する見込みです。
ドジャースは相手の本拠地サンディエゴでパドレスとの3連戦の第二戦に臨み、大谷選手は2番指名打者で先発出場しました
1回の第一打席はワンナウトランナーなしで抑え、相手の先発、ピッチャーでバッターの手元で揺れながら変化する。ナックルボールが得意のオルドロン選手と対戦しました。
大谷選手はナックルボールを見せめながら高めの即興を打って、ここはライトフライとなりました
第二打席は3回ツーアウト2塁のチャンスでアウトコースに落ちるナックルボールを捉え、大きな当たりを見せましたが、2打席連続のレフトフライでした
「相手の先発、ピッチャーでバッターの手元で揺れながら変化する。ナックルボールが得意のオルドロン選手」の箇所で少し誤認識されていますが、おおもね正確に入力されています。
Android
大谷翔平選手が11日のアドレス戦で腰の張りを訴えて 試合途中で交代し12日の試合は大事を取って 欠場する見込みです
ドジャースは相手の本拠地 サンディエゴでアドレスとの3連戦の第2戦に臨み 大谷選手が2番 指名打者で先発出場しました
1回の第1打席は1 アウトランナーなしで抑え 相手の選抜 ピッチャーでバッターの手元で揺れながら変化する ナックルボールが得意のオルドロン 選手と対戦しました
大谷選手はノックルボールを見定めながら 高みの速球を打って ここは ライトフライトになりました
第2打席は3回2アウト2塁のチャンスでアウトコースに落ちる ナックルボールをとらえ 大きな 当たりを見せましたが 2打席連続の レフト フライでした
「パドレス」が「アドレス」になってしまっていますね。やはり自動句読点がないのと、分節間に空白が気になります。
Window 10
大谷翔平選手が11日のアドレス戦で腰の張りを訴えて試合途中で交代し12日の試合は大事を取って欠場する見込みです
ドジャースは相手の本拠地サンディエゴでアドレスとの3連戦の第2戦に臨み大谷選手が2番指名打者で先発出場しました
1回の第1打席は1アウトランナーなしで抑え相手の先発ピッチャーでバッターの手元で揺れながら変化するナックルボールが得意のオルドロン選手と対戦しました
大谷選手はナックルボールを見定めながら高めの速球を打ってここはライトフライトになりました
第2打席は3回2アウト2塁のチャンスでアウトコースに落ちるナックルボールをとらえ大きな当たりを見せましたが2打席連続のレフトフライでした
手持ちのWIndos 10の[Windows 音声認識」がうまく作動しなかっかので、google chromeの拡張機能『Voice in』で代用しました。
Voice Inについてはこちらをご覧ください。↓
こちらは大きな間違いはありませんでした。Windows 10というかVoice Inが優秀なのでしょうね。
Windows 11
大谷昌平選手が。 11日の。アドレス戦で腰の。張りを訴えて試合途中で交代し。 12日の試合は大事を取って欠場する見込みです。
ドジャースは相手の本拠地サンディエゴでパドレスとの三連戦の第二戦に臨み。大谷選手は一番指名打者で先発出場しました。
一回の第一打席は? OneNoteランナーなしで抑え、相手の先発ピッチャーでバッターの手元で揺れながら変化するナックルボールが得意のウォルドロン選手と対戦しました。
大谷選手はノックボードを見定めながら高めの速球を打って。ここはライトフライとなりました。
第二打席は3回、ツーアウト二塁のチャンスで。アウトコース二零ナックルボールを捉え、おーきなあたりを見ましたが。二打席連続のレフトフライでした。
Windows 11くんはなんとあのスーパースター 大谷翔平選手の名前の読みを間違えるという失態を犯してしまいました。自動句読点をオンにして、音声入力したのですが、明らかに文章の途中で「。」がついていたりする箇所が散見されます。
「ワンアウト」が「OneNote」になっていたり、「大きな当たり」が「おーきなあたり」となっていたりで全体的に粗が目立ちます。
それぞれの仕様
iPhone | Android | Windows 10 | Windows 11 | |
---|---|---|---|---|
バージョン | 17.4.1 | 12 | Voice In v3.69 | 23H2 |
改行文言 | 改行 | 新しい行 | - | 改行 |
自動句読点 | 〇 | × | × | 〇 |
音声認識中キーボード入力 | 〇 | × | 〇 | × |
音声入力自動停止 | 30秒 | 10秒 | 1分 | 30秒 |
私の所感では、iPhone>Voice In>Android>Windows11の順で使いやすいと感じました。
音声入力に向いている/向いていないシチュエーション
音声入力に向いているシチュエーション
- 長文の入力
- メモ
- 英語入力
- ビジネス文書
- アイデア出し
音声入力に向いていないシチュエーション
- 専門用語やニッチなワード
- 人名
- 絵文字
- 単語
まとめ
音声認識技術は日進月歩で進化しており、今後ますます普及していくことが予想されます。音声入力のメリットとデメリットを理解し、自分に合った方法で活用することで、作業効率を大幅に向上させることができるでしょう。