Digital Hack Day2022の提供技術のひとつであるCLOVA Speechについて学んだことメモ
CLOVA Speechとは
LINEが独自に開発した人が話す言葉を文字に変換する技術のこと
様々な環境下で、世界最高レベルの音声認識ができる
実現できること
- リアルタイムのストリーム音声解析
- 長時間の音声データ解析
- 専用ビルダーでカスタマイズ可能
- APIでたシステムと簡単に連携
- CLOVA Text Analytics等との連携
活用例
- コールセンターにおけるオペレーター対応サポート
- テレビ番組のリアルタイム字幕起こし
- 議事録の作成
- 運転中の音声操作
高精度の音声認識を実現する技術
End-To-End音声認識
音声データを1つのNeural Network(E2Eモデル)で処理してテキストにする
- 目指す出力になるよう直接モデルを学習できるため、精度が高い
- 研究が盛んで技術進展が著しい
自己教師あり学習
音声データから独自のラベルを機械的に作り、学ばせる
人間の音声言語獲得の手順に近い
- 音の性質を熟知した状態で本当に説きたい問題の解放を学ぶことで、より精度を高められる
参考