2

More than 1 year has passed since last update.

CLOVA Speechを学んでみた

LINE

Last updated at 2022-09-10Posted at 2022-09-10

Digital Hack Day2022の提供技術のひとつであるCLOVA Speechについて学んだことメモ

CLOVA Speechとは

LINEが独自に開発した人が話す言葉を文字に変換する技術のこと
様々な環境下で、世界最高レベルの音声認識ができる

実現できること

リアルタイムのストリーム音声解析
長時間の音声データ解析
専用ビルダーでカスタマイズ可能
APIでたシステムと簡単に連携
CLOVA Text Analytics等との連携

活用例

コールセンターにおけるオペレーター対応サポート
テレビ番組のリアルタイム字幕起こし
議事録の作成
運転中の音声操作

高精度の音声認識を実現する技術

End-To-End音声認識

音声データを1つのNeural Network(E2Eモデル)で処理してテキストにする

目指す出力になるよう直接モデルを学習できるため、精度が高い
研究が盛んで技術進展が著しい

自己教師あり学習

音声データから独自のラベルを機械的に作り、学ばせる
人間の音声言語獲得の手順に近い

音の性質を熟知した状態で本当に説きたい問題の解放を学ぶことで、より精度を高められる

参考

2

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

2