Bluemix
Watson
stt

Watson SpeechToText - 結果JSONからtranscriptだけ抜き出す(Mac)

コマンド

Watson STTから文章だけ抜き出すには、Terminalでこれを実行すればOK。

grep '"transcript"' speech_to_text_result.json \
 | sed -e 's/^[ ]*//g' \
 | sed -e 's/^"transcript": "//' \
 | sed -e 's/"$//' \
 | sed -e 's/D_[^ ]*//g' \
 | sed -e 's/ //g'

「speech_to_text_result.json」は、STT結果を保存したJSONファイル名を指定してください〜。
(※2017.09.18時点。JSON解析してるわけじゃないので、フォーマットが変わったら動かなくなるかも。)

本文

Watson Speech to Text(音声認識)サービスは、会話などの音声からテキストに文字起こししてくれるサービスです。

今回はここの記事を見て、mp3ファイルから音声認識させてみました。
https://www.ibm.com/think/jp-ja/watson/ai-transcription/

何を解決しているか

  • JSON形式で出力されるけど、テキストだけ抜き出したい(確信度の情報とか)
  • 「D_アノー」などの相槌(?)も文字起こししてくれるので消したい
  • 語の区切りにスペースが入ってくるので消したい

最後に

スミマセンが、ほぼ自分向けのメモです。