ラジオ伊集院光「深夜の馬鹿力」をIBM Watson Speech to Textでテキスト化してみた

  • 11
    いいね
  • 0
    コメント

tl;dr

眠れぬ夜の友、ラジオ伊集院光「深夜の馬鹿力」をIBM Watson Speech to Textでテキスト化してみました。
この世に文字起こしの達人たちは存在するものの、僕の聴くラジオがすべてテキスト化されていないことを憂い、今回の試みに至りました。

Capture d’écran 2017-07-18 à 23.57.17.png

内容

  • YouTube動画のダウンロード
  • 動画処理
  • IBM Watson Speech to Text
  • JSON整形
  • 結果
  • 参考

YouTube動画のダウンロード

「youtube-dl」コマンドのインストール

brew install youtube-dl

ダウンロード可能なファイル形式リスト取得

youtube-dl -F https://youtu.be/QxjL1ygSDNc

ファイル形式を指定して動画をダウンロード

youtube-dl -f140 https://youtu.be/QxjL1ygSDNc

動画処理

「ffmpeg」コマンドのインストール

brew install ffmpeg

フォーマット変換

ffmpeg -i "podcast-ep186.mp3" -vn -vn -ac 2 -ar 44100 -ab 256k -acodec wav -f wav "output.wav"

※Speech to Textで扱える音声フォーマット一覧
https://www.ibm.com/watson/developercloud/doc/speech-to-text/input.html#formats

動画分割

ffmpeg -i output.wav -f segment -segment_time 60 -c copy out%04d.wav

※音声ファイルのサイズが大きすぎるとPOST送信がタイムアウトとなり、500エラーが返ってきます。

IBM Watson Speech to Text

curl -X POST -u $WATSON_USERNAME:$WATSON_PASSWORD\
   --header "Content-Type: audio/wav" \
   --data-binary "@${file}" \
   "https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?timestamps=true&model=ja-JP_BroadbandModel"

JSON整形

cat result.json | jq '.results[].alternatives[].transcript' | tr -d '"' > sorted_result.txt

結果

うん 音 を 
三 〇 YAHOO 知恵袋 便利な サイト です けれども D_エー ます ので 
全て の 質問 を して いる 
せっかく の D_エート を サイト に 
D_エー 目 を 北 
そやから 耐えられる こと で エクソダス 百 十 五条 の 約 束 グローバル 送って 下さい と いう もの です 
D_エー 部長 最終 も クソ みたいな 質問 は こちら 
うーん うーん うーん なし 四年目 
そろそろ 中世 中山 さん 
お久しぶり です 
英文 費用 節約 の ため 印鑑 を 買って インド 覚え させた もの です 
飼い始めて 一カ月 ほど は いい あんばい でした 
しかし 
エサ代 が バカ に ならない 
(後略)

6, 7割の精度といったところでしょうか。

※詳細
https://docs.google.com/document/d/13whzacQEDK-bFeasQuaxg_J9E-D0VL7qf5YJ5vOB_qk/edit?usp=sharing

参考