tl;dr
眠れぬ夜の友、ラジオ伊集院光「深夜の馬鹿力」をIBM Watson Speech to Textでテキスト化してみました。
この世に文字起こしの達人たちは存在するものの、僕の聴くラジオがすべてテキスト化されていないことを憂い、今回の試みに至りました。
内容
- YouTube動画のダウンロード
- 動画処理
- IBM Watson Speech to Text
- JSON整形
- 結果
- 参考
YouTube動画のダウンロード
「youtube-dl」コマンドのインストール
brew install youtube-dl
ダウンロード可能なファイル形式リスト取得
youtube-dl -F https://youtu.be/QxjL1ygSDNc
ファイル形式を指定して動画をダウンロード
youtube-dl -f140 https://youtu.be/QxjL1ygSDNc
動画処理
「ffmpeg」コマンドのインストール
brew install ffmpeg
フォーマット変換
ffmpeg -i "podcast-ep186.mp3" -vn -vn -ac 2 -ar 44100 -ab 256k -acodec wav -f wav "output.wav"
※Speech to Textで扱える音声フォーマット一覧
https://www.ibm.com/watson/developercloud/doc/speech-to-text/input.html#formats
動画分割
ffmpeg -i output.wav -f segment -segment_time 60 -c copy out%04d.wav
※音声ファイルのサイズが大きすぎるとPOST送信がタイムアウトとなり、500エラーが返ってきます。
IBM Watson Speech to Text
curl -X POST -u $WATSON_USERNAME:$WATSON_PASSWORD\
--header "Content-Type: audio/wav" \
--data-binary "@${file}" \
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?timestamps=true&model=ja-JP_BroadbandModel"
JSON整形
cat result.json | jq '.results[].alternatives[].transcript' | tr -d '"' > sorted_result.txt
結果
うん 音 を
三 〇 YAHOO 知恵袋 便利な サイト です けれども D_エー ます ので
全て の 質問 を して いる
せっかく の D_エート を サイト に
D_エー 目 を 北
そやから 耐えられる こと で エクソダス 百 十 五条 の 約 束 グローバル 送って 下さい と いう もの です
D_エー 部長 最終 も クソ みたいな 質問 は こちら
うーん うーん うーん なし 四年目
そろそろ 中世 中山 さん
お久しぶり です
英文 費用 節約 の ため 印鑑 を 買って インド 覚え させた もの です
飼い始めて 一カ月 ほど は いい あんばい でした
しかし
エサ代 が バカ に ならない
(後略)
6, 7割の精度といったところでしょうか。
※詳細
https://docs.google.com/document/d/13whzacQEDK-bFeasQuaxg_J9E-D0VL7qf5YJ5vOB_qk/edit?usp=sharing
参考
-
Watson Developper Cloud Documentation
https://www.ibm.com/watson/developercloud/doc/speech-to-text/index.html -
Watson Speech to Textをターミナルから実行してみた
http://qiita.com/waytoa/items/e63087ea9d1586bcd55f -
youtube-dl で 乃木坂 あしゅ の YouTube動画 を 好きなだけ DL する 方法
http://qiita.com/HirofumiYashima/items/2cf6292d8fbdee77d8e1 -
[ffmpeg] 音声形式の変換方法まとめ
http://qiita.com/suzutsuki0220/items/43c87488b4684d3d15f6