vtt形式は字幕表示に特化したフォーマットなので、人間が目で見るにはなかなか厳しいものがあります。
そこで、人間が見るのに適したPlain Textに変換するrubyスクリプトを作りました。
vtt2txt.rb
#!ruby
valid_texts = []
while line = gets
line.strip!
if line =~ /-->/
valid_texts << gets.strip
end
end
lastline = nil
valid_texts.each do |line|
if line != lastline
puts line
lastline = line
end
end
YouTubeのCNN 10の自動生成字幕で動作確認済みです。