はじめに
- 字幕ファイルから単語リストを切り出しておきたい。。。
- そうだ、Command の -w 機能で切り出してみよう
前提
- 対象のファイルは .srt のフォーマット
- .srt の例
6
00:08:44,033 --> 00:08:46,868
Come in.
please report.
やってみる
- 単語数
$ cat some_subtitle.srt | grep -v -e '^[.,:0-9> \-]\+\r' | grep -v -e '^\r$' | grep -o -E '\w+' | sort | uniq | wc -l
1233
- 単語表示
$ cat some_subtitle.srt | grep -v -e '^[.,:0-9> \-]\+\r' | grep -v -e '^\r$' | grep -o -E '\w+' | sort | uniq
000
1
10
10K
12
12th
13th
157
15th
16
:
:
wrong
yeah
year
years
yet
yo
you
young
$
- ファイルに保存
$ cat some_subtitle.srt | grep -v -e '^[.,:0-9> \-]\+\r' | grep -v -e '^\r$' | grep -o -E '\w+' | sort | uniq > wordlist.txt
さいごに
- かんたんでしたね