はじめに
- 字幕ファイルから単語リストを切り出しておきたい。。。
- そうだ、Command の -w 機能で切り出してみよう
前提
- 対象のファイルは .sub のフォーマット
- .sub の例
{16819}{16850}Yeah, I am.
やってみる
- 単語数
$ cat some_subtitle.sub | awk '{print substr($0,index($0,"}")+1)}' | awk '{print substr($0,index($0,"}")+1)}' | grep -o -E '\w+' | sort | uniq | wc -l
1602
- 単語表示
$ cat some_subtitle.sub | awk '{print substr($0,index($0,"}")+1)}' | awk '{print substr($0,index($0,"}")+1)}' | grep -o -E '\w+' | sort | uniq
000
1
10
10K
12
12th
13th
157
15th
16
:
:
wrong
yeah
year
years
yet
yo
you
young
$
- ファイルに保存
$ cat some_subtitle.sub | awk '{print substr($0,index($0,"}")+1)}' | awk '{print substr($0,index($0,"}")+1)}' | grep -o -E '\w+' | sort | uniq > wordlist.txt
さいごに
- かんたんでしたね