やること
「あのー」「えっと」「えー」といった発話の合間にはさみこむ言葉をフィラーと言います。
Amazon Transcribed等のサービスで簡単に文字起こしができますが、フィラーが気になります。
今回はフィラーを簡単に除去する方法を紹介します。
参考にした記事
フィラーを除去する方法
今回はGoogle Colabを利用しますが、ローカル環境でも動きます。
日本語の自然言語処理ライブラリである「Ginza」をインストールします。
!pip install -U ginza ja-ginza
メニュー[ランタイム] > [ランタイムを再起動]で「Google Colab」を再起動します
import spacy
transcribed_text = '''
こんにちは トランス くらい 分 を えーと 今 から 私 が えーと テスト したい と 思い ます
かなり フィラ を 多め に 喋る こと を 心掛け て い ます
えーと
以上 と なり ます
'''
nlp = spacy.load('ja_ginza')
doc = nlp(transcribed_text)
# フィラーの削除
result = ''
for sent in doc.sents:
for token in sent:
if token.tag_ != "感動詞-フィラー":
result += str(token.text)
print(result)
実行すると、以下の結果が得られました。フィラーが除去されたことが分かります。
こんにちはトランスくらい分を今から私がテストしたいと思います
かなりフィラを多めに喋ることを心掛けています
以上となります