14
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

「あのー」「えっと」「えー」を文字起こしした文章から除去する

Last updated at Posted at 2023-03-11

やること

「あのー」「えっと」「えー」といった発話の合間にはさみこむ言葉をフィラーと言います
Amazon Transcribed等のサービスで簡単に文字起こしができますが、フィラーが気になります。
今回はフィラーを簡単に除去する方法を紹介します。

参考にした記事

フィラーを除去する方法

今回はGoogle Colabを利用しますが、ローカル環境でも動きます。

日本語の自然言語処理ライブラリである「Ginza」をインストールします。

!pip install -U ginza ja-ginza

メニュー[ランタイム] > [ランタイムを再起動]で「Google Colab」を再起動します

import spacy

transcribed_text = '''
こんにちは トランス くらい 分 を えーと 今 から 私 が えーと テスト したい と 思い ます 
かなり フィラ を 多め に 喋る こと を 心掛け て い ます 
えーと 
以上 と なり ます
'''
nlp = spacy.load('ja_ginza')
doc = nlp(transcribed_text)
# フィラーの削除
result = ''
for sent in doc.sents:
  for token in sent:
    if token.tag_ != "感動詞-フィラー":
      result += str(token.text)
print(result)

実行すると、以下の結果が得られました。フィラーが除去されたことが分かります。

こんにちはトランスくらい分を今から私がテストしたいと思います
かなりフィラを多めに喋ることを心掛けています

以上となります
14
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
14
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?