3
3

More than 1 year has passed since last update.

PythonでMAD作成支援ツールを作った話(音声認識)

Last updated at Posted at 2021-10-17

免責事項

この記事には素人が書いたガバコードが含まれています。このコードを実行したことにより発生した損害に対して、作者は一切の責任を負いかねます。

動機

MADが作りたい->でも細切れの音声をいちいち開いて確認するのめんどい->かと言って全部のファイルに名前つけるのも面倒臭い

動作確認した環境

Windows10
Python3.9.1

事前準備

  • Pythonのインストール
  • Speech Recognizerとpyaudioをpipで落としておく pyaudioの導入に失敗した人はこの記事に解決策が載ってました
  • Audacityのインストール(日本語化を推奨)

下ごしらえ

Audacityにスライスしてない生の音声をD&Dとかで投げるD&Dで放り込む

Ctrl+aで全選択してから重要エフェクト->増幅で音を一定にする(初期値で足りなければ適当にパラメータいじる)
増幅する
いじらんでもおそらく問題ない

解析->無音の検出でスライスする
とても便利
上が閾値で真ん中が無音と判定するまでの時間(下はたぶん関係ない)
元音声ファイルによるけど
閾値を厳しめ(-50dB~)にして検出時間を短くするといい感じ
ある程度きつめにカットされるから自分でいらないラベルを削る必要があるかも
オプション

ラベルがつけられたら書き出す(ファイル->書き出し->複数ファイルの書き出し)
ラベリング完了

書き出し先フォルダとかを設定する
命名は"ファイル名プレフィックスの後に番号付け"を推奨
適当にフォルダやらを指定する

書き出しが終わるまで待つ

調理

import pyaudio
import speech_recognition
import os
import glob
import json
import time

work_dir = input('作業先ディレクトリを絶対パスで指定してください > ')
if work_dir[-1:] != '\\':
    work_dir = work_dir + '\\'

def rename(dir):
    #ファイルリストの取得と存在確認
    files = glob.glob(dir + '*')
    if len(files) == None:
        print('有効なファイルが存在しませんでした')
        return

    print('ファイルの取得に成功: ' + str(len(files)) + '件')

    #ディレクトリを移動
    if (len(dir) == None) or os.path.exists(dir) == False:
        print('パスが間違っているようです')
        return
    if os.getcwd() != dir:
        os.chdir(dir)

    #初期化
    r = speech_recognition.Recognizer()
    index = 0

    for file in files:
        if os.path.exists(file) == False:
            print('ファイルが存在しません')
            break
        if '.wav' not in file:
            print('wavファイルではありませんでした')
            continue

        print('認識を開始...')
        text = ''
        try:
            with speech_recognition.AudioFile(file) as source:
                audio = r.record(source)
            result = r.recognize_google(audio, language='ja-JP')
            text = json.dumps(result, ensure_ascii=False)
        except Exception as e:
            print('読み取りに失敗しました。ファイル名を自分で設定してください')
            text = 'failed'

        if '"' in text:
            text = text.strip('"')


        print('認識結果: ' + text)
        os.rename(file, dir + str(index) + '_' + text + '.wav')
        index += 1
        print('ファイル名の変更が完了しました')

        time.sleep(1)

    print('ファイル名の書き換えが終わりました')

rename(work_dir)

拡張子.pyで保存、Powershell開いて(例)python3 hoge.py 実行する
作業先ディレクトリにはさっきスライスを書き出したフォルダを指定する(例)C:\hogehoge\

完成品の名前がfailedになってるやつは解析失敗してるので自分でファイル名書き直してください

できたもの

精度はお察しレベルだけどないよりはマシかな?程度
failedは解析失敗した奴

結論

これいる?

参考

https://qiita.com/daiarg/items/ff1b9f91d0804e6a8f18
https://qiita.com/sugi-juku/items/c92f8f170a6b455e15f2

3
3
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
3