More than 5 years have passed since last update.

【Scipy】FFT、STFTとwavelet変換で遊んでみた♬～音声合成アプリ

Last updated at 2019-02-07Posted at 2019-02-07

前回は音声分離アプリを作成したが、今回は合成アプリを作ってみよう。音声の分割と合成ができると、例えば「あ、い、う、え、お」と「あ、か、さ、た、な、は、ま、や、ら、わ」を取得し、「ｋ、ｓ、ｔ、。。。」を分離して、組み合わせると、五十音が合成できるはずである。

とりあえずの目標

以下のとおり、
※リンクされているものは記事にしたものであり、その記事を前提知識として書いて行くので、参照すると理解し易いと思います。
①Scipy環境を作る
　・環境の確認
②不確定原理について
・FFT変換・逆変換してみる；時間軸が消える
・STFT変換・逆変換してみる；窓関数について
・wavelet変換・逆変換してみる；スペクトログラムの解釈と不確定原理
③音声や地震データや株価や、。。。とにかく一次元の実時系列データに応用する
 音声データ入力編
④FFTからwavelet変換まで簡単にたどってみる（上記以外のちょっと理論）
⑤二次元データに応用してみる
⑥天体観測データに応用してみる
⑦リアルタイムにスペクトログラムしてみる
 高速化（バグあり）
高速化完成版
 音声分離アプリ

コードは以下に置きました

・Scipy-Swan/add_wav.py

やったこと

・音声の合成「おはよう」「開けゴマ」
・音声の合成「あいうえお」「ｋ」
・コード解説と演算して合成

・音声の合成「おはよう」「開けゴマ」

以下は、単純に「おはよう」と「開けゴマ」の合成結果である。
以下のGitHubに合成した音声データを置いた。IEだと、クリックすると生成できる。
※ほかのブラウザだと再生できないようだ？
Scipy-Swan/data/ohayohirakegoma_out.wav

・音声の合成「a,i,u,e,o」「ｋ」

ka;Scipy-Swan/data/ka_out2.wav

ki;Scipy-Swan/data/ki_out2.wav

ku;Scipy-Swan/data/ku_out2.wav

ke;Scipy-Swan/data/ke_out2.wav

ko;Scipy-Swan/data/ko_out2.wav

・コード解説と演算して合成

一応、上記でもやりたいことはやれたような気もするが、よく聞くと[ke]と[ko]は[e]と[o]が強すぎて、「け」「こ」よりは「kえ」「kお」と聞こえるように思う。
コードはちょっと長いけど、以下のとおり
おまじないは、いつもの通り

# coding: utf-8
import wave
import pyaudio
import matplotlib.pyplot as plt
import numpy as np
import time
import wave
from scipy.fftpack import fft, ifft
from scipy import signal

以下は読み込んだwavファイルの諸量を出力する関数

def printWaveInfo(wf):
    """WAVEファイルの情報を取得"""
    print( "chn:", wf.getnchannels())
    print( "width:", wf.getsampwidth())
    print( "sampl rate:", wf.getframerate())
    print( "no. of frame:", wf.getnframes())
    print( "parames:", wf.getparams())
    print( "length(s):", float(wf.getnframes()) / wf.getframerate())

以下は、前回と同じく生データ、STFT、FFTの描画関数
縦軸の大きさが変わるので、今回は固定解除した。

def plot_wav(filename,t1,t2):
    ws = wave.open(filename+'.wav', "rb")
    ch = ws.getnchannels()
    width = ws.getsampwidth()
    fr = ws.getframerate()
    fn = ws.getnframes()
    fs = fn / fr
    print(fn,fs)
    origin = ws.readframes(fn)
    data = origin[:]
    sig = np.frombuffer(data, dtype="int16")  /32768.0
    t = np.linspace(0,fs, fn, endpoint=False)
    fig = plt.figure(figsize=(12, 10))
    ax1 = fig.add_subplot(311)
    ax2 = fig.add_subplot(312)
    ax3 = fig.add_subplot(313)

    ax1.set_xlabel('Time [sec]')
    ax1.set_ylabel('Signal')
    #ax1.set_ylim(-0.0075,0.0075)
    ax1.set_xlim(t1,t2)
    ax1.plot(t, sig)
    
    nperseg = 1024
    f, t, Zxx = signal.stft(sig, fs=fn, nperseg=nperseg)
    ax2.pcolormesh(fs*t, f/fs/2, np.abs(Zxx), cmap='hsv')
    ax2.set_xlim(t1,t2)
    ax2.set_ylim(20,20000)
    ax2.set_yscale('log')

    freq =fft(sig,int(fn))
    Pyy = np.sqrt(freq*freq.conj())*2/fn
    f = np.arange(20,20000,(20000-20)/int(fn)) #RATE11025,22050;N50,100
    #ax3.set_ylim(0,0.000075)
    ax3.set_xlim(20,20000)
    ax3.set_xlabel('Freq[Hz]')
    ax3.set_ylabel('Power')
    ax3.set_xscale('log')
    ax3.plot(f*fr/44100,Pyy)
    
    plt.savefig(filename+'.jpg')
    plt.show()
    
    plt.close()  
    ws.close()

以下は、今回複数ファイルを使うので、wavファイルの読み込み関数を別途定義

def fileOpen(filename):
    wf = wave.open(filename+".wav", "r")
    printWaveInfo(wf)
    fr = wf.getframerate()
    fn = wf.getnframes()
    fs = float(fn / fr)
    # ストリームを開く
    p = pyaudio.PyAudio()
    stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
                    channels=wf.getnchannels(),
                    rate=wf.getframerate(),
                    output=True)
    CHANNELS = wf.getnchannels()
    width = wf.getsampwidth()
    return wf,stream,fr,fn,fs,width,CHANNELS

合成する２つのファイル名を入力して上記関数で読み込む

if __name__ == '__main__':
    filename1=input('input original filename=')
    wf1,stream1,fr1,fn1,fs1,width1,CHANNELS1 = fileOpen(filename1)

    filename2=input('input original filename=')
    wf2,stream2,fr2,fn2,fs2,width2,CHANNELS2 = fileOpen(filename2)

合成する二つの音声の大きさfc1.fc2を入力する。
ここで、numpyを使って、g1,g2に変換することにより、演算できるようにする。
また、それぞれ読み込んだwavファイルの音声をstream1.write(g1)により出力している。

    fc1=int(input('input factor1='))
    fc2=int(input('input factor2='))
    
    frames = []
    for i in range(0, int(fr1 / 1024 *fs1+0.5)):
        data = wf1.readframes(1024)
        g1 = fc1*np.frombuffer(data, dtype= "int16") #/32768.0    # -1～1に正規化 #g1は演算できる
        frames.append(g1)
        stream1.write(g1)
        
    for i in range(0, int(fr2 / 1024 *fs2+0.5)):
        data2 = wf2.readframes(1024)
        g2 = fc2*np.frombuffer(data2, dtype= "int16") #/32768.0    # -1～1に正規化　#g2は演算できる
        frames.append(g2)
        stream2.write(g2)

新たなファイルに合成した音声を保存する。

    loff1 = wf1.getnframes()/1024  #len(frames)
    loff2 = wf2.getnframes()/1024  #len(frames)

    wr = wave.open('wav/'+filename1+filename2+'_out.wav', 'wb')
    wr.setnchannels(CHANNELS2)
    wr.setsampwidth(width2)  #width=2 ; 16bit
    wr.setframerate(fr2)
    s=int((loff1+loff2)*(fs1+fs2)/(fs1+fs2))
    wr.writeframes(b''.join(frames[0:s])) 
    #wr.close()

そして、保存したwavファイルの画像を出力する。

    fn = wr.getnframes()
    fs = float(fn / wr.getframerate())
    print(fn,fs)
    plot_wav('wav/'+filename1+filename2+'_out',0,fs)

合成した音声から前半部分と後半部分の音声をそれぞれ切り出して、合成・保存する。

    t1=float(input('input t1='))
    t2=float(input('input t2='))
    t3=float(input('input t3='))
    t4=float(input('input t4='))

    wr = wave.open('wav/'+filename1+filename2+'_out2.wav', 'wb')
    wr.setnchannels(CHANNELS2)
    wr.setsampwidth(width2)  #width=2 ; 16bit
    wr.setframerate(fr2)
    s1=int((loff1+loff2)*(t1)/(fs1+fs2))
    s2=int((loff1+loff2)*(t2)/(fs1+fs2))
    s3=int((loff1+loff2)*(t3)/(fs1+fs2))
    s4=int((loff1+loff2)*(t4)/(fs1+fs2))
    print(t1,t2,t3,t4,s1,s2,s3,s4)
    wr.writeframes(b''.join(frames[s1:s2])) 
    wr.writeframes(b''.join(frames[s3:s4])) 
    #wr.close()

切り出した合成音の生データ、STFT、そしてFFT画像を出力する。

    fn = wr.getnframes()
    fs = float(fn / wr.getframerate())
    print(fn,fs)
    plot_wav('wav/'+filename1+filename2+'_out2',0,fs)
    
    stream1.close()
    stream2.close()
    exit()