More than 3 years have passed since last update.

pythonで単音の音程を判別する

Posted at 2021-08-15

動機

私はギターを嗜んでおり、自分の好きな曲に合わせて弾いたりしています。
しかし絶対音感というものは持ち合わせていません。
そこで、音声データからコードを解析するものの作成を目指します。

概要

まずは、単音が録音されているwavファイルからその単音の音程を特定します。

プログラム

今回クラスで作成し、ファイルを与えて処理することで、他の結果と比較しやすいようにした。

ソースコードはGitHubにあります。

フィールド

    #音名
    vecInterval=[]
    #周波数
    vecFreq=[]
    #周波数：音名
    mapInterval=[]
    #ファイル名
    filename=""
    #生データ
    data=[]
    #サンプリング周期
    rate=0
    #時間軸
    time=[]
    #FFT処理後データ
    fftData=[]
    #周波数リスト
    fftFreq=[]

コンストラクタ

def __init__(self,file):
        #音名マップ
        #音名の配列作成
        self.vecInterval = ["A0","A#0","B0"]
        for i in range(1,8):
            self.vecInterval.append("C" + str(i))
            self.vecInterval.append("C#" + str(i))
            self.vecInterval.append("D" + str(i))
            self.vecInterval.append("D#" + str(i))
            self.vecInterval.append("E" + str(i))
            self.vecInterval.append("F" + str(i))
            self.vecInterval.append("F#" + str(i))
            self.vecInterval.append("G" + str(i))
            self.vecInterval.append("G#" + str(i))
            self.vecInterval.append("A" + str(i))
            self.vecInterval.append("A#" + str(i))
            self.vecInterval.append("B" + str(i))
        self.vecInterval.append("C8")
        #音程の周波数の配列作成
        self.vecFreq.append(27.5)
        semtiones = pow(2,1/12)
        for i in range(0,87):
            self.vecFreq.append(self.vecFreq[i]*semtiones)
        #二つの配列で「周波数:音名」dictを作成
        self.mapInterval = dict(zip(self.vecFreq,self.vecInterval))
        
        #ファイル読み込み
        self.filename = file
        
        #音源読み込み
        self.rate, self.data = scipy.io.wavfile.read(self.filename)
        #横軸（時間）を作成
        self.time = np.arange(0,self.data.shape[0]/self.rate,1/self.rate)    
        
        #FFT
        self.fftData = np.abs(np.fft.rfft(self.data))
        self.fftFreq = np.fft.fftfreq(self.fftData.shape[0],1.0/self.rate)

行っていることは

音名の配列、それに対応する周波数の配列、その二つを組み合わせた辞書の作成
受け取ったファイル名のファイルを読み込む
FFTを処理
です。

そのままの波形を表示

    def displayFigUneditWav(self):

        #データプロット
        fig = plt.figure()
        ax = fig.add_subplot(111)
        #軸ラベル
        ax.set_xlabel("Time[s]")
        ax.set_ylabel("Amplitude")
        #プロット
        ax.plot(self.time,self.data,label=self.filename)

        plt.legend()
        #グリッド
        plt.grid(axis="both")

        #表示
        plt.show()

横軸が時間、縦軸が振幅の波形を表示する。

FFTを処理した波形を表示

    def displayFigFFTWav(self,peak):

        #ピーク値を取得
        fft_max_data = signal.argrelmax(self.fftData,order=peak)

        #データプロット
        fig = plt.figure()
        ax = fig.add_subplot(111)
        #軸ラベル
        ax.set_xlabel("Frequency[s]")
        ax.set_ylabel("Gain")
        #プロット
        ax.loglog(self.fftFreq,self.fftData,".-",label=self.filename)
        ax.plot(self.fftFreq[fft_max_data],self.fftData[fft_max_data],"ro",label="peak")
        ax.legend()
        #グリッド
        ax.grid(axis="both")
        #表示
        plt.show()

        #最もゲインの大きいピークの周波数を返す
        maxPeakFreq = self.getPeakFreq(self.fftFreq[fft_max_data],self.fftData[fft_max_data])
        #その周波数に最も近い音名を返す
        intervalName = self.searchInterval(maxPeakFreq)
        return intervalName,self.fftFreq[fft_max_data]

横軸が周波数、縦軸がゲインの波形を表示し、その音程と倍音と思わしき周波数の配列を返す。
peakの値を変更することで、基音、倍音の判定が変わる。
この値を大きくすることで、判定が厳しくなりデータ数が少なくなる。

結果

音声データは三種類

魔王魂のピアノ2-6ラ:https://maou.audio/category/se/se-inst/
ガレージバンドのピアノのラ
自身の声
で行った。

そのままの波形

maou-A.wav

gare-A-mono.wav

koe-A.wav

このような結果でした。
maou-Aとgare-A-monoはピアノの音ですが、鳴り始めた時間と大きさが違います。
koe-Aは形から違い、この結果では全て異なった結果が得られました。

FFTを行った波形

maou-A.wav

gare-A-mono.wav

koe-A.wav

このような結果でした。

返ってきた音程と周波数配列

maou-A.wav

maou.Interval
'A5'
maouFreq[1:5]
array([879.55481388, 1759.70311953, 2644.59935941,3533.65004172])

gare-mono.wav

gareInterval
'A5'
gareFreq[0:5]
array([ 879.98337144, 1763.63334026, 2650.03325712, 3542.84971939,
       4443.91602577])

koe-A.wav

koeInterval
'A3'
koeFreq[0:5]
array([ 214.04115633,  428.08231266,  642.12346899,  855.59987293,
       1069.64102926])

この結果から、正確に読み取れている。（koe-A.wavだけA3なのは著者が音痴だからです）
そして、maouFreqとgareFreqを比較すると、基音(879[Hz])から４音を比較すると

-0.4285575627001208
-3.9302207291566447
-5.433897713401166
-9.199677673680526

周波数が高くなるにつれて差も大きくなっている。
おそらくこの差が音色の違いが現れていると思う。

課題とこれから

単音の判定は可能になったが、連続した単音やコードには対応できていない。
試しにこのプログラムにコードのファイルを処理させてみたが、ゲインのグラフでピークの値がそれほど極端に出ていなかった。
ピークの判断のあたりを改良する必要がありそうです。

今後は、

区切って処理することで、長い時間の音声データにも対応
ブラウザ上でPCのマイクの音などいちいちファイルにしなくてもよい
このようにしていきたいです。

感想

作り始めてから
https://play.google.com/store/apps/details?id=jp.co.yamaha.emi.chordtracker&hl=ja&gl=US
完成したものに気づきました。

以前この記事を書いたのですが、企画に乗っかったからこそ読まれたと思いますが、初めて人に自分の文章を読んでもらう喜びを覚えました。
だからこそ、さっそく新たに寄稿したわけですが、モチベーションを上げて自己研鑽を積みたいともいます。
若輩者ですので、詳しい方は是非ご指摘などよろしくお願いいたします。
早速質問というか、変数などの命名はどういった名前が分かりやすいのでしょうか。
英語の知識が乏しいのも相まってわかりにくくてしょうがないと感じます。

また、大学の授業で得た知識をこういった形で体現化することで、より理解が深まると信じて完成させたいと思います。