音楽情報解析をいろいろ勉強中です。まず、テンポ推定(Tempo Estimation)をテーマにしていろいろ勉強を進めています。テンポ推定は、その名の通り音楽を入力としてその曲のテンポを推定するというもので、DAWの機能にもあったり、単独でBPM Analyzerというソフトがあったりもします。
そもそも、テンポ推定というのは音楽情報処理という分野のようで、テンポ推定のアプローチもいろいろあるみたいです。テンポ推定という問題は、『拍はほぼ等間隔であり、拍位置において和音が変わりやすい』と『打楽器音や各ノートが拍位置で発音されることが多い』という2点が問題解決のヒントになるようです。音楽情報処理については、こちらの論文にいろいろ情報がありました。追々、この中身も勉強していきたいです。
今回試したのは、後者の特徴から『拍位置で発音されることが多い』→『拍位置では音量が大きく変わりやすい』という点に着目した手法です。参考にしたのはこちらです。C/C++のサンプルコードとかもあります。
#処理について
ざっくり以下の流れです。
- 音声信号の取り込み
- 信号のモノラル化
- 信号を一定間隔で区切り(フレーム化)、RMSを取り音量情報に変換
- 直前フレームとの差分情報に変換
- BPMに対応したsin/cos波と乗算を行い、テンポの推定を行う
#本手法の性能について
手持ちの曲をいくつか試してみました。楽譜記載のBPM(楽譜があるなら)とBPM Analyzerによる結果、そして本手法での結果を比較していきます。まぁ、楽譜もオフィシャルなものではないので、楽譜が正解というわけでもないです。
Deep Purple - Smoke on the water
Youtube / Score
誰もが一度は聞いたことがあるリフで有名な曲。コード進行がシンプルなので本手法に向いているかと思った。
楽譜記載 | BPM Analyzer | 本手法 | |
---|---|---|---|
BPM | 115 | 114.96 | 228.4 |
228.4がTopに来ているのですが、2番目のピークに113.8があるため、遠からずといった結果になっています。本手法に限らず、テンポ推定では倍数の周波数が出てくることは頻繁にあります。イントロとか間奏のハイハットに引っ張られてるのかも。
Undertale OST - Megalovania
名作UndertaleからMegalovania。ヴォーカルがないし、打ち込みがメインだとおもうのでテンポ推定しやすいかなぁと。
楽譜記載 | BPM Analyzer | 本手法 | |
---|---|---|---|
BPM | 120 | 119.99 | 210 |
なんでや!! ピーク自体は、Smoke on the waterと比較するとしっかりでています。ですが、こちらでも本来のBPMは2番目で、Topは210という倍数ではないBPMとなっています。わかんねえ....。
##Alan Walker - Faded
BPM120前後が続いたので、少し遅めの曲を。エレクトロ・ハウスに分類されるのかな? 結構すき。
楽譜記載 | BPM Analyzer | 本手法 | |
---|---|---|---|
BPM | 90 | 90 | 90 |
ようやく一致。 ピークといえるピークは2か所のみで、BPMとその倍数のみ。Youtubeで聞いてても、テンポは非常に取りやすい。
##Iron Maiden - The Trooper
イギリスのHR/HMのレジェンドであるIron Maidenから1曲。ツインギターに主張の激しいベースと情報量がこれまでの楽曲よりも大きく増えたと思う。
楽譜記載 | BPM Analyzer | 本手法 | |
---|---|---|---|
BPM | 150 | 158.03 | 98.8 / 138.2 |
自分で聞きながらBPM測定した感じ、BPM AnalyzerのBPM158というのが正解だと思う。これだけ情報量が多い楽曲だと、音の起伏が激しいので本手法では難しいのかも。
#まとめ
他にもいろいろな楽曲を試してみたが、あんまり正答率は高くなかった。テンポを音量差分だけで推定するのは楽曲との相性が大きいと思う。Daft punkとかも相性が良かったので、エレクトロ系は相性がいいかも。
逆に、ロック系は厳しかった印象。Smoke on the waterにしても明確なピークが立っていたわけではないし、音の情報量が多いとかなり厳しいのかも。
次は、別のアプローチでのテンポ推定やってみます。
#ソースコード
tic;
% 各種初期パラメータ
% fname = './mp3/10 Smoke On The Water.mp3';
% fname = './mp3/Undertale - Megalovania.mp3';
% fname = './mp3/Alan Walker - Faded.mp3';
fname = './mp3/06 The Trooper.mp3';
fr = 1024;
bpm_llim = 40;
bpm_spc = 0.1;
bpm_ulim = 260;
% 音楽データの読み込み
[dat, fs] = audioread(fname);
% 音楽データ処理 (音量データ -> 音量差分データ)
len = floor(length(dat)/fr);
dat = mean(dat,2); % Lch/Rchで平均をとりモノラルへ
dat_fr = zeros(len,1);
for i = 1:len
dat_fr(i) = rms(dat(1+(i-1)*fr:i*fr));
end
dat_fr_diff = diff(dat_fr);
% BPM マッチの計算
N = length(dat_fr);
s = fs/fr;
bpm_seq = bpm_llim : bpm_spc : bpm_ulim;
bpm_match = zeros(length(bpm_seq),1);
for i = 1:length(bpm_seq)
bpm = bpm_seq(i);
a_bpm = 0;
b_bpm = 0;
for j = 1:N
a_bpm = a_bpm + dat_fr(j)*cos(2*pi*(bpm/60)*j/s);
b_bpm = b_bpm + dat_fr(j)*sin(2*pi*(bpm/60)*j/s);
end
bpm_match(i) = rms([a_bpm, b_bpm]);
end
bpm_match = bpm_match ./ max(bpm_match);
% 結果表示
plot(bpm_seq, bpm_match);
grid on;
xlim([bpm_llim, bpm_ulim]);
ylim([0, 1.1]);
title(fname);
xlabel('BPM');
ylabel('Matching Ratio (Normalized.)');
toc;