音処理のテンプレートマッチング
Q&A
やりたいこと
opencvで画像のテンプレートマッチングがあります。
これの音バージョンがやりたいです。
例
テンプレート:太鼓の音
wav.mp3:祭りの音
wav.mp3から太鼓の音が何回なっているか、どこのタイミングでなっているかを検出する
というイメージです。
Pythonで実装したいと思っていますが、あまり参考資料がなく困っております。
検索方法でも良いですのでご教授いただけると幸いです。
0
Q&A
opencvで画像のテンプレートマッチングがあります。
これの音バージョンがやりたいです。
例
テンプレート:太鼓の音
wav.mp3:祭りの音
wav.mp3から太鼓の音が何回なっているか、どこのタイミングでなっているかを検出する
というイメージです。
Pythonで実装したいと思っていますが、あまり参考資料がなく困っております。
検索方法でも良いですのでご教授いただけると幸いです。
少し調べてみました。
検索ワードは
「python audio matching」
「python sound matching」
日本語でなかなか見つからない場合はやはり英語の方がいいですね。
音声・サウンド系に詳しければ飲みこみやすいのかもしれません。
librosaのcross_similarityなどはどうでしょうか?
同じ波形の音声であれば検出できると思います。
音の特徴を考慮していないので、違う太鼓の音などでは検出できません。