SOTA(現時点で最高性能)のピアノ自動採譜のモデルの重みが公開されていたので、どの程度の精度なのか実際に試してみました。
Our paper on robust automatic piano transcription has been accepted by @IEEEorg Signal Processing Letters! It achieves SOTA results on the MAPS test with a simple data methodology, addressing overfitting issues in piano transcription models. Model weights: https://t.co/z3Ri0EKWjz
— Drew (@drooby_doo) February 2, 2024
学習したモデルはもともとBytedanceが開発したピアノ自動採譜モデルで、このモデルはさらにロバストになるような工夫をして再学習しているようです。
ピアノのみの音源で以前のモデルと比較してみます。
以下は以前のモデルです。音が連打になっていたり本来はない高音の音ができていたりしています。
最新のモデルの採譜結果です。最新のモデルでは同じ音が連打されることが少なくなり、存在しない高音の音もなくなっています。少し編集するだけでピアノ採譜に使えそうなクオリティです。
今回使用したコードはGithubにあります。