近年のISMIRは、SOTAを引き上げるモデルや手法よりも、独特な視点から新たな発見に繋がった研究が評価される傾向があるように感じます。今年のベストペーパーも、その傾向が強く出ていました。
GlobalMood: A cross-cultural benchmark for music emotion recognition
異なる文化・言語の人々の、音楽から感じる感情を調査し、異なる言語の感情表現の「幅」を分析した研究。
1180個の楽曲を、59カ国から集めた2519人の被験者に聞かせ、音楽から感じる感情に関する900925回分のレーティングを集めて解析した、大規模な主観ベンチマークです。アンケートは選択肢ではなくフリーワード方式で、被験者は様々な言語の言葉で感情を表現します。各楽曲に対して集められた「言葉」の傾向を照らし合わせることで、「言葉」同士の感情表現の「距離」を推定することができます。
全ての言葉同士の「距離」を分析することで、色々面白い発見があったようです。例えば、happyと同じ意味を持つ言葉同士の距離が案外遠く、異なる文化における「happy」の意味に比較的大きな「幅」があることが見て取れます。逆に、calmやsadと同じ意味を持つ言葉同士の距離は小さく、文化による差異はあまりありません。また、どの言葉との距離も遠く、ポツンと孤立した言葉もあり(韓国語のappealing、スペイン語のsensualityなど)、文化によって独特の感覚が存在することも示唆しています。
音楽感情をモデル化する際は、辞書的に同じ意味の言葉を軽率に同一視せず、文化的な要素も加味する必要がある、ということを示していると思います。一例として、論文では収集したデータでCLAPをファインチューニングすると、多言語な音楽感情認識タスクに対する性能が大きく向上したことを報告しています。
本研究は、フリーワードの音楽感情アンケートにおいて、効率的に高品質な回答を得るための手法も考案しており、音楽感情認識の分野にとっては手法面でも高い参考価値がある研究です。
Are you really listening? Boosting Perceptual Awareness in Music-QA Benchmarks
大規模オーディオ言語モデルが「本当に音を聞いて判断してるのか」を考察した研究。
本研究は、音楽を入力して質問に答える「音楽QA(Question Answering)タスク」のベンチマークについて、驚きの事実を指摘します。何と、LLMが賢すぎて、音楽QAベンチマークで「音を入力しなくてもそこそこ正解してしまう」現象が存在するのです。
実際、音楽QAの標準的ベンチマークとされているMuChoMusic上では、Llama-3.1やDeepSeek-V3などのText-only LLMが、最先端のマルチモーダルLLMとほぼ同等のベンチマークスコアを達成してしまいました。
なぜこんなことが起きてしまうのかというと、ベンチマークの設計があまり良くなく(MuChoMusicの設問はLLMで生成したものであるため)、LLMは設問の文面と一般常識に基づき、「メタ読み」で正解を当ててしまうことができるからです。
LLMの真の性能を測るために、本研究はPerceptual Indexという「答えの当てやすさ」の指標を設計し、上記のような「当てやすい」設問を除外する手法を提案しました。除外した結果、改変後のMuChoMusicベンチマークにおいてText-only LLMのベンチマークスコアはきちんとチャンスレベルまで下落しました。
……だけでなく、マルチモーダルLLMもほぼ全滅。唯一この試練をある程度乗り越えたのは、Qwen2-Audioだけでした。タイトル通り、「本当に音聞いてるの?」と問いかけたくなるような結果。
もっとも、これらのマルチモーダルLLMに、音楽の代わりにノイズ信号を入力すると正解率が更に下落するので、「そもそも音を参考してない」ことはないと思いますが、まだまだ進歩の余地は大きいですね。
ちょうどISMIR2025開催中のタイミングで、アリババから最新のマルチモーダルモデルQwen3-Omniがリリースされました。Qwen3だとどこまでいけるのか、気になるところです。
ベンチマークの品質に気をつけるべし、という教訓を与え、また実際にベンチマークの品質を測る指標(Perceptual Index)を提供してくれた研究でした。
Audio synthesizer inversion in symmetric parameter spaces with approximately equivariant flow matching
パラメーターの対称性を考慮した、シンセサイザーパラメーター逆推定手法を提案。
シンセサイザーパラメーターの逆推定問題は典型的な不良設定問題(正解が一意でない)であり、パラメーターをDNNで点推定する手法は局所最適に陥りやすく、上手くいきません。代わりに生成モデルでパラメーターの確率分布を推定すると正解の曖昧性に対応できますが、推定精度が犠牲になります。本研究は、逆推定問題の曖昧性に関する性質を更に掘り下げ、その性質に対応するモデルを考案することで、パラメーター逆推定の性能を飛躍的に向上させました。
具体的には、パラメーターの対称性(structural symmetry) に着目しました。一般的な定義かどうかは分かりませんが、ここでいう対称性とは、「適用の順番は出力に影響しない」性質を指すんだそうです(permutation invarnanceとも言います)。例えば、複数のオシレーターから音を合成するシンセの場合、オシレーター同士のパラメーターを交換しても結果は変わらない、というような性質です。
本研究は、パラメーターが含む対称性に自律的に対応できるモジュールを設計し、そのモジュールに基づいたnormalizing flows生成モデルを考案しました。この生成モデルを用いることで、複雑なパラメーターを持つVSTシンセSurge XTのパラメーター推定実験で、これまでのSOTAに比べ音の再現精度が飛躍的に向上しました。
A Fourier Explanation of AI-music Artifacts
生成AI音楽の周波数域に存在する「グリッチ」を特定し、極めて単純な手法で生成AI音楽を正確に検出できることを示した。
DeezerはISMIR2025で、生成AI作品の検出に関する論文を2本出しており、これはそのうちの1本です。どうやらDeezerは兼ねてより自社サービスで増殖し続ける生成AI音楽の対処に苦労しているようで、プラットフォームに掲載した研究紹介スライドでは生成AI音楽の氾濫をデータで示しつつ、ISMIRがSUNOやUdioをスポンサーに迎えたことを名指しで批判。流石に本番のオーラル発表では少しだけマイルドな内容になりました。楽しみにしてたのに
論文が指摘する生成AI音楽特有の「グリッチ」とは、すなわちDeconvolution層を通した際に発生する「Checkerboard artifact」のことで、これ自体は既に良く知られている現象です。
このグリッチがあるおかげで、論文はオーディオスペクトルに対する単純な線形回帰だけで、極めて正確に生成AI楽曲を検出できることを示しました。ほぼ100%か、本当に100%区別できる、というレベル。
学習済みの線型回帰係数を観察すると、確かにオープンソースモデルも、Sunoのようなクローズモデルも、Checkerboard effectを生んでいることが見て取れます。
………………………とは、限らないような?
MusikaやUdioによる生成物には目立ったグリッチが無く、しかしそれでも正確に区別はできていました。これについては特に考察はありませんでした。
Checkerboard effectを解消する手法も多く存在するし、線型回帰の有効性もそんなに長くは持たない気がしますが、生成AI音楽を検出するために苦労して複雑なDNNを鍛える必要は(今の時点では)ほぼ無かった、という身も蓋もない事実を突きつけたという意味で、評価されたのでしょう。