動画や配信などで著作物の音楽等を検知するAIについて調べてみた

Posted at 2025-01-21

こんにちは、齋藤です。
YouTubeやTwitchといったプラットフォームでは、動画や配信内で使用される音楽の著作権を保護するために、AIを活用した音楽検知技術が広く使われています。
この記事では、その仕組みや技術的な背景について調べたことを書いてみます。

音楽著作物検知の目的

音楽著作物を検知する主な目的は以下のようなものがあげられます。

音楽著作物を検知するAIの背後には、以下のような技術が活用されています。

音響指紋は、音楽や音声データを特徴的なパターンに変換して、それをデータベースと照合する技術です。この技術は、次のような動作が存在します

音声データの特徴抽出：
音声を短いフレームに分割し、周波数成分や時間情報を分析。これにはFFT（高速フーリエ変換）やスペクトログラムなどが使用されます。
ハッシュ化：
抽出された特徴をデータベース内のエントリと比較可能なユニークなハッシュ値に変換します。
データベース照合：
プラットフォームが保有する膨大な音楽データベースと照らし合わせて一致するパターンを検索します。

代表的な例として、Shazam※1で使用されている技術が挙げられます。
※1 Shazam(シャザム)は、Appleが保有するアプリケーションソフトウェア

近年では、音響指紋技術に加え、機械学習やディープラーニングが用いられています。
特に、以下のようなモデルが活用されています

これらのモデルは、音楽のテンポ、メロディー、ハーモニーなどの要素を高精度で分析することができます。

YouTubeやTwitchのような大規模プラットフォームでは、毎日膨大な量のコンテンツがアップロードされています。これをリアルタイムで分析するために、クラウドコンピューティングが利用されています。

Google CloudやAWS、Microsoft Azureなどがこの分野でよく使用されます。

YouTubeでは、特にContent IDと呼ばれるシステムがこの技術を支えています。

音楽権利者がデータベースに楽曲を登録：
音楽レーベルや権利者が自分の楽曲の音響指紋を登録します。
動画の音声をスキャン：
アップロードされた動画の音声部分をContent IDシステムが解析し、音響指紋を生成します。
一致判定：
音響指紋がデータベース内の楽曲と一致する場合、その情報に基づき以下のアクションが取られます：
- 動画の収益化をブロックまたは制限。
- 広告収益を権利者に分配。
- 著作権侵害の警告を発行。

Twitchでは、特にライブストリーミング中の音楽検知が課題となっています。Twitchは以下のような方法で音楽検知を行っています：

音楽検知技術は非常に高度ですが、以下のような課題も存在します：

YouTubeやTwitchで使用される音楽著作物検知のAI技術は、音響指紋やディープラーニングなどの高度な技術に支えられています。これらの技術により、クリエイターや権利者の利益が守られる一方で、誤検知やリアルタイム処理の負荷といった課題も存在します。

YouTube Content IDに関する公式ドキュメント
https://support.google.com/youtube/answer/2797370

Shazamの音響指紋技術に関する論文

Audible Magicの公式サイト
https://www.audiblemagic.com/