Spleeterを使って楽曲を楽器別に分離する

Posted at 2023-09-01

はじめに

普段音楽を聞いていて「この曲ボーカルだけ抜き出して聞いてみたい」とか、反対に「ボーカルを削除して聞いてみたい」と思うことがあります。
本記事では、そんな願いを叶えてくれるツール「Spleeter」の使い方について記載します。

Spleeterとは

Spleeterは、AI技術を用いた音源分離ツールです。
大量の楽曲を学習したモデルに楽曲ファイルを与えることで、最大5種類の楽器に分離してくれます。

ボーカル
ドラム
ベース
ピアノ
その他
- ギター、シンセサイザ、効果音etc...

Spleeterは無料で使えますが、iZotope社のRX8に代表されるプロ仕様のソフトウェアにも組み込まれており、品質の高さが伺えます。

インストール手順

基本的に公式のインストール手順に則って構築しました。

前提

以下環境にインストールを行っていきます（Python, pipはインストールされていることを前提とします）。

ソフト	バージョン
OS	Windows 11
Python	3.10.11
pip	23.0.1

依存ライブラリのインストール

Spleeterで音源分離を行うにあたり「ffmpeg」が必要となります。
以下の記事を参考にインストールを行ってください。
WindowsにFFmpegをインストールする

最終的にコマンドプロンプトでffmpegコマンドが実行できればOKです。

> ffmpeg -version
ffmpeg version N-110972-gbaa9fccf8d-20230601 Copyright (c) 2000-2023 the FFmpeg developers
built with gcc 12.2.0 (crosstool-NG 1.25.0.152_89671bf)
configuration: --prefix=/ffbuild/prefix --pkg-config-flags=--static --pkg-config=pkg-config --cross-prefix=x86_64-w64-mingw32- --arch=x86_64 --target-os=mingw32 --enable-gpl --enable-version3 --disable-debug --disable-w32threads --enable-pthreads --enable-iconv --enable-libxml2 --enable-zlib --enable-libfreetype --enable-libfribidi --enable-gmp --enable-lzma --enable-fontconfig --enable-libvorbis --enable-opencl --disable-libpulse --enable-libvmaf --disable-libxcb --disable-xlib --enable-amf --enable-libaom --enable-libaribb24 --enable-avisynth --enable-chromaprint --enable-libdav1d --enable-libdavs2 --disable-libfdk-aac --enable-ffnvcodec --enable-cuda-llvm --enable-frei0r --enable-libgme --enable-libkvazaar --enable-libass --enable-libbluray --enable-libjxl --enable-libmp3lame --enable-libopus --enable-librist --enable-libssh --enable-libtheora --enable-libvpx --enable-libwebp --enable-lv2 --enable-libvpl --enable-openal --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenh264 --enable-libopenjpeg --enable-libopenmpt --enable-librav1e --enable-librubberband --enable-schannel --enable-sdl2 --enable-libsoxr --enable-libsrt --enable-libsvtav1 --enable-libtwolame --enable-libuavs3d --disable-libdrm --disable-vaapi --enable-libvidstab --enable-vulkan --enable-libshaderc --enable-libplacebo --enable-libx264 --enable-libx265 --enable-libxavs2 --enable-libxvid --enable-libzimg --enable-libzvbi --extra-cflags=-DLIBTWOLAME_STATIC --extra-cxxflags= --extra-ldflags=-pthread --extra-ldexeflags= --extra-libs=-lgomp --extra-version=20230601
libavutil      58. 12.100 / 58. 12.100
libavcodec     60. 16.100 / 60. 16.100
libavformat    60.  5.100 / 60.  5.100
libavdevice    60.  2.100 / 60.  2.100
libavfilter     9.  8.101 /  9.  8.101
libswscale      7.  3.100 /  7.  3.100
libswresample   4. 11.100 /  4. 11.100
libpostproc    57.  2.100 / 57.  2.100

Spleeterのインストール

Spleeterはpipでインストールすることができます。
具体的には、コマンドプロンプトで以下のコマンドを実施するだけです。

> pip install spleeter

インストール後は、spleeterコマンドが実行できることを確認してください。

> spleeter --version
Spleeter Version: 2.3.2

実際に分離してみる

それでは実際に音源分離を行っていきます。
Spleeterの実行方法は「CLI」と「Pythonライブラリ」の2通りが用意されていて、それぞれについて説明します。

準備

分離用のサンプル音源が公開されているので、以下リンクよりダウンロードします。
https://github.com/deezer/spleeter/raw/master/audio_example.mp3

CLI編

以下のコマンドを実行して、音源を分離することができます。

> spleeter separate -p spleeter:5stems -o output-cli audio_example.mp3

-pオプションで音源分離のモードを指定します。
どのように分離したいかによって、以下の通り指定を変更してください。

spleeter:2stems
- ボーカル/伴奏に分離されます。
spleeter:4stems
- ボーカル/ベース/ドラム/その他に分離されます。
spleeter:5stems
- ボーカル/ベース/ピアノ/ドラム/その他に分離されます。

実行が成功すると、以下のように楽器別に分離されたwavファイルが出力されています。

> ls .\output-cli\audio_example\
Mode                 LastWriteTime         Length Name
----                 -------------         ------ ----
-a----        2023/08/21     17:45        1919406 bass.wav
-a----        2023/08/21     17:45        1919406 drums.wav
-a----        2023/08/21     17:45        1919406 other.wav
-a----        2023/08/21     17:45        1919406 piano.wav
-a----        2023/08/21     17:45        1919406 vocals.wav

Python編

以下のPythonコードで音源分離が可能です。

from spleeter.separator import Separator

if __name__ == '__main__':
    # インプット音源ファイルを指定
    input_file = "./audio_example.mp3"
    # 分離モードを指定
    separator = Separator("spleeter:2stems")

    # インプットファイルと出力ディレクトリを指定して分離実行
    separator.separate_to_file(input_file, "./output-python")

私の環境の場合、if __name__ == '__main__':が無いとエラーとなり実行できませんでした。
公式GitHubのIssueを参考に解決することができました。

感想

出力された音源を試聴したところ、概ね楽器別に分離されているなぁという印象でした。
「概ね」というのは、別楽器の音が紛れ込んでいたり音質が悪いと感じるところもあったためです。
ただ今後より多くのデータを学習することで改善が期待できることから、まだまだ発展途上のツールと言えそうです。

余談

Apple Musicには「Apple Music Sing」という機能があり、楽曲のボーカル音量を調整してカラオケを楽しむことができます。
この機能にSpleeterが使われているのではと思い調べてみたのですが、関係はないとのことでした。
https://github.com/deezer/spleeter/issues/812

We've not been involved at all on this, nor in touch with folks at cupertino. 
I believe they are running their own model, tailored for their hardware.

私たちはこの件にはまったく関与していないし、クパチーノの人々とも連絡を取っていない。
彼らは自分たちのハードウェアに合わせた独自のモデルを運営していると思う。

今後より色んなところで開発が進んで、品質が上がっていけばよいなと思いました！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up