3
4

More than 3 years have passed since last update.

なるべく小さい音声ファイルを作る

Last updated at Posted at 2020-04-18

大量の音声ファイルが必要な場合、なるべくファイルサイズを小さくしてエンコードしたいことがあります。FFmpeg で最適なオプションを探りました。

【注意】HE-AAC (v1/v2) でエンコードしたファイルを頒布するには特許ライセンス契約が必要です。

v1 はフィリップス、ドルビー、ノキアが特許を持っていて、利用には特許プールとの契約が必要。v2 は v1 に加えて、フィリップス、ドルビーが特許を持っていて、特許プールに加えてドルビーとの特許契約が必要。

HE-AAC v2

HE-AAC v2 が低ビットレートに強いようです。

HE-AAC v1 にパラメトリックステレオを利用した音質改善を施した物が MPEG-4 High Efficiency AAC v2 profile (HE-AAC v2) である。高ビットレートでの音質改善はないが、48kbps 以下の低ビットレートで音質が改善する。

パラメトリックステレオ

【追記】コメント欄でのご指摘を受けて調べました。

HE-AAC v1 にステレオ特化の圧縮機能を追加したのが HE-AAC v2 ということのようです。

PS(Parametric Stereo)ツールも組み合わせたものを HE-AAC v2 と呼ぶ [21]
PS は、ステレオ信号について同様の考え方を用いるものである。ステレオ信号の左右チャネルの相関を利用し、左右の両チャネルを足し合わせたモノラル信号とステレオの空間情報をパラメータ化したサイド情報に分けて符号化を行い、復号時はモノラル信号とサイド情報とから両チャネルの信号を復元する。サイド情報は高音質の場合でも 9 kbps 程度で[22]、左右チャネルをそのまま符号化するのに比べ圧縮効率が高くなる。
また、Moving Picture Experts Group による HE-AAC と HE-AAC v2 の MUSHRA 法による比較試験では、24 kbps の HE-AAC v2 は同じビットレートの HE-AAC よりはるかに優れており、32 kbps の HE-AAC と同等か優れた評価だった[21]
パラメトリックステレオ符号化ツールはステレオ信号用で、ステレオ信号をモノラル成分と左右チャネルの違いを表す少数のパラメータで表現する。左右チャネルの違いを表すパラメータとして、フィルターで分割した各周波数領域でのチャネル間の強度差、位相差、相互相関を用いる [22][21]

左右の共通部分とそれ以外とを分離することで、圧縮効率を上げているようです。

FFmpeg

FFmpeg は動画や音声の変換でよく使われるコマンドです。HE-AAC v2 もサポートしています。(後述しますが自分でビルドする必要があります)

aac_he_v2 :HE-AACv2 44.1kHzでは28k-64kまで使える 推奨16-24k(24kHz,22.05kHz)

なかなか評判も良いようです。

オプション

v2 はステレオ音声用ということで、-ac 1 を指定するとエラーになります。-ac 2 とする必要があります。

Note: HE-AAC version 2 only handles stereo. If you have mono, or want to down-mix to mono, use HE-AAC version 1.

※ モノラル音声であれば v1 を使うように、とのことです。

v2 を試してみましたが、16kbps では音声が少し割れてしまうようです。24kbps だとほぼ気にならなくなりました。

これらを考慮したオプションは次の通りです。出力ファイルの拡張子は .m4a です。

モノラル(HE-AACv1,24kbps,22050Hz,1ch)
ffmpeg -i 入力ファイル -acodec libfdk_aac -profile:a aac_he -ab 24k -ar 22050 -ac 1 出力ファイル.m4a
ステレオ(HE-AACv2,24kbps,22050Hz,2ch)
ffmpeg -i 入力ファイル -acodec libfdk_aac -profile:a aac_he_v2 -ab 24k -ar 22050 -ac 2 出力ファイル.m4a

※ オプションは別の書き方があります。-acodec = -c:a-ab = -b:a

ビルド

FFmpeg で HE-AAC (v1/v2) を使うには libfdk_aac を有効にする必要があります。しかし特許が関係するため、libfdk_aac を有効にしたバイナリを配布することができません。

そのため自分でビルドする必要があります。依存するライブラリが多く、割と面倒です。

Arch Linux

Arch Linux では AUR (Arch User Repository) に libfdk_aac を有効にしたパッケージが収録されています。

パッケージと言ってもバイナリは提供されていませんが、yay コマンドを使えば自動で依存関係を解決してビルドしてくれます。

yay -S ffmpeg-libfdk_aac

【参考】 FFmpeg で高音質 AAC 変換できるようにする

※ 参考記事に登場する yaourt は開発が終了したため、代替コマンドとして yay を使います。

Windows 10 では WSL で Arch Linux が利用できます。詳細は次の記事を参照してください。

3
4
2

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
4