1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

article for Qiita advent calendar day21: audio file format

Last updated at Posted at 2025-12-21

きっかけは”wav”と"ogg"に出会ったことでした。
そこから沼にハマり、何故か全部調べて表にして記事にまとめないと気がすまない呪いにかかり、睡眠時間を削ってまで音声ファイル形式について調べ続けていました。

これでも完全形態とは言えず、記事にするには雑すぎますが、取っ掛かりにしたいという気持ちでまとめています。

非圧縮・ロスレス(可逆圧縮)・ロッシー(不可逆圧縮)音声ファイル形式一覧

非圧縮

種類   特徴 拡張子    種別      構造 圧縮率   ビットレート    中身の性質 用途 参考リンク
WAV 1991年。MicrosoftとIBMによって共同開発、メタデータ:最低限 .wav コンテナ RIFF構造 LPCM 汎用・事実上の標準 https://tech.sme.co.jp/entry/2023/11/29/200000
BWF WAVに放送用のメタデータ(時間コード・制作情報・履歴)を追加したもの .wav コンテナ RIFF構造 LPCM+メタ 放送用メタデータ https://www.g200kg.com/jp/docs/dic/broadcastwaveformat.html
AIFF Apple版WAV。1988年誕生。Mac環境での高品質標準。 .aiff コンテナ IFF構造 LPCM Apple文化 https://support.apple.com/ja-jp/guide/final-cut-pro/ver65f484c7/mac
https://bb.watch.impress.co.jp/cda/bbword/16493.html
AU SunMicrosystemsによって開発.UNIX/Sun用。音声版UDP的存在 .au コンテナ ヘッダ+生データ PCM/μ-law 現存するが、マルウェアが含まれている可能性があり https://www.geeksforgeeks.org/techtips/au-audio-format/
https://docs.oracle.com/cd/E19455-01/817-2750-10/817-2750-10.pdf
$\hspace{1500px}$

ロスレス(可逆圧縮)/Lossless

種類   特徴 拡張子     種別      構造   圧縮率     ビットレート   中身の性質 用途 参考リンク
FLAC FreeLosslessAudioCodecの略称
最強のオープン規格、高速、優秀
.flac PCMを一切捨てずに、数式で畳むアルゴリズム 50〜60% 線形予測+Rice符号 保存・配布・将来性 https://www.blooktecpc-support.com/useful/flac/
https://everplay.jp/column/36058
https://xiph.org/flac/index.html
AppleLossless(ALAC) 2004年に初めて導入.Apple環境で最強 .m4a PCMを一切捨てずに、数式で畳むアルゴリズム(※m4aはコンテナ) 40〜60% ALAC(可逆)、※コーデックがAACの場合不可逆
線形予測+Rice符号
Apple製品 https://wiki.hydrogenaudio.org/index.php?title=ALAC
https://support.apple.com/ja-jp/118295
https://trends.codecamp.jp/blogs/media/terminology856
WavPack(ハイブリッド) ロスレスモード、ロッシーモード、ハイブリッドモードというモードを合わせ持ち、ロスレスにもロッシーにもなれる、狂気。
可逆と不可逆を使い分けられる変態的な名作。
.wv PCMを一切捨てずに、数式で畳むアルゴリズム 30%~70% 適応予測+柔軟な残差 https://www.wavpack.com/
https://g-geek.net/column/flac-wavpack
https://www.wavpack.com/technical.htm
Monkey'sAudio(ape) ファイルを極限まで小さくするが、再生時の負荷が高い。 .ape PCMを一切捨てずに、数式で畳むアルゴリズム 40〜50% 差分符号化、線形予測+可変長符号化(エントロピー符号化) エンコード激遅デコードも重い https://everplay.jp/column/32508
MLP(PPCM) DVD-Audioの規格で採用。ディスクメディア専用の規格。 .mlp PCMを一切捨てずに、数式で畳むアルゴリズム 55〜65% (チャネル内の)線形予測+チャネル間の相関+ハフマン符号化応用方式 https://hometheaterhifi.com/volume_8_4/dvd-benchmark-part-6-dvd-audio-11-2001.html
https://www.jstage.jst.go.jp/article/itej1997/56/4/56_4_538/_pdf
TTA シンプル設計・軽い .tta PCMを一切捨てずに、数式で畳むアルゴリズム 60〜70% 単純予測 一瞬流行った https://tausoft.org/ru/true-audio-%d0%ba%d0%be%d0%b4%d0%b5%d0%ba-tta/
https://web.archive.org/web/20100727022032/http://en.true-audio.com
OptimFROG 圧縮率最重視・激遅 .ofr PCMを一切捨てずに、数式で畳むアルゴリズム 35〜45% 線形予測(Choleskydecomposition)+NLMS(正規化最小平均二乗法) 変態最終形態(fast,normal,high,extra,best,ultra,insaneのモードあり) https://wiki.hydrogenaudio.org/index.php?title=OptimFROG
https://journal.ntt.co.jp/backnumber2/0802/files/jn200802019.pdf
https://encode.su/threads/2459-EMMA-Context-Mixing-Compressor/page5
Shorten FLACが登場する前の歴史的フォーマット。伝説の先駆者 .shn PCMを一切捨てずに、数式で畳むアルゴリズム 70〜80% LPCM(線形パルス符号変調音声) 研究・懐古 https://www.loc.gov/preservation/digital/formats/fdd/fdd000199.shtml
https://en.wikipedia.org/wiki/Shorten_(codec)
$\hspace{1500px}$

ロッシー(不可逆圧縮)/Lossy

カテゴリ   種類   特徴 拡張子    種別      構造 圧縮率   ビットレート    中身の性質 用途 参考リンク
汎用・配布 MP3 Fraunhofer / MPEG-1 Layer III古参・互換性最強 .mp3 ロッシーコーデック 6kbps 〜 510kbps 互換性が命 汎用・配布 https://www.mp3-history.com/
https://neal.fun/internet-artifacts/first-mp3/
https://everplay.jp/column/28832
https://www.jstage.jst.go.jp/article/jasmin/2011f/0/2011f_0_23/_pdf
AAC MP3の後継として、AppleやYouTubeが採用。1997年にMPEG-2標準の一部として導入され、1999年にMPEG-4標準で拡張。 .m4a/.aac ロッシーコーデック 96kbps 〜 320kbps 聴覚心理モデル 配信・スマホradiko録音 → ほぼ AAC https://av.jpn.support.panasonic.com/support/term/alphabet/acc.html
https://av.watch.impress.co.jp/docs/series/dal/1393179.html
https://blog.fileformat.com/ja/audio/advanced-audio-coding-aac/
https://k-tai.watch.impress.co.jp/cda/article/keyword/17760.html
Opus 低遅延・低ビットレートで優位。Discord、WhatsApp、LINEで活躍。 .opus ロッシーコーデック 6 ~ 510 kbps 超低遅延・全帯域対応 通信・配信 https://opus-codec.org/
https://av.watch.impress.co.jp/docs/series/dal/1393179.html
https://www.cisco.com/c/ja_jp/support/docs/unified-communications/unified-communications-manager-callmanager/200591-OPUS-Codec-Overview.html
Vorbis (ogg) Spotifyの主なストリーミング形式。多くのゲーム(Unityエンジンなど)で採用。 .ogg ロッシーコーデック 64kbps 〜 500kbps 帯域が広い ゲーム・OSS https://xiph.org/ogg/
https://videoconvert.minitool.com/jp/news/m4a-vs-ogg.html
https://pianoforte32.com/evaluated-the-sound-quality-of-the-opus-audio-codec-for-low-bit-rates/
Musepack MP2をベースに個人が極限までチューニング。170kbps以上での音質は一時期「世界最強」と呼ばれたが、ハード・企業の支持を得られずマニアの記憶と共にフェードアウト。 .mpc ロッシーコーデック 160kbps 〜 256kbps 高ビットレート特化 2009年にSV8を最後に開発が中断 https://www.musepack.net/
https://www.rarewares.org/rrw/mpegplus.php
https://ja.namu.wiki/w/Musepack
固有規格 WMA 1999年に誕生し、その翌年に公開された「Windows Media Player 7」に標準搭載。低ビットレート帯(64kbps付近)を補完する設計。DRM(著作権保護)に強く、Windows環境での親和性が最強だった。 .wma ロッシーコーデック 64kbps 〜 192kbps 低ビットレート重視 2011年頃からレガシー規格化 https://learn.microsoft.com/ja-jp/windows/win32/medfound/about-the-windows-media-codecs
https://av.watch.impress.co.jp/docs/series/dal/1420272.html
https://wiki.hydrogenaudio.org/index.php/Windows_Media_Audio
ATRAC / ATRAC3 「Advanced TRansform Acoustic Coding」の略。MD(ミニディスク)の心臓部。ソニー独自の聴感心理学に基づいた「聴き心地」を優先した設計。 .at3 /.oma ロッシーコーデック 66kbps 〜 352kbps 聴感心理の先駆者 SONY機器 https://www.sony.jp/ServiceArea/impdf/pdf/44140540M.w-JP/jp/contents/12/02/01/01.html
https://news.yahoo.co.jp/articles/d10b0930950201fbae573f19dfa8f33830fb0f6b
https://it-notes.stylemap.co.jp/hardware/atrac%E2%86%92-sonys-audio-compression-technology/
https://av.watch.impress.co.jp/docs/20020128/dal42.htm
https://av.watch.impress.co.jp/docs/20021216/dal82.htm
QCPファイル クアルコム社。古い携帯電話(CDMA方式)で録音や着ボイスに使われていた、極小サイズの音声データ。 .qcp コンテナ RIFF構造 6.8K~14Kbps QCELPやEVRC 携帯電話 https://www.wdic.org/w/TECH/QCP%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB
https://docs.fileformat.com/audio/qcp/
https://www.qualcomm.com/news/releases/1997/06/qualcomm-introduces-purevoice-superior-voice-coding-technology-withlandline
音声コーデック AMR 3GPP標準の音声特化コーデック。 .amr ロッシーコーデック 4.75kbps 〜 12.2kbps 超軽量・耐エラー性 音声通話 https://www.itmedia.co.jp/mobile/0203/11/n_keywords.html
https://docs.fileformat.com/ja/audio/amr/
Speex VoIP(XMPPなど)で採用 .spx ロッシーコーデック 2.15 〜 44.2 kbps OpusがRFCとして標準化され、廃止に VoIP https://www.speex.org/
https://www.wdic.org/w/TECH/Speex
専用・産業規格 Dolby Digital(AC-3) 1991年前後(映画『バットマン リターンズ』期).ホームシアターやテレビ放送に特化。5.1chサラウンド標準。 .ac3 ロッシーコーデック 256kbps、384kbps、640kbps マルチチャンネル 映画・TV 限られた通信帯域で送るならDolby https://www.dolby.com/about/leadership/ray-dolby/
DTS 1993年『Jurassic Park』が初劇場使用。Dolbyのライバル。より高音質を重視した映画用サラウンド形式。 .dts ロッシーコーデック 754kbps 〜 1.5Mbps 「迫力」 映画 最高音質で映画に浸るならDTS https://www.tcl.com/jp/ja/blog/guides/dolby-digital-vs-dts
mp2 MP3の先輩(MPEG-1 Layer II)、放送(DAB/DVB/デジタルTV)で今も重宝。処理が軽くエラー耐性強い。 .mp2 ロッシーコーデック 32~384 kbps シンプル・堅牢・高速 高速フーリエ変換 昔のデジタルラジオ/放送業界 → MP2 が主流だった https://www.tmath.co.jp/product/sw_mpeg1_layer2_encdec/
https://www.loc.gov/preservation/digital/formats/fdd/fdd000338.shtml
https://grokipedia.com/page/MPEG-1_Audio_Layer_II
$\hspace{1500px}$

音声用、放送用、音響用、低遅延音響用、VoLTE用という国際標準の仕様が定められているようです。
EVSの達成.png
守谷健弘『音声音響符号化技術と3GPPでの標準化』(NTT技術ジャーナルVol.27, No.21, 2015年4月号)

(勝手に)音声フォーマットを画像感覚で雑に表彰してみた

画像形式だと親和性が高かったため、雑ではありますが、生成AI御三家に評論していただき、王道の音声ファイル形式を表彰してもらいました。

JPG,PNG,WebPはほぼ同じという若干つまらないような結果になりましたが、視点の違いも面白いですね。

音声フォーマットを画像感覚で雑に表彰してみた図
Gemini 3 Grok(4.1Beta) ChatGPT(GPT-5.2)
🏅JPGで賞 MP3
JPGが「画像といえばこれ」という標準であるように、音声におけるMP3は圧倒的な互換性を誇る。 不可逆圧縮でサイズを劇的に小さくし、現代デジタル文化の土台を築いた功績。
MP3
長年オーディオ圧縮の王者として君臨し、誰もが知る存在。人間の聴覚特性を活用してデータを間引く点が、まさにJPEGの視覚特性活用に似ている。
MP3
軽い、どこでも開ける、多少潰れても誰も気にしない、そして世界を取った 音質云々より「流通の勝者」。JPEGとMP3は、文化として双子です。
🏅PNGで賞 FLAC
PNGが「画質を落とさず、かつ背景透過などの情報を保持する」ように、FLACは「音質を一切落とさず(可逆圧縮)、タグ情報などのメタデータ管理に優れる」という共通点があります。どちらも「劣化させたくないけど、サイズも少しは抑えたい」というユーザーの第一選択肢です。
FLAC
可逆、実用的、普及している、透明性(アルバムアート込み) 「音を削らない」という一点で信頼されている。 PNGとFLACは、オタクにも一般人にも通じる“ちゃんとした形式”。
FLAC
可逆・実用・普及。 「音を削らない」という一点で信用されている。
🏅WebPで賞 Opus
WebPは、JPG以上の圧縮率とPNGのような透過機能を併せ持つモダンな形式です。音声界のOpusも、低ビットレートから高音質までカバーし、MP3やAACを凌ぐ効率を持つ「YouTube時代の標準」です。非常に合理的で多機能な点が共通しています。
Opus
低遅延・高効率で幅広いビットレートに対応、現代のストリーミング/VoIPの救世主。古いフォーマットを置き換える勢いがWebPそのもの。
Opus
新しい、同サイズで明らかに優秀、通信向けに最適化、でも名前が地味 技術的には優等生なのに、説明しないと価値が伝わらないところまでWebPそっくり。
🏅SVGで賞       MIDI(リスト外ですが特別賞)
SVGは点と線で構成される「設計図」です。提供されたリスト内では、波形を点で細かく記録するDSDが、従来の「階段状のデジタル」とは違うアプローチ(密度で音を表現する)という点で、独特の解像度を持つSVGに近いニュアンスを感じさせます。
該当なし(強いて言うならなし)
オーディオは基本ラスター(波形)ベースなので、ベクター的なスケーラブル形式は存在しない。無理やり挙げるならMIDI(音符データ)だけど、リストにないのでパス。
DSD
別世界の住人、編集が面倒、数値的というより思想的、好きな人は異様に熱い SVGもDSDも「ラスターじゃない/PCMじゃない」という思想の塊。 理解する前に信仰が始まるタイプ。
🏅RAWで賞 WAV
デジカメのRAWデータが「加工前の生データ」であるように、WAVはWindowsにおける標準的な「生の音」。一切の妥協がない巨大なデータサイズが、まさにRAWの風格です。
WAV
非圧縮の生波形データそのもの。スタジオやアーカイブで使われ、一切手を加えていない「原料」感がカメラのRAWにぴったり。
WAV
生、でかい、加工前提、そのまま使うと無骨 「情報量が多い=偉い」と思い始める入口。 RAWとWAVは、創作側のスタート地点。 RAWが「作品じゃなく素材」なら、WAVも同じ。
🏅特別枠1 GIFで賞:AMR/Speex
GIFは「色数が256色しかない(低画質)」一方で、ファイルサイズが極めて小さく、ガラケー時代から現代のSNS(アニメGIF)まで生き残っています。音声におけるAMRやSpeexも、「音声帯域に特化して極限まで削る」という割り切った設計です。音質は決して良くありませんが、音声通話やボイスメモなど「伝える」ことに特化した潔さが、GIFの持つ「割り切り感」と重なります。
「圧縮率で全員ぶっちぎりだけど、エンコードに半日かかる自虐ネタで賞: OptimFROG
可逆圧縮界の圧縮率チャンピオン。マジでファイルが半分以下になることもあるけど、エンコードがクソ遅い。使ってる人は「待ってる間コーヒー3杯飲んだわ」って自慢するのがお約束。マニアの自己満足フォーマットNo.1。
玄人変態賞: Monkey's Audio(APE)
圧縮率は立派 でも対応環境が狭い 使ってる人は大体こだわり過多 存在そのものが「俺は分かってる側」という自己表明。
🏅特別枠2 HEICで賞:ALAC
HEIC(iPhoneの標準写真形式)は、JPEGよりも高画質なのにサイズが半分という「Appleエコシステム内での最適解」です。ALACも同様に、Appleデバイスとの親和性が完璧で、ロスレスの音質を保ちつつ効率よく管理できる形式です。「特定の環境下で最高に便利でスマート」という、洗練されたブランドイメージを称えて授与します。
ソニーが本気出したのに結局みんなに無視されて可哀想で賞: ATRAC / ATRAC3
MiniDisc時代にソニーが「MP3より優れてる!」って自信満々に推してきたのに、世の中はMP3に流されて完全に負けた。いま使ってる人ほぼゼロ。技術的には悪くなかったのに、囲い込み戦略の犠牲者。Grokはこういう「負け犬の美学」好きなんだよな。
尖りすぎて時代を先取りしすぎたで賞: Musepack
中〜高ビットレート特化 音質志向がガチ ただし世界は追いつかなかった 技術は正しかった、時代が悪かった
$\hspace{1047px}$

ビットレートについて

ビットレートの目安値.png
『カセットテープの音質と、意外に知られていないCDとレコードの音質の“間違い”について』 --byタカミックスの音楽情報局

ビットレートのイメージ

  • 低(〜64kbps): 電話、AMラジオ
  • 中(96kbps〜160kbps): 「音楽として楽しめる」レベル。現在の標準的な配信(YouTube、Spotifyなど)。
  • 高(192kbps〜320kbps): 「よほど良い機材でないと非圧縮と区別がつかない」レベル。高音質配信、マスター音源代わり。

非音声

カテゴリ   種類   特徴 拡張子    種別      構造 圧縮率   得意帯域    中身の性質 用途 参考リンク
記録方式 Direct Stream Digital (DSD) ソニーとフィリップス社が開発
1bit・超高サンプリング周波数(2.8MHz〜)で時間軸の滑らかさを重視
.dff、.dsf ロスレス記録方式 ΔΣ(デルタシグマ)変調
DSD方式
通常の編集処理の際にはPCM変換が必要になることが多い https://www.sony.co.jp/Products/DSD/
https://mora.jp/topics/osusume/whats-dsd/
https://ototoy.jp/feature/dsd
https://www.ssw.co.jp/dtm/lesson/sit/dsd.html
非音声 MIDI(Musical Instruments Digital Interface) 1983年に策定された電子楽器/コンピュータ間の通信プロトコル。 .mid 演奏用データ 演奏命令 音波データではない https://www.amei.or.jp/midi2020.html
https://blog.onlive.studio/what-is-midi-145
https://www.soundhouse.co.jp/howto/dtm/midi/index.php
$\hspace{1200px}$

コーデックの性能比較表

コーデック.jpg
※画像は参照記事掲載の2024年8月発表資料画像
参照:『FLACよりも圧縮率が優秀!? 日本発のロスレス音声コーデック「SRLA」とは』 --by avwatch
ここで紹介されていた資料はこちら(非会員:¥660, IPSJ:学会員:¥330, MUS:会員:¥0, DLIB:会員:¥0)にて読めるそうです→
峰尾, 太陽、庄野, 逸『線形予測に基づくロスレス音声コーデックSRLAの圧縮率改善』 --by情報処理学会

※下記画像は2008年の資料のようだったので、古いものにはなると思います。
性能評価NTT技術ジャーナル_2008_2.png
画像参照:『MPEG-4 ALSの性能・応用と関連する標準化活動』2008.2 --by NTTコミュニケーション科学基礎研究所

感想

全HPを注いでこの数日記事を書きましたが、わからないことばかりが増えました。

Bluetoothにもコーデックがあり、音質と関係がありそうです。

1000028923.jpg

参考

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?