きっかけは”wav”と"ogg"に出会ったことでした。
そこから沼にハマり、何故か全部調べて表にして記事にまとめないと気がすまない呪いにかかり、睡眠時間を削ってまで音声ファイル形式について調べ続けていました。
これでも完全形態とは言えず、記事にするには雑すぎますが、取っ掛かりにしたいという気持ちでまとめています。
非圧縮・ロスレス(可逆圧縮)・ロッシー(不可逆圧縮)音声ファイル形式一覧
非圧縮
| 種類 | 特徴 | 拡張子 | 種別 | 構造 | 圧縮率 | ビットレート | 中身の性質 | 用途 | 参考リンク |
|---|---|---|---|---|---|---|---|---|---|
| WAV | 1991年。MicrosoftとIBMによって共同開発、メタデータ:最低限 | .wav | コンテナ | RIFF構造 | ー | ー | LPCM | 汎用・事実上の標準 | https://tech.sme.co.jp/entry/2023/11/29/200000 |
| BWF | WAVに放送用のメタデータ(時間コード・制作情報・履歴)を追加したもの | .wav | コンテナ | RIFF構造 | ー | ー | LPCM+メタ | 放送用メタデータ | https://www.g200kg.com/jp/docs/dic/broadcastwaveformat.html |
| AIFF | Apple版WAV。1988年誕生。Mac環境での高品質標準。 | .aiff | コンテナ | IFF構造 | ー | ー | LPCM | Apple文化 |
https://support.apple.com/ja-jp/guide/final-cut-pro/ver65f484c7/mac
https://bb.watch.impress.co.jp/cda/bbword/16493.html |
| AU | SunMicrosystemsによって開発.UNIX/Sun用。音声版UDP的存在 | .au | コンテナ | ヘッダ+生データ | ー | ー | PCM/μ-law | 現存するが、マルウェアが含まれている可能性があり |
https://www.geeksforgeeks.org/techtips/au-audio-format/
https://docs.oracle.com/cd/E19455-01/817-2750-10/817-2750-10.pdf |
| $\hspace{1500px}$ | |||||||||
ロスレス(可逆圧縮)/Lossless
| 種類 | 特徴 | 拡張子 | 種別 | 構造 | 圧縮率 | ビットレート | 中身の性質 | 用途 | 参考リンク |
|---|---|---|---|---|---|---|---|---|---|
| FLAC | FreeLosslessAudioCodecの略称 最強のオープン規格、高速、優秀 |
.flac | PCMを一切捨てずに、数式で畳むアルゴリズム | ー | 50〜60% | ー | 線形予測+Rice符号 | 保存・配布・将来性 |
https://www.blooktecpc-support.com/useful/flac/ https://everplay.jp/column/36058 https://xiph.org/flac/index.html |
| AppleLossless(ALAC) | 2004年に初めて導入.Apple環境で最強 | .m4a | PCMを一切捨てずに、数式で畳むアルゴリズム(※m4aはコンテナ) | ー | 40〜60% | ー | ALAC(可逆)、※コーデックがAACの場合不可逆 線形予測+Rice符号 |
Apple製品 |
https://wiki.hydrogenaudio.org/index.php?title=ALAC https://support.apple.com/ja-jp/118295 https://trends.codecamp.jp/blogs/media/terminology856 |
| WavPack(ハイブリッド) |
ロスレスモード、ロッシーモード、ハイブリッドモードというモードを合わせ持ち、ロスレスにもロッシーにもなれる、狂気。 可逆と不可逆を使い分けられる変態的な名作。 |
.wv | PCMを一切捨てずに、数式で畳むアルゴリズム | ー | 30%~70% | ー | 適応予測+柔軟な残差 |
https://www.wavpack.com/ https://g-geek.net/column/flac-wavpack https://www.wavpack.com/technical.htm |
|
| Monkey'sAudio(ape) | ファイルを極限まで小さくするが、再生時の負荷が高い。 | .ape | PCMを一切捨てずに、数式で畳むアルゴリズム | ー | 40〜50% | ー | 差分符号化、線形予測+可変長符号化(エントロピー符号化) | エンコード激遅デコードも重い | https://everplay.jp/column/32508 |
| MLP(PPCM) | DVD-Audioの規格で採用。ディスクメディア専用の規格。 | .mlp | PCMを一切捨てずに、数式で畳むアルゴリズム | ー | 55〜65% | ー | (チャネル内の)線形予測+チャネル間の相関+ハフマン符号化応用方式 |
https://hometheaterhifi.com/volume_8_4/dvd-benchmark-part-6-dvd-audio-11-2001.html
https://www.jstage.jst.go.jp/article/itej1997/56/4/56_4_538/_pdf |
|
| TTA | シンプル設計・軽い | .tta | PCMを一切捨てずに、数式で畳むアルゴリズム | ー | 60〜70% | ー | 単純予測 | 一瞬流行った |
https://tausoft.org/ru/true-audio-%d0%ba%d0%be%d0%b4%d0%b5%d0%ba-tta/
https://web.archive.org/web/20100727022032/http://en.true-audio.com |
| OptimFROG | 圧縮率最重視・激遅 | .ofr | PCMを一切捨てずに、数式で畳むアルゴリズム | ー | 35〜45% | ー | 線形予測(Choleskydecomposition)+NLMS(正規化最小平均二乗法) | 変態最終形態(fast,normal,high,extra,best,ultra,insaneのモードあり) |
https://wiki.hydrogenaudio.org/index.php?title=OptimFROG https://journal.ntt.co.jp/backnumber2/0802/files/jn200802019.pdf https://encode.su/threads/2459-EMMA-Context-Mixing-Compressor/page5 |
| Shorten | FLACが登場する前の歴史的フォーマット。伝説の先駆者 | .shn | PCMを一切捨てずに、数式で畳むアルゴリズム | ー | 70〜80% | ー | LPCM(線形パルス符号変調音声) | 研究・懐古 |
https://www.loc.gov/preservation/digital/formats/fdd/fdd000199.shtml
https://en.wikipedia.org/wiki/Shorten_(codec) |
| $\hspace{1500px}$ | |||||||||
ロッシー(不可逆圧縮)/Lossy
音声用、放送用、音響用、低遅延音響用、VoLTE用という国際標準の仕様が定められているようです。

守谷健弘『音声音響符号化技術と3GPPでの標準化』(NTT技術ジャーナルVol.27, No.21, 2015年4月号)
(勝手に)音声フォーマットを画像感覚で雑に表彰してみた
画像形式だと親和性が高かったため、雑ではありますが、生成AI御三家に評論していただき、王道の音声ファイル形式を表彰してもらいました。
JPG,PNG,WebPはほぼ同じという若干つまらないような結果になりましたが、視点の違いも面白いですね。
| 賞 | Gemini 3 | Grok(4.1Beta) | ChatGPT(GPT-5.2) |
|---|---|---|---|
| 🏅JPGで賞 |
MP3 JPGが「画像といえばこれ」という標準であるように、音声におけるMP3は圧倒的な互換性を誇る。 不可逆圧縮でサイズを劇的に小さくし、現代デジタル文化の土台を築いた功績。 |
MP3 長年オーディオ圧縮の王者として君臨し、誰もが知る存在。人間の聴覚特性を活用してデータを間引く点が、まさにJPEGの視覚特性活用に似ている。 |
MP3 軽い、どこでも開ける、多少潰れても誰も気にしない、そして世界を取った 音質云々より「流通の勝者」。JPEGとMP3は、文化として双子です。 |
| 🏅PNGで賞 |
FLAC PNGが「画質を落とさず、かつ背景透過などの情報を保持する」ように、FLACは「音質を一切落とさず(可逆圧縮)、タグ情報などのメタデータ管理に優れる」という共通点があります。どちらも「劣化させたくないけど、サイズも少しは抑えたい」というユーザーの第一選択肢です。 |
FLAC 可逆、実用的、普及している、透明性(アルバムアート込み) 「音を削らない」という一点で信頼されている。 PNGとFLACは、オタクにも一般人にも通じる“ちゃんとした形式”。 |
FLAC 可逆・実用・普及。 「音を削らない」という一点で信用されている。 |
| 🏅WebPで賞 |
Opus WebPは、JPG以上の圧縮率とPNGのような透過機能を併せ持つモダンな形式です。音声界のOpusも、低ビットレートから高音質までカバーし、MP3やAACを凌ぐ効率を持つ「YouTube時代の標準」です。非常に合理的で多機能な点が共通しています。 |
Opus 低遅延・高効率で幅広いビットレートに対応、現代のストリーミング/VoIPの救世主。古いフォーマットを置き換える勢いがWebPそのもの。 |
Opus 新しい、同サイズで明らかに優秀、通信向けに最適化、でも名前が地味 技術的には優等生なのに、説明しないと価値が伝わらないところまでWebPそっくり。 |
| 🏅SVGで賞 |
MIDI(リスト外ですが特別賞) SVGは点と線で構成される「設計図」です。提供されたリスト内では、波形を点で細かく記録するDSDが、従来の「階段状のデジタル」とは違うアプローチ(密度で音を表現する)という点で、独特の解像度を持つSVGに近いニュアンスを感じさせます。 |
該当なし(強いて言うならなし) オーディオは基本ラスター(波形)ベースなので、ベクター的なスケーラブル形式は存在しない。無理やり挙げるならMIDI(音符データ)だけど、リストにないのでパス。 |
DSD 別世界の住人、編集が面倒、数値的というより思想的、好きな人は異様に熱い SVGもDSDも「ラスターじゃない/PCMじゃない」という思想の塊。 理解する前に信仰が始まるタイプ。 |
| 🏅RAWで賞 |
WAV デジカメのRAWデータが「加工前の生データ」であるように、WAVはWindowsにおける標準的な「生の音」。一切の妥協がない巨大なデータサイズが、まさにRAWの風格です。 |
WAV 非圧縮の生波形データそのもの。スタジオやアーカイブで使われ、一切手を加えていない「原料」感がカメラのRAWにぴったり。 |
WAV 生、でかい、加工前提、そのまま使うと無骨 「情報量が多い=偉い」と思い始める入口。 RAWとWAVは、創作側のスタート地点。 RAWが「作品じゃなく素材」なら、WAVも同じ。 |
| 🏅特別枠1 |
GIFで賞:AMR/Speex GIFは「色数が256色しかない(低画質)」一方で、ファイルサイズが極めて小さく、ガラケー時代から現代のSNS(アニメGIF)まで生き残っています。音声におけるAMRやSpeexも、「音声帯域に特化して極限まで削る」という割り切った設計です。音質は決して良くありませんが、音声通話やボイスメモなど「伝える」ことに特化した潔さが、GIFの持つ「割り切り感」と重なります。 |
「圧縮率で全員ぶっちぎりだけど、エンコードに半日かかる自虐ネタで賞: OptimFROG 可逆圧縮界の圧縮率チャンピオン。マジでファイルが半分以下になることもあるけど、エンコードがクソ遅い。使ってる人は「待ってる間コーヒー3杯飲んだわ」って自慢するのがお約束。マニアの自己満足フォーマットNo.1。 |
玄人変態賞: Monkey's Audio(APE) 圧縮率は立派 でも対応環境が狭い 使ってる人は大体こだわり過多 存在そのものが「俺は分かってる側」という自己表明。 |
| 🏅特別枠2 |
HEICで賞:ALAC HEIC(iPhoneの標準写真形式)は、JPEGよりも高画質なのにサイズが半分という「Appleエコシステム内での最適解」です。ALACも同様に、Appleデバイスとの親和性が完璧で、ロスレスの音質を保ちつつ効率よく管理できる形式です。「特定の環境下で最高に便利でスマート」という、洗練されたブランドイメージを称えて授与します。 |
ソニーが本気出したのに結局みんなに無視されて可哀想で賞: ATRAC / ATRAC3 MiniDisc時代にソニーが「MP3より優れてる!」って自信満々に推してきたのに、世の中はMP3に流されて完全に負けた。いま使ってる人ほぼゼロ。技術的には悪くなかったのに、囲い込み戦略の犠牲者。Grokはこういう「負け犬の美学」好きなんだよな。 |
尖りすぎて時代を先取りしすぎたで賞: Musepack 中〜高ビットレート特化 音質志向がガチ ただし世界は追いつかなかった 技術は正しかった、時代が悪かった |
| $\hspace{1047px}$ | |||
ビットレートについて

『カセットテープの音質と、意外に知られていないCDとレコードの音質の“間違い”について』 --byタカミックスの音楽情報局
ビットレートのイメージ
- 低(〜64kbps): 電話、AMラジオ
- 中(96kbps〜160kbps): 「音楽として楽しめる」レベル。現在の標準的な配信(YouTube、Spotifyなど)。
- 高(192kbps〜320kbps): 「よほど良い機材でないと非圧縮と区別がつかない」レベル。高音質配信、マスター音源代わり。
非音声
| カテゴリ | 種類 | 特徴 | 拡張子 | 種別 | 構造 | 圧縮率 | 得意帯域 | 中身の性質 | 用途 | 参考リンク |
|---|---|---|---|---|---|---|---|---|---|---|
| 記録方式 | Direct Stream Digital (DSD) | ソニーとフィリップス社が開発 1bit・超高サンプリング周波数(2.8MHz〜)で時間軸の滑らかさを重視 |
.dff、.dsf | ロスレス記録方式 | ー | ー | ー | ΔΣ(デルタシグマ)変調 DSD方式 |
通常の編集処理の際にはPCM変換が必要になることが多い |
https://www.sony.co.jp/Products/DSD/ https://mora.jp/topics/osusume/whats-dsd/ https://ototoy.jp/feature/dsd https://www.ssw.co.jp/dtm/lesson/sit/dsd.html |
| 非音声 | MIDI(Musical Instruments Digital Interface) | 1983年に策定された電子楽器/コンピュータ間の通信プロトコル。 | .mid | 演奏用データ | ー | ー | ー | 演奏命令 | 音波データではない |
https://www.amei.or.jp/midi2020.html https://blog.onlive.studio/what-is-midi-145 https://www.soundhouse.co.jp/howto/dtm/midi/index.php |
| $\hspace{1200px}$ | ||||||||||
コーデックの性能比較表

※画像は参照記事掲載の2024年8月発表資料画像
参照:『FLACよりも圧縮率が優秀!? 日本発のロスレス音声コーデック「SRLA」とは』 --by avwatch
ここで紹介されていた資料はこちら(非会員:¥660, IPSJ:学会員:¥330, MUS:会員:¥0, DLIB:会員:¥0)にて読めるそうです→
峰尾, 太陽、庄野, 逸『線形予測に基づくロスレス音声コーデックSRLAの圧縮率改善』 --by情報処理学会
※下記画像は2008年の資料のようだったので、古いものにはなると思います。

画像参照:『MPEG-4 ALSの性能・応用と関連する標準化活動』2008.2 --by NTTコミュニケーション科学基礎研究所
感想
全HPを注いでこの数日記事を書きましたが、わからないことばかりが増えました。
Bluetoothにもコーデックがあり、音質と関係がありそうです。
参考
