前回からの続き
前回は主要アルゴリズムについてのお話でしたので、今回は実際の処理手順について綴っていこうかと思います。
が・・・その前にそもそも画像がどのように表現されているかの前提のお話をしたほうがイメージしやすいかと思いますのでそちらから。
画像の表現について
例えばこのような200px × 200pxの青色の画像があったとします。
この画像の要素を分解すると
とRGBの3つのレイヤーに分けられます。
この200px × 200pxの青色の画像は
200px × 200px のRGBの3枚のレイヤーを重ねることによって表現されていることになります。
RGB値で見た場合、この200px × 200pxの青色の画像の構成要素は 200 × 200 × 3 = 120000個 の RGB値の集合です。
昨今めっきり見なくなったbmpの形式では、生のRGB値をきっかり全部のレイヤー分保持しています。適宜bmpで用意してもらったファイルをバイナリエディタで開いてみると分かりやすいかと思います。
(画像のヘッダー情報+120000個のRGB値の羅列が見て取ることができます。リトルエンディアンの形式で保持されているのと、BGRの順で並んでいるので分かりづらいところですが・・・また、このような保持形式のため、ファイルサイズが120000byte(RGB値1つ=1byte×120000+ファイルヘッダー)の近似値になります。※24ビットビットマップの場合)
この前提の元、jpgの処理手順について述べていきます。
jpg処理の前提
- 最小の処理単位は8×8(最小の格納単位は16×16)
- ↑これがjpgがエッジに弱いことやブロックノイズが発生する要因
jpgの圧縮処理手順
- RGB→YCbCr変換
- 2次元DCT
- 量子化
- シリアライズ
- ハフマンテーブルによる符号化(DC成分/AC成分)
RGB→YCbCr変換
RGB値を特定の行列をかけて、YCbCrに変換します。
なぜこんなことをするのか?圧縮率が上がるからです。(`・ω・´)シャキーン
2次元DCT
- 2次元平面に対する離散コサイン変換
- 離散信号を周波数領域に変換する1つの方法
- Y・Cb・Crの各レイヤーに対して実施
- 人の目にもよく分かる低周波成分が左上に
- 人の目には違いがよく分からない高周波成分が右下に
前回も触れましたが一応おさらい
なぜこんなことをするのか?圧縮率が上がるからです。(`・ω・´)シャキーン
量子化
データ圧縮における量子化とは値の精度を落としてより少ない(粗い)区間に分け直すこと(wikipediaより抜粋)を指します。
また、jpgのヘッダーには以下のような量子化用のテーブルがそれぞれ格納されています。
このデータを用いてデコーダーはデータのデコードを行います。
(jpgの保存時に設定する場合がある「品質」はこの量子化テーブルに対する倍率を表します)
この量子化テーブルについてはほぼ上述のものが適用されています。
実際の画像に対する圧縮処理において、上述のテーブルがほとんどの場合において高い圧縮率を誇ることが経験則的に立証されているからだそうです。
なぜこんなことをするのか?圧縮率が上がるからです。(`・ω・´)シャキーン
シリアライズ
2次元のデータ列に対して処理をしてますので、バイナリとしてデータ格納するために一定のアルゴリズムでシリアライズする必要があります。
ただシリアライズするだけなら前述の処理は必要ありません。
前回の記事で説明した主要アルゴリズムの一つ、ゼロランレングスが最も効果を発揮するようにシリアライズする必要があります。
ここで用いるのがジグザクスキャンです。
なぜこんなことをするのか?圧縮率が上がるからです。(`・ω・´)シャキーン
ハフマンテーブルによる符号化(DC成分/AC成分)
ここからjpgのバイナリの深淵、ハフマンテーブルを用いた符号化について説明していきたいと思います。
といきたいところですが・・・記事の量が多くなってきましたね・・・
今回の分はここまでということで。
ハフマンテーブルによる符号化と実際のファイルへの格納方法についてはまた次回ということで_(:3」∠)_
(気が向いたら)つづく