最近、ハイレゾ音源なのにダイナミックレンジを殺したミキシング・マスタリングで海苔波形が云々という文句をアニメ方面からよく聞くので、じゃあ自分が持ってる息の長いバンドの音源を見比べてみようかと思うも、音源を編集ツールに読ませてスクショするのは面倒でダサいし、かといって視覚的に出力するツールを知らないし、ということでそういうツールを自作することにしました…シェルスクリプトで。
ソース
#!/bin/sh -e
# License: CC0
# mktemp(1)はPOSIX外
tmp=$(mktemp -d)
clean() {
rm -rf $tmp
}
trap clean EXIT
# オプション
# -v,-m 音量の基準線を追加する。
# 線の引く位置を -v はdB、-m はサンプルに対する倍率で指定
# -r 基準線に合わせて出力波形も拡大縮小する
level= reduce=
while getopts m:v:r sw
do
case $sw in
v)
level=$(printf %.3f $(echo "e(($OPTARG/20)*l(10))"|bc -l))
;;
m)
level=$(printf %.3f $OPTARG)
;;
r)
reduce=t
;;
*)
cat <<heredoc >&2
usage:
${0##*/} [-v vol|-m mag] [-r] [sound]
heredoc
exit 1
;;
esac
done
shift $(($OPTIND - 1))
if [ -n "$reduce" -a -n "$level" ]
then reduce=$level
else reduce=1
fi
# 音声ファイルをモノラル8bit PCM化。要ffmpeg
# 要は音声データをLiner PCMに変換できてストリームの情報を得らればいいので
# soxとか自分の使いやすいソフトで代替するのも良いと思います
[ $# -eq 0 ] && input=- || input="$1"
ffmpeg -i "$input" -ac 1 -f s8 $tmp/samp.bin 2>$tmp/meta
sr=$(sed '/^Output #0, s8,/,/Stream #0:0/!d' $tmp/meta |sed '$!d; s/.* \([0-9]*\) Hz.*/\1/')
len=$(wc -c <$tmp/samp.bin)
# ここからSVG出力
cat <<heredoc
<?xml version='1.0' encoding='utf-8' standalone='yes'?>
<svg xmlns="http://www.w3.org/2000/svg"
viewBox="0 -144 2048 288">
<style type="text/css"><![CDATA[
polygon {
fill: #44f;
stroke: #00f;
stroke-width: 1;
}
]]></style>
<rect x="0" y="-144" width="2048" height="288" fill="#ddd"/>
<path d="M0,-128 H2048 M0,128 H2048" stroke="#444" stroke-width="1"/>
heredoc
# 1分毎に縦線を引くやつ
awk -v "sr=$sr" -v "len=$len" 'BEGIN{
print "<path stroke=\"#777\" stroke-width=\"1\" d=\""
for (m = sr * 60; m < len; m += sr * 60) {
print "M" m * 2048 / len ",-144v288"
}
print "\"/>"
}'
# 区切り毎のサンプル最大・最小値を求める
# ここら辺、シェルスクリプトでもバイナリ処理頑張れるよってのを示したかっただけなので
# 実際使うなら遅いからバイナリを直接読める言語を使ったほうがいいよ……
od -tdC -v -An $tmp/samp.bin |sed 's/ */ /g; s/^ //; s/ $//;' |tr ' ' '
' |awk -v "len=$len" '
BEGIN{
pos = 1
posf = int(len / 2048)
sampmax = 0
sampmin = 0
NR--
}
{
if (NR < posf) {
v = -$1
if (sampmax < v) {
sampmax = v
}
else if (sampmin > v) {
sampmin = v
}
}
else {
print pos - 1, sampmax, sampmin
pos++
posf= int(pos * len / 2048)
sampmax = 0
sampmin = 0
}
}
END {
print pos - 1, sampmax, sampmin
}
' >$tmp/samp.txt
# 下半分多角形
echo '<polygon'
echo "transform='scale(1,$reduce)'"
echo 'points="0,0'
cut -f1,2 -d ' ' $tmp/samp.txt
echo '2048,0"/>'
# 上半分多角形
echo '<polygon'
echo "transform='scale(1,$reduce)'"
echo 'points="0,0'
cut -f1,3 -d ' ' $tmp/samp.txt
echo '2048,0"/>'
# 基準線追加
if [ -n "$level" ]
then
levelf=$(echo "$level*128"|bc)
echo "<path stroke='red' stroke-width='1' d='M0,$levelf H2048 M0,-$levelf H2048' stroke-dasharray='8' />"
fi
echo '</svg>'
最終的には画像形式をSVGにし、全体を2048等分して、その区間内での最小値・最大値を求めて折れ線で繋いでいくという処理になりました。これでこんな感じの画像が得られます。
元々はPCMサンプル毎にピクセルを出力していって出来た長大な画像を縮小するとか、SVGでサンプル毎に線を引くとかしてたけど、どちらもべらぼうに時間がかかる上にたいして綺麗じゃなかったのでやめました。44100 Hzのサンプルが5分続くと1000千万超えますしね…。
あとこれで作ったSVGをImageMagickでconvert(1)すると90秒ぐらい掛かるんだけど遅すぎない? batikのrasterizerだと2〜3秒しか掛からないのに。
画像一覧
まあそんなわけでめでたく波形の視覚化に成功したので、T‐スクェアの曲からいくつか挙げてみましょう。(これがやりたかっただけ)
※ 赤い線はノーマライズのためにEBU R128に基づくラウドネス測定の後-18 LUFSになるまで下げられる音量です。間隔が狭いほど元々の音が大きく感じます。
T‐スクェア
A FEEL DEEP INSIDE / LUCKY SUMMER LADY (1978、1987再販)
LICKIN’ IT / MIDNIGHT LOVER (1978、1990再販)
TEXAS KID / MAKE ME A STAR (1979、1987再販)
TOMORROW’S AFFAIR / ROCKOON (1980、1990再販)
CHOU CHOW / MAGIC (1981、1987再販)
LOVE’S STILL BURNIN’ / 脚線美の誘惑 (1982、1990再販)
君はハリケーン / うち水にRAINBOW (1983、1990再販)
ADVENTURES (EPILOGUE) / ADVENTURES (1984)
いとしのうなじ / STARS AND THE MOON (1984、2001リマスター)
LEAVE ME ALONE / S·P·O·R·T·S (1986)
MORNING STAR / WAVE 上: (1989) 下: (1989、2001リマスター)
ここから本田雅人
TRAVELERS / REFRESHEST (1991)
CROWN AND ROSES / WELCOME TO THE ROSE GARDEN (1995)
WHO’S LICKIN’ IT / MISS YOU IN NEW YORK (1995)
SUNSHINE SHOWER / B.C. A.D. (1996)
SAMURAI METROPOLIS / BLUE IN RED (1997、2002リマスター)
ここから宮崎隆睦
DOWN TO EARTH / GRAVITY (1998)
JAPANESE SOUL BROTHERS / GRAVITY (1998)
SCRAMBLING / SWEET & GENTLE (1999)
MAN ON THE MOON / T‐SQUARE (2000)
ここから2人ユニット
SAFARI / FRIENDSHIP (2000)
COME AND GET IT / NEW ROAD, OLD WAY (2002)
EUROSTAR 〜RUN INTO THE LIGHT〜 / SPIRITS (2003)
DREAM WEAVER / GROOVE GLOBE (2004)
ここからバンド制復活
MORE THAN LEMONADE / PASSION FLOWER (2005)
ANTHEM / WONDERFUL DAYS (2008)
FANTASTIC STORY 〜時間旅行〜 / 時間旅行 (2010)
はやぶさ 〜THE GREAT JOURNEY: 奇跡の帰還〜 / NINE STORIES (2011)
KNOCK ME OUT / PARADISE (2015)
7‐6‐5 / TREASURE HUNTER (2016)
T‐スクェアはまぁポップやロックとはジャンルが違うし最近の曲は大体Hybrid SACDでリリースされているだけあってそこまでどぎつく海苔海苔しくなっているわけではありませんね。
T‐スクェア以外で気になったやつ
塩谷哲 - SETEMBRO (BRAZILIAN WEDDING SONG) / WISHING WELL (1998)
原曲はIvan Lins、Quincy Jonesによるカバーが有名な曲です。これは塩谷哲によるピアノのカバーなんですが、バラードらしくしっとりと始まり、終盤の盛り上がるところで音がドーンと力強く迫ってくる感じが本当に良い。ジャズ録音斯くあるべしといった感じ。
本田雅人 - SEVEN / SAXES STREET (2015)
上はハイレゾ配信版、下はCD版
最初CDを買ったところとても気に入ったので、音質の向上を期待しつつ、あとお布施のつもりでハイレゾ版も買ってみたのですが、サンプリングレートとビット深度が増えただけで内容が一緒、その容れ物に見合ったミキシング・マスタリングがなされていないことにとてもショックを受けてしまいました。フュージョンは今やジャズとは距離のあるジャンルとはいえ流通上はジャズと一緒に扱われるのだからもう少し気を遣えないものなんでしょうか? もうハイレゾ買う気がしない…。
Skrillex - Rock n’ Roll (Will Take You to the Mountain) / Scary Monsters and Nice Sprites
自分のライブラリに入っているやつ(vorbis限定)で一番うるさかったやつで、ReplayGainで-12.99 dBも下げられる。海苔。
これをReplayGainを有効にしつつ再生した時の波形は以下のようになります。
まとめ
T‐スクェア40周年おめでとうございます。