TensorFlowのResizeがよくわからなかったので視覚的にまとめてみた

  • 27
    いいね
  • 0
    コメント

はじめに

TensorFlowにはresizeするための関数がいくつもある。

調べてみるとTensorFlowでresize用の関数は以下の6つのようだ。

  • tf.image.resize_images
  • tf.image.resize_area
  • tf.image.resize_bicubic
  • tf.image.resize_bilinear
  • tf.image.resize_nearest_neighbor
  • tf.image.resize_image_with_crop_or_pad

ドキュメントを読むと説明は書いてあるのだが、いまいちピンとこない。

なので実際に試して視覚的に動作を理解したいと思う。

結論から言うと、tf.image.resize_imagesが以下の4つの機能を含んでいた。

  • tf.image.resize_area
  • tf.image.resize_bicubic
  • tf.image.resize_bilinear
  • tf.image.resize_nearest_neighbor

なので、試すのは以下の2つだけにする。

  • tf.image.resize_images
  • tf.image.resize_image_with_crop_or_pad

使う画像はサイズが256x256のレナさんとサイズが256x170のねこを使うことにする。
スクリーンショット 2016-09-06 11.17.15.png

では一つずつ試してみよう。

tf.image.resize_images(images, new_height, new_width, method=0, align_corners=False)

resize_imagesは画像を指定したmethodでnew_height x new_widthにリサイズしてくれる関数。

入力画像としては4Dのテンソル[batch, height, width, channels]か3Dのテンソル[height, width, channels]を与えることができる。4Dで与えれば画像の一括変換が可能。

返り値には、4Dのテンソル[batch, new_height, new_width, channels]か3Dのテンソル[new_height, new_width, channels]が返却される。こちらは入力のテンソルに対応して変化する。

まずは縮小してみる

以下の設定をして画像を128x128に縮小してみる。

tf.image.resize_images(image, 128, 128)

その結果が以下の通り。
スクリーンショット 2016-09-06 11.21.07.png

レナは問題なく縮小できているが、ねこの方は歪んでしまっている。
このように、元のアスペクト比がnew_width、new_heightと同じでない場合はリサイズ画像が歪む。これを避けるためには、resize_image_with_crop_or_padを使う。こちらについては後ほど試してみる。

methodを変えてみる

resize_images関数は以下の4つのmethodをとることができる:

  • ResizeMethod.BILINEAR: Bilinear補間(デフォルト)
  • ResizeMethod.NEAREST_NEIGHBOR: Nearest neighbor補間
  • ResizeMethod.BICUBIC: Bicubic補間
  • ResizeMethod.AREA: Area補間

一つずつ試して見た結果が以下の通り:
スクリーンショット 2016-09-06 12.08.59.png

拡大するとぼやけ具合が元画像と比べて微妙に違うことがわかる。それぞれ使いどころがあるようだ。

align_corners

以下はalign_cornersがFalseの場合とTrueの場合の画像:
スクリーンショット 2016-09-06 13.20.00.png

正直違いはよくわからないのだが、Trueだと入力を(new_height - 1) / (height - 1)に再スケールし、Falseだとnew_height / heightにスケールするようだ。Trueにすることで正確に入力と出力のすべての4隅の位置を正確に合わせるらしい。何のためにするのかはよくわからない。

tf.image.resize_image_with_crop_or_pad(image, target_height, target_width)

resize_image_with_crop_or_pad関数は、画像を指定したサイズ(target_height x target_width)になるようにトリミングand/orパディングしてくれる関数。

画像の中央をトリミングまたは黒画像をパディングすることによって、target_widthとtarget_heightに画像のサイズを変更します。

幅または高さがそれぞれ指定されたtarget_widthまたはtarget_heightよりも大きい場合、画像の中央をトリミングします。以下は256x170の猫画像をtarget_heightとtarget_widthに128x128を指定してリサイズした場合です。画像中央がトリミングされていることがわかります。
スクリーンショット 2016-09-06 13.53.39.png

幅または高さがtarget_widthまたはtarget_heightよりも小さい場合、黒画像を埋め込みます。
以下は256x170の猫画像をtarget_heightとtarget_widthに196x196を指定してリサイズした場合です。上下にパディングされつつ画像中央がトリミングされています。
スクリーンショット 2016-09-06 13.57.54.png

おまけ

resize_image_with_crop_or_padとresize_imagesを組み合わせることで、CroppingせずにPaddingだけ施した画像の縮小ができる。
test.jpg

やり方
1. 画像のサイズを取得
2. resize_image_with_crop_or_pad関数のtarget_heightとtarget_widthに長辺のサイズを指定
3. パディングされた画像をresize_imagesで縮小

参考

TensorFlow/image