LoginSignup
4

More than 1 year has passed since last update.

posted at

updated at

Organization

[iOS] Visionフレームワークの"Saliency"を用いて画像の表示領域をいい感じにしてみる

ミクシィグループ Advent Calendar 2020 2日目の記事になります。

概要

Twitterで画像を投稿したときに「いい感じのところを勝手に表示してくれる」ことに少し前に気づいた。

どうやら結構前からの仕様のようで、それはそれで困っている人もいるようだが()、自分としては面白いなと思いつつ、WWDC 2019の"Understanding Images in Vision Framework"という動画に出てきた"Saliency"というものについて思い出し、いつか自分でもこういったことをやってみたいと思っていたので試してみた。

"Saliency"とは

"Understanding Images in Vision Framework"の"Saliency"について大雑把にまとめておくと、

  • Saliency = 「顕著性」(という日本語が自分の中ではしっくりきた。他に調べた感じだと「突出」「特徴」など)
  • Visionフレームワークで画像のSaliency(顕著)な領域を取得することができる
    • Saliencyには2種類あって、「attension based」なものと「objectness based」なもの
      • attension based = 人間の知覚に近いもの
      • objectness based = 物体を分けるための機械的なもの

以下、動画のスライドのスクショを用いて補足。

blog_1.png
(↑ 「attension based」なもの(中央)と「objectness based」なもの(右)の違い。前者が「人の顔」を捉えているのに対して、後者は「人全体」を捉えている)

blog_2.png
(↑ 「attension based」なもの(中央)だと、「人の動き」(歩こうとしている方向の空間)も捉えていることがわかる)

blog_4.png
(↑ "Saliency"を利用したユースケースが2つ紹介されていた。「画像のフィルター」(上のスクショ)と「スライドショーのズームアニメーション("Saliency"の領域に寄っていく)」)

実装してみる

"attension based" or "objectness based"?

きっかけはTwitterの画像投稿ではあったが、現在自分が開発している「家族アルバム みてね」でよく耳にする問題 = 「人物が写った縦長の解像度の写真を正方形のサムネで表示したときに、その人物の顔が切れてしまって少し残念」といったような問題、これの改善ができないかとずっと思っていたが、であるならば"attension based"なものが良いだろうと思いこの記事では"attension based"を採用することにした。

サンプルコード

"Saliency"の領域を取得すること自体はかなり簡単に書ける(先の動画のサンプルコードのまま)。

let image = squareImageView.image
let handler = VNImageRequestHandler(cgImage: image!.cgImage!, options: [:])
let request: VNImageBasedRequest = VNGenerateAttentionBasedSaliencyImageRequest()
request.revision = VNGenerateAttentionBasedSaliencyImageRequestRevision1

try? handler.perform([request])
guard
    let result = request.results?.first,
    let observation = result as? VNSaliencyImageObservation
else {
    fatalError("missing result")
}

guard let objects = observation.salientObjects else { return }
for object in objects {
    print(object.boundingBox)
}

:warning: 注意としては、最後のobject.boundingBoxで取得できるCGRectの値の原点は「左下」であるということ(先の動画でも触れられている(下画像))
:warning: 最近届いたMacbook Pro(M1チップ搭載)で意気揚々と動かしてみたが、なぜかこのboundingBoxが取得できなかった...XcodeのバージョンなのかMacOSのバージョンなのかなど何が原因かはわかっていないが残念

blog_3.png

サンプルコードを動かしてみる

さて、実際にいくつかの画像で"attension based"な"Saliency"の領域がどのように取得できるのかみていくこととする
(以下自分の顔写真がたくさん出てきます。ウザい顔しているものもあると思うのですがご了承ください :bow: )。

画像 補足・感想
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 08.59.26.png 普通に顔の領域が取得できている(もちろんマスクも問題なし)
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 08.59.31.png 思ったより胴体も含まれている? :thinking:
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 08.59.37.png 挙げた手も含まれている
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 08.59.44.png 歩く様子。先に話したWWDCの動画のように「人の動き」を含めた領域を取得できるかと思ったが、、、いくつか似たような画像で試したが、基本的には画像全体の領域が取得されるようだった
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 08.59.49.png ただの景色でも試してみた。こちらも基本的には画像全体の領域が取得される
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 08.59.56.png 手前のホオズキにフォーカスして撮った写真だが、、、後ろの人(ボヤけているが)も含めた領域が取得されているようにも見える
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 09.00.03.png 人物(嫁)の領域だけが取得される想定だったが、、、後ろで光っている非常ドアなんかも含まれてそう? :thinking:
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 09.00.13.png 二人の人物が写った写真だと、二人まとめた領域が取得されるぽい(emojiは最後に重ねたもの)
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 09.00.18.png 手と物体であればどちらが取得されるのだろうと思い試してみたが、どちらも含む領域が取得された
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 09.00.25.png 何か適当なオブジェクト
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 09.00.34.png 同上

画像一覧サムネに適用してみる

「人物が写った縦長の解像度の写真を正方形のサムネで表示したときに、その人物の顔が切れてしまって少し残念」

と先に書いたが、では実際にどのように改善(改悪の可能性もある)されるのか、「画像一覧サムネ」に適用して実験してみる。

なお、「取得したSaliencyの領域から、どのように画像を正方形に切り抜くか」のアルゴリズムはそれはそれで考えることが多く、ここではシンプルに以下のようにして切り抜くこととした。

- 取得したSaliencyの領域を、中心を変えずに正方形にする
- その正方形のwidth/heightが、元画像の短辺の80%よりも小さければそこまで拡大する
    - 取得したSaliencyの領域が小さいときに「拡大されすぎてしまう」という問題を避けるため
- その結果、元画像の領域から外れてしまう場合は、外れないように調整してあげる
- それでもダメな場合は諦める(何も調整しない)

以下、beforeがいわゆる「.scaleAspectFill」でサムネイルを表示したもの、afterが「"Saliency"を利用し上のアルゴリズムで切り抜いて」サムネイルを表示したもの。

before after
Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 22.29.51.png Simulator Screen Shot - iPod touch (7th generation) - 2020-11-30 at 22.29.09.png

それぞれの元画像は以下のようなものになっている

IMG_0918.png

いくつかの写真の表示領域が調整されていることがわかる。やってみての感想は、

  • 顔が中心の方に来る
    • サービスの要件次第では良さそう
  • 悪い面としては、勝手に調整される分、どの画像のサムネなのかがわかりづらくなったこと
  • そういった視点からも、今回は「画像一覧サムネ」に適用してみたが、サムネイルとかではなくそれ自体がコンテンツのもの、例えばWidgetなんかに適用してあげた方が有用なのかなと思った

最後の「Widgetなんかで有用なのでは」というのは、やってみるまであまり考えてなかったが、確かにAppleの「写真」アプリのWidgetって、、、似たように表示領域の調整をしているように見えるのだがどうなのだろうか?(下画像。明らかにただ「中央」を表示しているだけではない)

元画像 Widget
image.png IMG_1172.PNG

パフォーマンスはどうか?

"Saliency"の領域を取得する処理はパフォーマンスが気になるところ。
自分が計測してみた感じだと、

  • 画像サイズ(= width * height)に等倍の処理時間がかかる
  • なぜか初回はちょっとだけ時間がかかる(Vision側で何かセットアップみたいなコードが動いている? :thinking:

以下、初回以降の計測結果(iPhone XSにて実行。3回動かしてみての平均時間)。要件次第だが、十分実用的な数字だとは思う一方無視していい数字でもないなという印象。

画像サイズ(width, height) かかった時間(sec)
(3024.0, 4032.0) 0.4136
(887.0, 1182.0) 0.0383

まとめ

まあ本気でやろうと思ったら、バックエンドでこのような解析を行い、その結果をiOS/Androidなどで共有するのが普通かとは思います。
が、ちょっとしたユーザ改善なんかのために、VisionフレームワークなりMLまわりの技術をアプリ内で完結する形で今後利用できないかと考えていたので、今回のリサーチができたのは良かったかなと思った。

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
4