この記事は Retty Inc. Advent Calendar 2017 7日目です。
昨日は @ryota-yamamoto さんによる Vue.jsでコンソールに絵を描く ~ ES6を添えて ~ でした。
#はじめに
こんにちは、Rettyでエンジニアをしておりますtamatsu(@koji-t )と申します。
去年【Darknet】リアルタイムオブジェクト認識 YOLOをTensorflowで試すという記事を書いたので今年はこのオブジェクト認識と画像のピンぼけ情報を使って一眼レフ風の料理写真を抽出したいと思います。
#一眼レフ風の料理写真とは?
抽出目的の一眼レフ風の料理写真とは以下のような写したい料理部にピントが合っており、背景やその他の部分はボケている写真のことです。
また、良い料理写真として料理の配置や、大きさも重要となってきますね。
美味しそう。。。
#抽出する際の手がかり
さて、このような画像を見つけるために、重要なことは
- 背景がボケているか
- 料理の位置
- 構図は色々あるかと思いますが、今回は料理位置が画像の中心付近、或いは下半分に来ているもの
- 画像内に占める料理の面積比
- アップしすぎや遠くに写っている物は弾きたい
などが挙げられます。(本当は色鮮やかだとか光のあたり具合が、、とかありますが一旦無視で)
#抽出方法
上記のような特徴を探すために今回は、Object detection(物体検出)とBlur detection(ボケ検出)という技術を用います。
簡単に説明すると物体検出とは画像内に「何がどこに写っているか」を求める技術で、ボケ検出は、その画像がボケているかどうかを判断するような技術となります。
つまり、今回やることは、物体検出でいい感じの場所に料理が写った画像を探し、その中からボケ検出で料理周辺がボケた画像を探す。ということです。
ちなみに、Object detectionにはDarknet YOLOを用い、Blur detectionにはOpenCVを用います。
#Darknet YOLOで料理検出 -学習-
まずは機械が料理を探せるように「料理とはなんぞや」を機械に学習させます。
現在Darknetはありがたいことに、Tensorflow版、chainer版、keras版、PyTorch版など、非常に多くのライブラリで試すことができます。
その中で今回僕が学習に使ったのは、「本家」です。はい、学習には安心と安全の本家を使ってみました。
学習の仕方はざっくり言うと、学習用の画像と、その画像内のどこに何が(今回は料理のみ)写っているのかというアノテーション情報が記載されたtxtファイル(教師データ)を用意し、cfgというファイルにネットワークの構成などを記載し、コマンドを叩いて待つ!という感じです。詳細は本家サイトをご覧ください。
学習用の画像はRettyのDBの中にある大量の画像からランダムに2,000枚選び、BBox-Label-Toolという便利なツールで以下のように手動でひたすら教師データを作りました。
マウスのドラッグ・アンド・ドロップでひたすら料理を囲っていく作業です。
学習が終わるとweightsファイルというモデルファイルが出来上がります。
気になる精度ですが、すいません、実はこれ昔作ったモデルで学習精度は覚えていません、、
このモデルを用いて、新たな画像に料理がどこに写っているのかなどを調べてみましょう。
#Darknet YOLOで料理検出 -テスト-
モデルが出来上がったので、実際に料理が検出できるか試してみます。以下に用意した10枚の画像に対して試してみます。
この10枚の中には一眼レフ風の画像も混ぜて、後に上手く抽出できるかも見てみます。
##実行環境
学習には本家を使いましたが、実行にはTensorflow版のdarkflowというものを使いました。
こちらは本家のモデルとcfgファイルをそのまま使用することができ、使うのも簡単です。以下のコードを実行すると指定したフォルダ内の画像に対して結果を出力することが出来ます。
from darkflow.net.build import TFNet
import cv2
from imutils import paths
import numpy as np
options = {"model": "cfg/yolo-face.cfg",
"load": "yolo-face_30000.weights", "thresulthold": 0.3, "gpu": 0.5}
tfnet = TFNet(options)
input_images = './input_images'
output_images = './output_images/'
for image_path in paths.list_images(input_images):
image_name = image_path.split('/')[-1]
if image_name[0] == ".":
continue
img = np.asarray(cv2.imread(image_path))
result_image = img
results = tfnet.return_predict(img)
for result in results:
if not result['confidence']:
continue
print(image_name, result)
result_image = cv2.rectangle(
img, (result['topleft']['x'], result['topleft']['y']), (result['bottomright']['x'], result['bottomright']['y']), (0, 0, 255), 5)
cv2.putText(result_image, str(result['confidence']), (result['topleft']['x'], result[
'topleft']['y'] + 30), cv2.FONT_HERSHEY_TRIPLEX, 1, (0, 0, 255))
cv2.imwrite(output_images + image_name, result_image)
optionsに使うモデルや、検出の際の閾値、gpuの使用率などを指定することができ、tfnet.return_predictで画像に対して物体検出が出来ます。
左上の数字はaccuracyです、上手く料理を検出出来ていることがわかります。
ちなみに10枚目の画像はRettyのオフィスの写真です。
ボケ検出
次にボケ検出です。ボケ検出にはBlur detection with OpenCVを用います。
これは画像をグレースケールに変換し、3 x 3のラプラシアンカーネルで畳み込んで標準偏差の二乗を計算し、その値によってボケているかどうかを判断するというものです。
cv2.Laplacian(image, cv2.CV_64F).var()
という1行で計算出来ます。
結果が低いほどボケているらしいのですが、今回は複数の画像で試して調整し、閾値を100にしました。
ボケ検出の使い方ですが、画像のどこがボケているのかという情報が欲しいので、画像を正方形にリサイズ後64分割し、分割した領域一つ一つに対してボケているか判断します。最終的にボケた領域が画像の周辺部に多いものが一眼レフ風画像の候補となります。
先程の10枚の画像をそれぞれ64分割し、ボケた領域を白で塗りつぶしたものが以下となります。
どうでしょうか、上段左から二枚目のように紛らわしい物もありますが一眼レフ風の画像は綺麗に背景部分が白で塗りつぶされた気がします。
#物体検出とボケ検出2つを組み合わせて一眼レフ風画像抽出
物体検出で料理を検出した10枚のうち、料理の位置、画像内に占める料理の面積比を考慮すると生き残る画像は以下になりました。
ここから料理周辺部がボケた画像を絞り込むと以下の2つが生き残りました。
お寿司の画像は残念ながら検出された料理の面積が大きく、弾かれてしまいましたね。
#まとめ
どうでしょうか?今回内部で使った、面積比の値や中心位置、ボケ領域の分析部分は省きましたが、パラメータを調整することで確実に微妙な写真を弾くことが出来ます。
また、あくまで候補を抽出するのが今回の主題であり画像が多くなってくると例外も多く、機械のみで一発で良い画像だけに絞り込むようことはまだまだ出来ておらず、最後には人の手を借りることになるのが実情です。が、膨大な画像から対象外を一気に取り除くことが出来るので画像を選別する際の効率化には便利な技術でした。
皆さんも気になったら遊んでみてはいかがでしょうか!
明日は、 @saku の「swiftでHTMLからNSAttributedStringを作る方法」です、お楽しみに!