はじめに
画像を用いたディープラーニングを行おうとした場合、大量の画像データが必要となります。そのため、人にお願いして画像を集めたりしますが、集めた画像データの中にはピンボケ写真があったりします。
『人に頼んでて文句言うな!』と言われそうですが・・・
正しい学習データを集めるには事前にピンボケ画像を取り除きたいと思ったので、ピンボケ画像の判定方法についてざっと調べてみると、
- 高速フーリエ変換(FFT:Fast Fourie Transform)で判定
- ディープラーニングで実装
- OpenCVで実装
の3つがありましたのでそれぞれの特徴を記載していきます。
1.高速フーリエ変換(FFT:Fast Fourie Transform)で判定
ピンボケ写真は画像のエッジ部分が不鮮明なので高周波成分を含みません。
高速フーリエ変換(FFT:Fast Fourie Transform)を活用することで画像のスペクトル分布を求めることができます。
ピンボケの場合はパワースペクトル※が低いので周波数が0になりますが、ピントが合っている場合はパワースペクトルが高周波数側まで伸びます。
※パワースペクトルとは、時間信号 x(t)のパワーを、FFT分析することによりある周波数バンド幅(すなわち周波数分解能 Δ f )毎のパワーをもとめ、横軸を周波数としてグラフ化しているものです。
https://www.onosokki.co.jp/HP-WK/c_support/faq/fft_common/fft_spectrum_6.htm
この差を求め、ピントがズレているか?あっているか?という判定を行うことで、カメラのオートフォーカスに応用されています。
こちらの特許はオートフォーカス装置について請求されています。ピンボケ写真の判定では請求されていないので、この特許を応用して、与えられた画像に対して、FFTを行い周波数を違いを求めることでピンボケ写真かそうでないかの判定ができるのではないか?と思います。
※このあたりの特許に詳しい方問題があればご指摘ください。
なお、コンピュータでフーリエ変換を実装する場合、本来であれば離散フーリエ変換 (DFT:Discrete Fourier Transform) を利用しますが、PCでの計算では時間がかかるため高速に計算するアルゴリズムとして、FFTを用いるのが一般的なようです。
magnitude_spectrum の計算結果が信号の周波数スペクトルの大きさを返すので、これを使うのか・・・
2.ディープラーニングで実装
ピントばっちり画像とピンボケ画像を大量にあつめて学習させて判断します。
ピンボケ画像はバッチリ画像から作ってしまえば良いという発想で・・・
【学習イメージ】
ピントばっちりの元画像→FFTでピンボケに変換→与えられた画像をチェックしてピンボケかそうでないかを人が判断して学習用データを作成→学習
【判定イメージ】
未学習のピントばっちりの元画像→FFTでピンボケに変換→与えられた画像→ディープラーニングにかけて判定
参考情報
http://tech.unifa-e.com/entry/2017/03/10/124033
なかなか面白い。でもピンボケにはボケ具合にはいろいろあるように思います。単純にピントが合わなくてボケてたり、手振れでボケてたりするので単一な画像変換の手法だけではダメなような気がします。実際に集めた画像データで学習させるのがいいかも?
3.OpenCVで実装
OpenCVを利用したピンボケ判定方法としてラプラシアン微分を活用する方法があります。
これは画像をグレースケールに変換し、3 x 3のラプラシアンカーネルで畳み込んで標準偏差の二乗を計算し、その値によってボケているかどうかを判断するというもの。
ラプラシアン微分によってエッジ検出する方法として、
cv2.Laplacian(image, cv2.CV_64F).var()
を発行して閾値より低い場合はピンボケだと判断することが可能です。
直球ですね。
でも、認識したい場所にフォーカスがあっている前提であればよいかもしれませんが、認識したい場所以外にフォーカスがあっている場合は想定した結果が得られないかもしれません。
まずはディープラーニングでの実装と、このララプラシアン微分のどちらが精度が高いか?実装・運用が楽か?という感じでしょうか?
参考
ラプラシアン微分によってエッジ検出する方法
せっかくなのでソースコード追加。(2018.9.4)
# -*- coding: utf-8 -*-
import cv2
path ="images/"
sub_dir="report/"
image_file = "blur.jpg"
image_path = path + image_file
out_image_path = path + sub_dir + image_file
image = cv2.imread(image_path) # 画像ファイル読み込み
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) # グレースケースに変換
laplacian = cv2.Laplacian(gray, cv2.CV_64F) #ラプラシアン値
print("laplacian.var()の値は?",laplacian.var())
if laplacian.var() < 100: # 閾値は100以下だとピンボケ画像と判定
text = "Blurry"
else:
text = "Not Blurry"
cv2.putText(image, "{}: {:.2f}".format(text, laplacian.var()), (10, 30),
cv2.FONT_HERSHEY_SIMPLEX, 0.8, (0, 255, 0), 3)
cv2.imwrite(out_image_path, image)
その他の参考情報
ピンボケ判定に関する特許