More than 5 years have passed since last update.

OpenCVの顕著性マップを試してみた。

Last updated at 2019-07-30Posted at 2019-01-07

1.はじめに

OpenCVのcontribに入っている顕著性マップを動かしてみました。
動かすまでに苦労したので、ちょっとまとめておきます。
※元論文は読み込んでいないので、詳しいアルゴリズムの解説はしていません。すみません。

OpenCVに実装されている顕著性マップのクラスは4つです。

No	関数名	入力	元論文
1	StaticSaliencySpectralResidual_create()	画像	[1]
2	StaticSaliencyFineGrained_create()	画像	[2]
3	ObjectnessBING_create()	画像	[3]
4	MotionSaliencyBinWangApr2014_create()	動画	[4]

1,2の関数は顕著性マップを出力しますが、3のBINGに関しては物体がありそうな場所を
バウンディングボックスで囲うというアルゴリズムなので、バウンディングボックスの情報が出力されます。
4のアルゴリズムは、動画の中で静止背景と動物体を切り分けるアルゴリズムなので、入力が動画になります。

これらを一つづ動かしていきました。
なお、動作環境は以下のとおりです。

1.1.動作環境

Python 3.5
OpenCV 3.4.3

2.Saliency

上記の表1,2の顕著性マップを画像として出力するプログラムを作成します。
1,2のどちらのクラスを使用して処理するかはコマンドライン引数で選択できるようにしています。

2.1.プログラム

##
# cording:utf-8
##

import argparse
import cv2

def argparser():
    parser = argparse.ArgumentParser()
    parser.add_argument("image", type=str, help="input image")
    parser.add_argument("--func", type=str, choices=['SR', 'FG'], default='SR')
    return parser.parse_args()

def main():

    args = argparser()

    img = cv2.imread(args.image)
    if img is None:
        exit()

    saliency = None
    if args.func == 'SR':
        saliency = cv2.saliency.StaticSaliencySpectralResidual_create()
    elif args.func == 'FG':
        saliency = cv2.saliency.StaticSaliencyFineGrained_create()

    if saliency is None:
        exit()

    (success, saliencyMap) = saliency.computeSaliency(img)
    saliencyMap = (saliencyMap * 255).astype("uint8")

    cv2.imshow('img',img)
    cv2.imshow('srn',saliencyMap)
    cv2.waitKey()

if __name__=='__main__':
    main()

2.2.結果

画像は,Pascal VOC2012のデータセットからいただきました。

2.2.1.原画像

2.2.2.SpectralResidual

ぼんやりした像ですが、物体が浮き出ています。

2.2.3.FineGrained

こちらは、エッジが出ていますが、雲なども浮き出ています。

3.BING

物体らしい場所のバウンディングボックスを出力するBINGのプログラムです。
こちらは、予め学習したフィルタのパラメータがOpenCVのフォルダ内に格納されているため、
そのフィルタを使用してバウンディングボックスを画像に描画して出力します。

学習済みのフィルタは、以下に格納されているのでコピーして使用するか、
このフォルダまでのパスをプログラムに記述してあげることで使用できます。

$ opencv_contrib-3.4.3/modules/saliency/samples/ObjectnessTrainedModel

3.1.プログラム

##
# cording:utf-8
##

import numpy as np
import cv2

def main():

    # 出力するバウンディングボックスの最小数
    bbox_num = 20

    img = cv2.imread('test.jpg')

    saliency = cv2.saliency.ObjectnessBING_create()

    # パラメータの格納されているディレクトリを指定する
    saliency.setTrainingPath("hogehoge/opencv_contrib- \
                              3.4.3/modules/saliency/samples/ \
                              ObjectnessTrainedModel")
    # 処理結果のバウンディングボックスの情報を保存するディレクトリを設定
    saliency.setBBResDir( "Results" )

    (success, saliencyMap) = saliency.computeSaliency(img)
    numDetections = saliencyMap.shape[0]

    # バウンディングボックスの描画処理
    output = img.copy()
    for i in range(0, min(numDetections, bbox_num)):
        (startX, startY, endX, endY) = saliencyMap[i].flatten()

        color = np.random.randint(0, 255, size=(3,))
        color = [int(c) for c in color]
        cv2.rectangle(output, (startX, startY), (endX, endY), color, 2)

    # 結果表示
    cv2.imshow("Image", output)
    cv2.waitKey(0)

    cv2.destroyAllWindows()

if __name__=='__main__':
    main()

3.2.結果

saliency.setTrainingPathに指定したディレクトリに３つのフィルタを入れておくと、３つのフィルタの結果を
すべて出力します。

$ Average time for predicting an image (MAXBGR) is 0.020916s
$ Average time for predicting an image (HSV) is 0.018478s
$ Average time for predicting an image (I) is 0.017292s

3.2.1.20bbox

bbox_numの値を20に設定した時の結果です。

3.2.2.100bbox

bbox_numの値を100に設定した時の結果です。

3.2.3.目視で確認

bbox_numの値を100に設定した時の結果から目視で、うまく検出できていたものを
１つだけ描画しました。

4.Motion

4.1.プログラム

##
# cording:utf-8
##

import cv2

def main():

    cap = cv2.VideoCapture('vtest.avi')
    if not cap.isOpened():
        exit()

    saliency = None

    # 結果動画の保存
    fourcc = cv2.VideoWriter_fourcc(*'XVID')
    writer = cv2.VideoWriter('output.avi',fourcc, 10.0, (1536,576))

    while True:
        ret, img = cap.read()
        if not ret:
            break  

        # 初期化
        if saliency is None:
            saliency = cv2.saliency.MotionSaliencyBinWangApr2014_create()
            saliency.setImagesize(img.shape[1], img.shape[0])
            saliency.init()

        # 入力はグレースケールのみ
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
        (success, saliencyMap) = saliency.computeSaliency(gray)
        saliencyMap = (saliencyMap * 255).astype("uint8")

        viewSaliency = cv2.merge([saliencyMap, saliencyMap, saliencyMap])
        
        view = None
        output = cv2.drawMatches(img, [], viewSaliency, [], [], view)

        writer.write(output)

        cv2.imshow("Frame", output)
        #cv2.imshow("Map", saliencyMap)
        if cv2.waitKey(1) & 0xFF == 27:
            break

    writer.release()
    cv2.destroyAllWindows()
    

if __name__=='__main__':
    main()

4.2.結果

動いている箇所が抜き出されます（背景差分との違いはなんだろう・・・）。
最初の数フレームが白飛びしているのは、初期化に使っているのか・・・
いろいろ疑問が出てきたので論文読んでみます。

まとめ

ちゃんとアルゴリズムの仕組みを知らずにとりあえず動かしてみた感しかない・・・OTL
論文をこれから読んで仕組みがわかったらしっかり書き直したいと思います。

[5] OpenCV Saliency Detection
[6] OpenCVのVideoWriterを使って画像から動画を作る。
[7] OpenCV:featurematching undefined
[8] GithubやQiitaに載せるgif形式の動画を作成する方法

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up