7
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

投影変換で画像を変形する ~モニタ画面をハックする~

Last updated at Posted at 2021-01-03

はじめに

以前の私の記事

ではアフィン変換を回転にしか使わなかったので、今回は別の活用方法を示すとともに投影変換でも遊んでみる。

アフィン変換で平行四辺形を変形する

アフィン行列

\begin{pmatrix}
x' \\
y' \\
1
\end{pmatrix}
=
\begin{pmatrix}
a & b & c \\
d & e & f \\
0 & 0 & 1
\end{pmatrix}
\begin{pmatrix}
x \\
y \\
1
\end{pmatrix}

は、原点(0,0)(c,f)に、単位ベクトル (1,0)(0,1) がそれぞれ (a, d)(b, e)に変わる、すなわちxy平面がx'y'平面に変わることを意味している。
それは二つのベクトルからなる任意の平行四辺形が別の平行四辺形に変形するということだし、より根源的に考えれば任意の三角形が別の三角形に変形するということでもある。

アフィン行列を作る cv.getAffineTransform(src, dst)

  • src 三角形の頂点。float32のnumpy配列である必要がある。
  • dst 変更後の3点。srcと同様、float32のnumpy配列である必要がある。

高さ300・幅200の画像サイズを定義する3点、すわなち
pts1 = [(0,0), (200,0), (0,300)] を、別の3点
pts2 = [(50,50), (250,100), (200,300)] に変換することを考える。(x,y)(x',y') の変化が3個あるのでa,b,c,d,e,f がすべて求まり、アフィン行列が決まる。
自力では計算してないが、cv.getAffineTransform()によるとアフィン行列は

[[ 1.          0.5        50.        ]
 [ 0.25        0.83333333 50.        ]]

となる。ソースは略。これによる画像の変形は以下の通り。
affine_1.png
(0,0)(50,50)に、(200,0)(250,100)に、(0,300)(200,300)になっていることがわかる。
このとき、平行四辺形のルールにより(200,300)(400,350)になる。
(0,0)から始まっているから頂点は(200,300)でなく(199,299)だろというツッコミはなしでお願いします。
ちなみに元画像は世界を救うため最後の戦いに挑むマッチョ2(縦写真)(マッスルプラス)だ。

投影変換

より自由度が高い、任意の四角形を別の四角形に変形する変換を投影変換という。
投影行列は

\begin{pmatrix}
x' \\
y' \\
1
\end{pmatrix}
=
\begin{pmatrix}
a & b & c \\
d & e & f \\
g & h & 1
\end{pmatrix}
\begin{pmatrix}
x \\
y \\
1
\end{pmatrix}

というかたちをしている。

投影行列を作る cv.getPerspectiveTransform(src, dst)

  • src 四角形の頂点。float32のnumpy配列である必要がある。
  • dst 変更後の4点。srcと同様、float32のnumpy配列である必要がある。

アフィン変換のcv.getAffineTransform()と同じだな。

画像を投影変換する cv.warpPerspective(src, M, dsize)

こちらもアフィン変換のcv.warpAffine()と同じ。

実践

高さ300・幅200の画像の4点、すなわち
pts1 = [(0,0), (0,300), (200,300), (200,0)] を、別の4点
pts2 = [(50,100), (100,400), (300,300), (200,50)] に変換することを考える。8元連立方程式なんて自力で解く気もないが、cv.getPerspectiveTransform()によると投影行列は

[[ 8.33333333e-01  6.94444444e-02  5.00000000e+01]
 [-2.29166667e-01  6.11111111e-01  1.00000000e+02]
 [ 4.16666667e-04 -9.72222222e-04  1.00000000e+00]]

となる。そしてその変化を画像で見るとこうなる。各頂点の変換具合がわかるだろう。
perspective1.png

ソース

ソースは以下の通り。二次元配列から各列の最大値を求めるのに無名関数lambdaを使ったりmatplotlib.pyplotで軸を共有してグラフを並べたりと今の私にはオーバースペックな技を使っている。

import cv2
import matplotlib.pyplot as plt
import numpy as np

img1 = cv2.imread("mustle.jpg")
h1, w1 = img1.shape[:2]

pts2 = [(50,100), (100,400), (300,300), (200,50)]
w2 = max(pts2, key = lambda x:x[0])[0]
h2 = max(pts2, key = lambda x:x[1])[1]

pts1 = np.float32([(0,0), (0,h1), (w1,h1), (w1,0)])
pts2 = np.float32(pts2)

M = cv2.getPerspectiveTransform(pts1,pts2)
img2 = cv2.warpPerspective(img1, M, (w2,h2), borderValue=(255,255,255))
print (M)

fig, (ax1, ax2) = plt.subplots(1, 2, sharex=True, sharey=True)
ax1.imshow(img1[:,:,::-1])
ax2.imshow(img2[:,:,::-1])
plt.show()

応用例

長方形を不等辺四角形にするだけでなく、斜めから撮影して不等辺四角形になってしまった要素(絵画など)を正面から撮影したかのように取り出すことができる。もちろん、取り出したい長方形のサイズ(縦横比)は把握しておく必要がある。

Shuto選手VSときど選手の決勝ステージの様子 - CAPCOM Pro Tour 2019 アジアプレミアの写真素材(ぱくたそ)で遊んでみよう。

元画像 sf5.jpg
st5.jpg
取り出した画像
cut_image.jpg

このモニター画像を取り出し、別の画像に置き換えてみる。
画像は命を懸けてあっちむいてホイするマッチョ(マッスルプラス)だ。ゲーム画面と同じアスペクト比16:9でトリミングしておく。

事前に用意しておいた画像 macho.jpg
macho.jpg

これを先ほど指定した不等辺四角形に変形する。

中間画像
front.jpg

それを元画像に合成すれば、超リアルな対戦格闘ゲームで戦う光景のできあがりだ。

画面がハックされた画像
hacked_image.jpg

中間画像まではうまく作れているのだが、合成結果だとあちこちに赤いノイズが出てしまっている。
白地の上に合成したり透明色をほかの色に設定したりしても同様だったので合成の悪さではないと思うのだが、原因はよくわからない。

一連の操作をアニメGIF化
sf5_anim.gif

ソース

以前の記事「OpenCVでマウスイベントを取得する ~GUIな集中線ツールを作る~」ではメインルーチンとコールバック関数の間をグローバル変数でやりとりしていたが、今回はcv2.setMouseCallback()paramを活用して少しだけエレガントにしてみた。
上のアニメGIFにもあるようにカーソル位置だけでなく四角形の辺も表示させている(最後の1点を決めるときはちゃんと閉じた四角形になっている)し、右クリックによる「一手戻る」も実装しているし、なかなか気の利いたコードになったのではないかと満足している。

hack_image.py
import numpy as np
import cv2
import random

def draw_quadrangle(event, x, y, flags, param):
    img = param["img"]
    pts = param["pts"]
    pic = param["pic"]
    
    color = (random.randint(0,255), random.randint(0,255), random.randint(0,255))
    img_tmp = img.copy()

    if event == cv2.EVENT_MOUSEMOVE and len(pts) <= 3:
        h, w = img.shape[:2]
        cv2.line(img_tmp, (x,0), (x,h-1), color)
        cv2.line(img_tmp, (0,y), (w-1,y), color)        
        cv2.imshow("image", img_tmp)
        
    if event == cv2.EVENT_LBUTTONDOWN:
        pts.append((x, y))
        if len(pts) == 4:
            h, w = img.shape[:2]
            ph, pw = pic.shape[:2]
            pts1 = np.float32(pts)
            pts2 = np.float32([[0,0],[0,ph],[pw,ph],[pw,0]])

            M1 = cv2.getPerspectiveTransform(pts1,pts2)
            tmp = cv2.warpPerspective(img,M1,(pw,ph))
            #cv2.imwrite("cut_image.jpg", tmp)

            M2 = cv2.getPerspectiveTransform(pts2,pts1)
            transparence = (128,128,128)
            front = cv2.warpPerspective(pic, M2, (w,h), borderValue=transparence)
            img = np.where(front==transparence, img, front)
            #cv2.imwrite("front.jpg", front)
            cv2.imshow("image", img)
            #cv2.imwrite("image.jpg", img)

    if event == cv2.EVENT_RBUTTONDOWN and len(pts)>0:
        del pts[-1]
        
    if 0 < len(pts) <= 3:
        for pos in pts:
            cv2.circle(img_tmp, pos, 5, (0,0,255), -1)

        cv2.line(img_tmp, pts[-1], (x,y), color, 1)
        if len(pts)==3:
            cv2.line(img_tmp, pts[0], (x,y), color, 1)

        isClosed = True if len(pts)==4 else False
        cv2.polylines(img_tmp, [np.array(pts)], isClosed, (0,0,255), 1)
        cv2.imshow("image", img_tmp)

def main():
    img_origin = cv2.imread("sf5.jpg")
    pic = cv2.imread("macho.jpg")
    pts = []
    cv2.imshow("image", img_origin)
    cv2.setMouseCallback("image", draw_quadrangle, param={"img":img_origin, "pts":pts, "pic":pic})

    cv2.waitKey(0)
    cv2.destroyAllWindows()

if __name__ == "__main__":
    main()

ギャラリー

###藤子・F・不二雄ミュージアム
藤子・F・不二雄ミュージアムの窓枠がドラえもん第1話「未来の国からはるばると」の原稿をデザインしているというのは広く知られた事実だが、どれほど忠実に再現されているのか確認してみた。

ミュージアム外観(Googleストリートビューより)
f_museum.jpg
合成結果
f_museum_comic.jpg

んー、悪くはないのだけど、よりによって最初のページの再現度が低いのは残念だ。

比較
dora_comparison.jpg

悪の組織から宣戦布告を受け、ざわつく国際会議

aybabtu.jpg
All your base are belong to us!
元画像はこちら

野外映画のスクリーンでダライアスをプレイ

darius.jpg
元画像はこちら。「つくば科学博のソニージャンボトロンでロードランナーをプレイ」を作ろうと思ったのだが、ツイッターで似たネタがあったのでやめた。

山手線の三連サイネージでダライアスをプレイ

元画像「交通広告ナビ 合成結果
train_ad.jpg train_darius.png

遊びづらそうだ。
実用的な例として斜めから撮らざるを得ない駅の超長いポスターを長方形に復元する事例を思いついたのだが、適した画像を見つけられなかった。

終わりに

これと矩形検出を組み合わせれば四角形を選択する必要もなくなるな。本来の画像サイズ(縦横比)を知っておく必要があることに変わりはないが。

参考記事

  • OpenCV-Python 演習

    コールバック関数のparamに辞書を渡すことで、コールバック関数内での辞書の変更が呼び出し元にも反映されるとのこと。これでグローバル変数的な使い方をしている。

    ググって見つけた大阪工業大学西口研究室の学生向けコンテンツなのだが、部外者が見ちゃっていいのかしら(トップページから演習にアクセスしようとするとユーザー名とパスワードを聞いてくる)。
7
7
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?