この記事でやること
画像中の灰色、黒、白の部分をすべて黒に塗りつぶす。それ以外の場所は元の色のままにする。
背景が灰色の画像
そんな画像そもそもああるのか?というのはさておき、そんな需要が私にあった。
そこでその技術をまとめたい。
使う言語はPython。使うライブラリはcv2, numpy, matplotlib。
使うエディタはjupyter notebook。
そもそも画像とは
画面に映っている画像は、そもそもは「x,y軸を持つ平面上に画素を設置し、R(赤)G(緑)B(青)の三色を振り分けたもの1」である。基本的にはこのRGBの強さの塩梅を調整して色を出力している。
「灰色(グレー)」とは
画像を扱う上で「灰色」についてどんな色なのか考察してみると灰色とは「RGBの値がそれぞれほとんど同じ値をとっている色」である。ここでいう「灰色」とは、ざっくりと「白と黒を混ぜた色」であり、白と黒もこの範疇に含める。
どのように色のついた部分を抜き出すか
これは複数通りの考え方があるが、スタンダードな手法として「灰色の部分を区別する」もしくは「灰色ではない部分を区別する」というものがあげられる。これらは似ているようで、考え方や実際にプログラムを設計する際には異なる場合があったり、方針が迷子になってしまわないように、これを念頭に置いてプログラムを作成する必要がある。
今回は「灰色である部分を見つけ出す」という方針でプログラムを考えた。
これを使い、どの画素の色(画素値(R,G,B))を黒((R,G,B)=(0,0,0))にするか、というマスクを作る。そのマスクを使い、目的である「画像中の灰色、黒、白の部分をすべて黒に塗りつぶす」を達成する。
灰色の特徴
灰色の特徴として、上にも挙げたように「RGBの値がそれぞれほとんど同じ値をとっている色」ということが考えられる。そこで、「RGBの色の強さの値が近いものを灰色として認識する」というプログラムを作成する。
灰色の検出の指標
「RGBの色の強さの値が近いもの」としてどんな指標を考えるか。
考えられる指標はいくつかあるが今回はシンプルに「ある画像上の座標のRGBの3値の最大値・最小値の差が小さいもの」とした。本当は分散を考えたりするのもありだと思うが、データ上、扱いやすいので。
プログラムの実装
まずはライブラリをインポートして、画像を読み込む。画像処理はopencvを使う。画像はプログラムファイルと同じディレクトリにtest.jpg
という名前で保存しているとした。画像はイラストやとフリー素材を組み合わせて作成。
諸々のimport
import opencv
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
original_image=cv2.imread("./test.jpg")
conv_img = cv2.cvtColor(original_image, cv2.COLOR_BGR2RGB)
画像の確認
conv_img
の画素を操作する。基礎事項としてopencvの画像の配列形式がどうなっているのか説明すると、
numpyの三次元array形式で画像の配列imgに対し、img[縦][横][色]の順に並んでいる。色については、デフォルトでは0:青, 1:緑, 2:赤の順番で並んでいるが、今回はpyplotで逐次表示させる都合上、0:赤, 1:緑, 2:青の順番に並び替えている2。今回使っている画像は縦:621, 横:877である。
画素の操作
このようになっている。
マスクの作成
ここからは、灰色の背景を除去するためのマスクの作成をする。
まず画像imgに対して座標(x,y)=(i,j)を考えると、img[j][i]にはRGBの三つ色の情報が含まれている。
これを利用して、マスクを作成する。方針で考えたように「RGBの最大値と最小値の差が小さい画素」を抽出するために「RGBの最大値と最小値の差」の二次元配列を作成する。
mask=np.zeros((conv_img.shape[0],conv_img.shape[1]))
for i in range(conv_img.shape[0]):
for j in range(conv_img.shape[1]):
mask[i][j]=conv_img[i][j].max()-conv_img[i][j].min()
plt.imshow(mask)
plt.gray()
plt.show()
ここで作成された画像の「黒い部分」がもともと「灰色、黒、白」だった部分にあたる3。
マスクを元画像に適用する
マスクを元画像に適用する。「色がばらついていない度合」によってどこを「黒く表示するか」が変わる。今回は色のばらつきが5以下の部分を「灰色」として黒く表示する。そのためにmask
をいったん加工し、mask[i][j]
の値が5以下の時、0
、それ以外の時1
にする。
まず、新しい画像にするための三次元配列としてuint8
形式の三次元配列を用意する。
after_process=np.zeros((conv_img.shape[0],conv_img.shape[1],3),np.uint8)
その後、mask
の画素値に着目し、条件を満たしていれば「元画像と同じ画素」、満たしていなければ「黒(0,0,0)」をその画素に代入する。
for i in range(conv_img.shape[0]):
for j in range(conv_img.shape[1]):
if mask[i][j]<=5:
after_process[i,j]=(0,0,0)
else:
after_process[i][j]=conv_img[i][j]
こうやって背景を黒で染めた画像を作成することができた。
犬の周りがにじんでいるのは、いわゆるjpgのにじみ、のはず。
まとめ
灰色の背景を持つ画像から、背景を除去することができた。
これを応用することで特定の色の背景を除去したりできるはずである。もちろん、色の特徴をうまく表す必要がある。
発展形
mask
の値を0 or 1にし、元画像の色ごとに掛け算をする形でも同様のことができる。これは「黒」が(R,G,B)=(0,0,0)であるからできることである。