#まえがき
- 以前, Tensorflowの学習済みMNISTが動くROSのノードを作った.
- 紹介記事をQiitaに, コードをGitHubにあげた.
- 今回は上のQiita記事で書ききれなかったコード解説の部分を書く.
#結果
細かいコード解説に入る前に実行するとどんなことができるかだけを先に示しておく.
こんな感じで右がカメラから入力された手書きの9
左が学習済みのCNNからの推定結果であり, 9を見てちゃんと9を返している.
今回はこんな感じのCNNがROS上で動かせるようになるコードを書いた.
実行方法や準備等の詳細は以前のQiita記事参照のこと.
#処理の概要
処理の概要を復習しておくと
- CNNを構成して学習済みファイルの読み出し
- カメラノードから画像情報をSubscribe
- 画像情報をMNISTのCNNに入るよう, 28*28に圧縮&白黒反転2値化
- CNNに画像を見せて数字を推定
- 結果をPublish
という感じである.
#コード全体
コード全体は以下のようになる.
import rospy
from sensor_msgs.msg import Image
from std_msgs.msg import Int16
from cv_bridge import CvBridge
import cv2
import numpy as np
import tensorflow as tf
def weight_variable(shape):
initial = tf.truncated_normal(shape, stddev=0.1)
return tf.Variable(initial)
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
return tf.Variable(initial)
def conv2d(x, W):
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1],
padding='SAME')
def max_pool_2x2(x):
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
strides=[1, 2, 2, 1], padding='SAME')
def makeCNN(x,keep_prob):
# --- define CNN model
W_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])
h_conv1 = tf.nn.relu(conv2d(x, W_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)
W_conv2 = weight_variable([3, 3, 32, 64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)
W_fc1 = weight_variable([7 * 7 * 64, 1024])
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7 * 7 * 64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])
y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
return y_conv
class RosTensorFlow():
def __init__(self):
self._cv_bridge = CvBridge()
self._sub = rospy.Subscriber('image', Image, self.callback, queue_size=1)
self._pub = rospy.Publisher('result', Int16, queue_size=1)
self.x = tf.placeholder(tf.float32, [None,28,28,1], name="x")
self.keep_prob = tf.placeholder("float")
self.y_conv = makeCNN(self.x,self.keep_prob)
self._saver = tf.train.Saver()
self._session = tf.InteractiveSession()
init_op = tf.initialize_all_variables()
self._session.run(init_op)
self._saver.restore(self._session, "model.ckpt")
def callback(self, image_msg):
cv_image = self._cv_bridge.imgmsg_to_cv2(image_msg, "bgr8")
cv_image_gray = cv2.cvtColor(cv_image, cv2.COLOR_RGB2GRAY)
ret,cv_image_binary = cv2.threshold(cv_image_gray,128,255,cv2.THRESH_BINARY_INV)
cv_image_28 = cv2.resize(cv_image_binary,(28,28))
np_image = np.reshape(cv_image_28,(1,28,28,1))
predict_num = self._session.run(self.y_conv, feed_dict={self.x:np_image,self.keep_prob:1.0})
answer = np.argmax(predict_num,1)
rospy.loginfo('%d' % answer)
self._pub.publish(answer)
def main(self):
rospy.spin()
if __name__ == '__main__':
rospy.init_node('rostensorflow')
tensor = RosTensorFlow()
tensor.main()
#コード解説
import部分
import rospy
from sensor_msgs.msg import Image
from std_msgs.msg import Int16
from cv_bridge import CvBridge
import cv2
import numpy as np
import tensorflow as tf
今回はPythonでROSのノードを立てたかったので, rospyを入れた.
また、画像を読み込むためのImageと書き出すためのInt16, ROSのメッセージファイルをOpenCVに渡すためのcv_bridge, OpenCV, Numpy, 機械学習のためのTensorflowを入れた.
CNN定義部分
def weight_variable(shape):
initial = tf.truncated_normal(shape, stddev=0.1)
return tf.Variable(initial)
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
return tf.Variable(initial)
def conv2d(x, W):
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1],
padding='SAME')
def max_pool_2x2(x):
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
strides=[1, 2, 2, 1], padding='SAME')
def makeCNN(x,keep_prob):
# --- define CNN model
W_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])
h_conv1 = tf.nn.relu(conv2d(x, W_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)
W_conv2 = weight_variable([3, 3, 32, 64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)
W_fc1 = weight_variable([7 * 7 * 64, 1024])
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7 * 7 * 64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])
y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
return y_conv
TensorflowのTutorial(Deep MNIST for Expert)どおりの構成でCNNを定義する関数を作った.
構成としては畳み込みプーリングを2回行った後, 全結合層を入れ, 各数字に対しての確率を出すというモデルになっている.
classの__init__部分前半
class RosTensorFlow():
def __init__(self):
self._cv_bridge = CvBridge()
self._sub = rospy.Subscriber('image', Image, self.callback, queue_size=1)
self._pub = rospy.Publisher('result', Int16, queue_size=1)
前半はROSの処理.
ここでは, CvBridge関数の呼び出し, Subscriber, Publisherの定義を行います.
今回はSubscriberはImage型のメッセージを受け取り, PublisherはInt16型のメッセージを配信する.
基本的にはROSの例どおり.
subの部分の引数にcallbackが入ることで, Imageメッセージを受け取るごとにcallback関数を呼び出す.
classの__init__部分後半
self.x = tf.placeholder(tf.float32, [None,28,28,1], name="x")
self.keep_prob = tf.placeholder("float")
self.y_conv = makeCNN(self.x,self.keep_prob)
self._saver = tf.train.Saver()
self._session = tf.InteractiveSession()
init_op = tf.initialize_all_variables()
self._session.run(init_op)
self._saver.restore(self._session, "model.ckpt")
後半はTensorflowの処理.
ここではまず画像が入るplaceholderであるxとDropOut率が入るplaceholderであるkeep_probを定義する.
placeholderとはデータの入り口みたいなもので実行時にはここにデータがどんどん入る.
次に今回使うCNNをy_convとして定義する.
イメージ的にはx,keep_probというデータの入り口からCNNを通ってy_convという名の出口にデータが出てくるという道筋を定義する感じ.
道筋を定義したらsession関数で実際にデータを流す準備する. tf.initialize_all_variables関数で一旦CNNの重みWとバイアスbを初期化.
ここに学習済みパラメータを読み出す. パラメータの読み出しにはtf.train.Saver関数を使ったあとにsaver.restoreをする必要あり.
callback部
def callback(self, image_msg):
cv_image = self._cv_bridge.imgmsg_to_cv2(image_msg, "bgr8")
cv_image_gray = cv2.cvtColor(cv_image, cv2.COLOR_RGB2GRAY)
ret,cv_image_binary = cv2.threshold(cv_image_gray,128,255,cv2.THRESH_BINARY_INV)
cv_image_28 = cv2.resize(cv_image_binary,(28,28))
np_image = np.reshape(cv_image_28,(1,28,28,1))
predict_num = self._session.run(self.y_conv, feed_dict={self.x:np_image,self.keep_prob:1.0})
answer = np.argmax(predict_num,1)
rospy.loginfo('%d' % answer)
self._pub.publish(answer)
画像メッセージが入ってくるたびにここが読まれる.
cv_bridgeでメッセージを画像に変えたあと, グレースケールにして2値化, 白黒反転,サイズ調節をして, CNNに画像を投げ込んでいる.
帰ってきた推定結果predict_numの一番確率が高いものをanswerとし, publishする
main関数については省略する.
#あとがき
これでTensorflowの学習済みモデルさえあれば, 何でもROSで扱えるようになった.
FasterRCNNで物体認識とか顔認識とかもできると思うのでやってみたい.