More than 5 years have passed since last update.

犬と猫の写真を判定するウェブサービスを作ってみた

Last updated at 2017-05-28Posted at 2017-05-27

概要

Kaggle のある練習用のコンペティションで大量の犬と猫の写真を入手できたので、これらを畳み込みニューラルネットワーク(CNN)に学習させ、ウェブサービスにしました。利用者は、自分の好きな写真をアップロードして、そこに犬または猫のどちらが写っているのか判定させることができます。気軽に遊んでみてください。

こちら↓
Recognize Dogs and Cats
ソースコード(GitHub)

解説

使用した CNN は以下のようなものです。Keras で記述してあります。この記事のモデルをそのまま使わせていただきました。

from keras.models import Sequential
from keras.layers import Convolution2D, MaxPooling2D
from keras.layers import Activation, Dropout, Flatten, Dense

model = Sequential()

model.add(Convolution2D(32, 3, 3, input_shape=(128, 128, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(64, 3, 3))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())
model.add(Dense(64))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(2))
model.add(Activation('softmax'))

model.summary() の出力結果。

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv2d_1 (Conv2D)            (None, 42, 42, 32)        896       
_________________________________________________________________
activation_1 (Activation)    (None, 42, 42, 32)        0         
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 21, 21, 32)        0         
_________________________________________________________________
conv2d_2 (Conv2D)            (None, 7, 7, 64)          18496     
_________________________________________________________________
activation_2 (Activation)    (None, 7, 7, 64)          0         
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 3, 3, 64)          0         
_________________________________________________________________
flatten_1 (Flatten)          (None, 576)               0         
_________________________________________________________________
dense_1 (Dense)              (None, 64)                36928     
_________________________________________________________________
activation_3 (Activation)    (None, 64)                0         
_________________________________________________________________
dropout_1 (Dropout)          (None, 64)                0         
_________________________________________________________________
dense_2 (Dense)              (None, 2)                 130       
_________________________________________________________________
activation_4 (Activation)    (None, 2)                 0         
=================================================================
Total params: 56,450.0
Trainable params: 56,450.0
Non-trainable params: 0.0
_________________________________________________________________

写真25000枚(犬:12500枚, 猫:12500枚)のうち、22500枚を訓練に使い、残り2500枚はモデルの精度を検証するために使いました（クロスバリデーション）。

CPU: Intel Core i3 2370M
GPU: なし
メモリー: 12GB

という環境で学習に約7時間ほどかかりました。正答率(accuracy)は85%程度で、まだまだ改善の余地はあると思います。
（後日談: Fine tuning で正答率が上がりました！下記参照)

ウェブサイトにアクセスすると、最初3枚の写真が表示されます。これは、上でクロスバリデーション用に取っておいた2500枚のうち、500枚を使って、ランダムに表示しています。

アップロードした写真は、判定が終わったらすぐに削除するようにしています（いずれにしろ Heroku 上には動的にファイルを置くことはできません）。

感想

Keras 最高! 必要十分で簡潔なインターフェイスが素晴らしい
Flask + jQuery のシンプルさがとても新鮮
CNN の学習は、ちょっとした条件の違いで全く学習が進まないことがあるので、細心の注意が必要

追記(2017-05-29)

VGG16 + Fine tuning で正答率が94%まで高まりました！！
計算時間は22時間ほどかかっています。

項目	内容
訓練データセット	2000枚（犬:1000枚, 猫:1000枚)
クロスバリデーションデータセット	800枚（犬:400枚, 猫:400枚)

たった、2000枚しか訓練に使っていないのに、この成績(正答率94%)はすごい…。計算時間はかかりますが、前回と同様、22500枚を訓練に使えば、さらに正答率が上がりそうです。

Fast.aiのnotebookによると、VGG16 + Fine tuning で正答率は97%くらいまでは行けるみたいです。

from keras.models import Input, Model, Sequential
from keras.layers import Dropout, Flatten, Dense
from keras.applications.vgg16 import VGG16

vgg16_model = VGG16(include_top=False, weights='imagenet', input_tensor=Input(shape=(150, 150, 3)))

top_model = Sequential()
top_model.add(Flatten(input_shape=vgg16_model.output_shape[1:]))
top_model.add(Dense(256, activation='relu'))
top_model.add(Dropout(0.5))
top_model.add(Dense(1, activation='sigmoid'))

model = Model(inputs=vgg16_model.input, outputs=top_model(vgg16_model.output))

model.summary() の出力結果。

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
input_1 (InputLayer)         (None, 150, 150, 3)       0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 150, 150, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 150, 150, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 75, 75, 64)        0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 75, 75, 128)       73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 75, 75, 128)       147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 37, 37, 128)       0         
_________________________________________________________________
block3_conv1 (Conv2D)        (None, 37, 37, 256)       295168    
_________________________________________________________________
block3_conv2 (Conv2D)        (None, 37, 37, 256)       590080    
_________________________________________________________________
block3_conv3 (Conv2D)        (None, 37, 37, 256)       590080    
_________________________________________________________________
block3_pool (MaxPooling2D)   (None, 18, 18, 256)       0         
_________________________________________________________________
block4_conv1 (Conv2D)        (None, 18, 18, 512)       1180160   
_________________________________________________________________
block4_conv2 (Conv2D)        (None, 18, 18, 512)       2359808   
_________________________________________________________________
block4_conv3 (Conv2D)        (None, 18, 18, 512)       2359808   
_________________________________________________________________
block4_pool (MaxPooling2D)   (None, 9, 9, 512)         0         
_________________________________________________________________
block5_conv1 (Conv2D)        (None, 9, 9, 512)         2359808   
_________________________________________________________________
block5_conv2 (Conv2D)        (None, 9, 9, 512)         2359808   
_________________________________________________________________
block5_conv3 (Conv2D)        (None, 9, 9, 512)         2359808   
_________________________________________________________________
block5_pool (MaxPooling2D)   (None, 4, 4, 512)         0         
_________________________________________________________________
sequential_1 (Sequential)    (None, 1)                 2097665   
=================================================================
Total params: 16,812,353
Trainable params: 16,812,353
Non-trainable params: 0

参考

VGG16のFine-tuningによる犬猫認識 (2)
VGG16 をつかった Fine-tuning について非常に詳しく書かれており、たいへんお世話になりました。ありがとうございます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up