More than 1 year has passed since last update.

10分間で画像認識モデル構築byKeras~機械学習への第一歩~

Last updated at 2022-11-02Posted at 2020-03-24

はじめに

この記事を読むと?

難解でとっつにくいイメージのある機械学習について、実際にコードを動かしながら、最短で体験することができます。

なぜこの記事を書いたのか

機械学習やディープラーニング学ぶ方（またはこれから始める方）が増えています。
今は優れた書籍やオンライン上の教材が豊富にあり、多様な選択肢があります。素晴らしい時代ですね。
しかし残念ながら、何かしらの教材で挑んでみたものの、実際に機械学習を実装する手前で挫折してしまう方も少なくないと感じています(そしてそれは本人の能力のせいではなく、わずかな周囲の環境やタイミングといった運によるものが大きいと思います)。
機械学習を習得するためには、PythonやRといったプログラミング言語の習得はもちろん、ある程度の数学の素養や、環境構築が必要です。それらでつまずき、「自らの手で機械学習を動かす」という経験をできないのはとても惜しいことです。

そこで私が提案したいのは、**本格的な勉強を始める前にまずざっとでいいので、「ゴールを体験して全体像を概観する」**ということです(=機械学習の場合はコピペで良いのでモデルを構築してみること)。
ゴールの見えないマラソンを続けることは非常に困難ですが、ゴールに至るまでの道筋が明確に見えてさえいれば、その足取りは確かになることでしょう。
また、最初にゴールを意識することで学習効率が高まるという効果も期待できます。

「機械学習」や「ディープラーニング」と聞くと難しそうですが、実はモデルを作るだけなら簡単にできます。環境構築も不要です。

忙しいあなたの時間を、今日という一日の10分間だけ機械学習を学ぶこと使ってみませんか?

対象者

・機械学習に興味がある人
・これから機械学習の勉強を始める人
・勉強を始めたけど序盤で躓き、中々アウトプットまで進めない人

環境

・Google Chrome
・Google Colaboratory
(Chromeブラウザさえ開ければ、PCはMacでもWindowsでも何でも大丈夫です）

セットアップ

今回はローカルに環境を構築せず、ブラウザ上から「Google Colaboratory」というクラウド実行環境を使います。
初めて聞く方も身構えないでください!Colaboratoryとは**「ブラウザから簡単に使えて、無料の、高性能の機械学習・ディープラーニングを実行できる環境」**です。流石Google様です。
高価なGPU機材が必要なイメージがあるかもしれませんが、必ずしもそうではないんですね。

Colaboratoryへサインアップ

さあ、Colaboratoryを始めましょう!
Colaboratoryは個人のGoogleアカウントに紐づいています。
下記URLから、ご自身のGoogleアカウントでColaboratoryでログインしてください。

Colaboratory へようこそ

これで完了です!!!なんと、Googleアカウントでログインするだけなんですね。なんて簡単でしょうか。

ファイル作成

さて、次は実際にコードを書くための場所を作成しましょう。
といっても、驚くほど簡単なので安心してください。
スクショの通り、画面右上の「ファイル」タブから「ノートブックを新規作成」をクリックしてください。

これで作成が完了しました！
このままでも良いですが、せっかくなのでファイル名を変えてみましょう。

「firstStep.ipynb」とでもしましょうか。（面倒な方はスキップしてOKです）

やってみよう！~kerasで画像認識~

さあ、いよいよ本番です。機械学習の世界へ入門してみましょう。
今回は「ゴールを経験する」ということが目的なので、コードをコピペするだけでOKです。
コードの説明の意味は今は理解せずとも良く、「ふーん」とでも聞き流してください。

基本モジュールのインポート

まず、各種モジュールをインポートしましょう。


import tensorflow as tf
import keras
import numpy as np
from matplotlib import pyplot
%matplotlib inline
import os
import distutils
if distutils.version.LooseVersion(tf.__version__) < '1.14':
    raise Exception('This notebook is compatible with TensorFlow 1.14 or higher, for TensorFlow 1.13 or lower please use the previous version at https://github.com/tensorflow/tpu/blob/r1.13/tools/colab/fashion_mnist.ipynb')

機械学習を勉強している方ならおなじみですね。
tensorflowモジュールとnumpyモジュールを、それぞれtf,npと扱いやすい名前をつけてインポートしています。

tensorflowとkerasをそれぞれインポートしています。実はimport kerasは省略しても今回のコードは問題なく動作します。そもそもkerasはtensorflowのラッパー言語、つまりtensorflowを簡単に扱えるようにしたものですので、バックエンドではtensorflowが動いています。できるようにしたものです。分かりやすいのでわざわざkerasもインポートしています。

numpyは、機械学習の膨大な計算を高速に行うためのモジュールです。numpyのおかげで機械学習やデータサイエンスはPythonが主流になりました。

matplotlibは出力結果をグラフ等で可視化するためのモジュールです。

osモジュールはMacのterminalやWidowsのcommand lineのような、OSっぽいことを実行できるようになります。ディレクトリ操作とかですね。

distutils?これは耳慣れない方も多いでしょう。Python公式ドキュメントで調べてみましょう。
Distutilsの紹介-Python3.8.0ドキュメント
disututilsモジュールはPython標準のパッケージ管理ツールです。
import distutilsの次のif文は、TensorFlowのver.を管理しています。
(if文にこんな使い方あるんですね。面白い〜)

データセットの準備

(x_train, y_train), (x_test, y_test) = tf.keras.datasets.fashion_mnist.load_data()

# add empty color dimension
x_train = np.expand_dims(x_train, -1)
x_test = np.expand_dims(x_test, -1)

今回はtensorflowに備え付けのサンプル用のデータセットを使うのうで、別途インポートする必要はありません。
Python中級者の書き方として、複数の変数にまとめて値を代入することができます。これも機械学習を勉強している方にはお馴染みの書き方ですね。

モデルの定義

def create_model():
  model = tf.keras.models.Sequential()
  model.add(tf.keras.layers.BatchNormalization(input_shape=x_train.shape[1:]))
  model.add(tf.keras.layers.Conv2D(64, (5, 5), padding='same', activation='elu'))
  model.add(tf.keras.layers.MaxPooling2D(pool_size=(2, 2), strides=(2,2)))
  model.add(tf.keras.layers.Dropout(0.25))

  model.add(tf.keras.layers.BatchNormalization(input_shape=x_train.shape[1:]))
  model.add(tf.keras.layers.Conv2D(128, (5, 5), padding='same', activation='elu'))
  model.add(tf.keras.layers.MaxPooling2D(pool_size=(2, 2)))
  model.add(tf.keras.layers.Dropout(0.25))

  model.add(tf.keras.layers.BatchNormalization(input_shape=x_train.shape[1:]))
  model.add(tf.keras.layers.Conv2D(256, (5, 5), padding='same', activation='elu'))
  model.add(tf.keras.layers.MaxPooling2D(pool_size=(2, 2), strides=(2,2)))
  model.add(tf.keras.layers.Dropout(0.25))

  model.add(tf.keras.layers.Flatten())
  model.add(tf.keras.layers.Dense(256))
  model.add(tf.keras.layers.Activation('elu'))
  model.add(tf.keras.layers.Dropout(0.5))
  model.add(tf.keras.layers.Dense(10))
  model.add(tf.keras.layers.Activation('softmax'))
  return model

層毎にドロップアウトとバッチ正規化を施した、3層から成るCNNでモデルを構築します。
(強そうな用語の連続パンチですね!ここでは一旦スキップしてください)

モデルの訓練

訓練データを使って、モデルを訓練しましょう。
下記コードを実行してみると・・・？

resolver = tf.contrib.cluster_resolver.TPUClusterResolver('grpc://' + os.environ['COLAB_TPU_ADDR'])
tf.contrib.distribute.initialize_tpu_system(resolver)
strategy = tf.contrib.distribute.TPUStrategy(resolver)

with strategy.scope():
  model = create_model()
  model.compile(
      optimizer=tf.keras.optimizers.Adam(learning_rate=1e-3, ),
      loss='sparse_categorical_crossentropy',
      metrics=['sparse_categorical_accuracy'])

model.fit(
    x_train.astype(np.float32), y_train.astype(np.float32),
    epochs=17,
    steps_per_epoch=60,
    validation_data=(x_test.astype(np.float32), y_test.astype(np.float32)),
    validation_freq=17
)

model.save_weights('./fashion_mnist.h5', overwrite=True)

ギュイーンとEpochが1/60から60/60になるまで更新されていきます！かっこいい!

これは何が起こっているのかというと、実際にニューラルネットワークで学習が行われていく要素を可視化してくれているんですね（なので、非表示にすることも可能です）。
動画で掲載できなくて残念ですが、AIっぽくてとてもテンションが上がる光景です。
コードをコピペするだけで簡単に実行できるので、是非ご自分の目で確かめてください。

訓練済みモデルでファッション画像を予測

前節を経て、今の我々は訓練済みのモデルを持っています。
早速使ってみましょう!

LABEL_NAMES = ['t_shirt', 'trouser', 'pullover', 'dress', 'coat', 'sandal', 'shirt', 'sneaker', 'bag', 'ankle_boots']


cpu_model = create_model()
cpu_model.load_weights('./fashion_mnist.h5')


def plot_predictions(images, predictions):
  n = images.shape[0]
  nc = int(np.ceil(n / 4))
  f, axes = pyplot.subplots(nc, 4)
  for i in range(nc * 4):
    y = i // 4
    x = i % 4
    axes[x, y].axis('off')
    
    label = LABEL_NAMES[np.argmax(predictions[i])]
    confidence = np.max(predictions[i])
    if i > n:
      continue
    axes[x, y].imshow(images[i])
    axes[x, y].text(0.5, 0.5, label + '\n%.3f' % confidence, fontsize=14)

  pyplot.gcf().set_size_inches(8, 8)  

plot_predictions(np.squeeze(x_test[:16]), 
                 cpu_model.predict(x_test[:16]))