More than 5 years have passed since last update.

NTTテクノクロスAdvent Calendar 2018

@fuku-ys(Yasuhito Fukuda)

画像認識以外のディープラーニングを試してみた

Last updated at 2018-12-15Posted at 2018-12-15

はじめに

この記事は NTTテクノクロス Advent Calendar 2018 の16日目です。

はじめまして。NTTテクノクロスの福田(@fuku-ys) です。

普段は、不揮発性メモリに関する研究開発支援や分散ストレージの検証・運用・サポートなどに携わっています。
それに加え、今年度新たにディープラーニングに関係する仕事に携わることになり、ディープラーニングの世界に足を踏み入れたところです！

とは言っても、ディープラーニング基盤のハードウェア周りの調査や、ノード間の集団通信やGPU間のメモリコピー転送の高速化などに取り組んできましたので、実のところディープラーニング自体は学習処理を動かすための題材として付き合ってきました

今回やってみたこと

ディープラーニングといえば、顔認証や自動車の自動運転などに応用されている画像認識のモデルをイメージする方が多いのではないでしょうか。ディープラーニング界の"hello world"と言われているMNISTもこの画像認識のモデルになります。

モデルとしては他にも、Google翻訳など文章の構造を扱う自然言語処理や、音声データを扱う音声認識など様々な種類がありますが、今回は個人的に興味があった画像生成のモデルを実際に動かして試してみることにしました。（何となく凄そうで楽しそうですよね）

画像生成モデルとは？

画像生成モデルは、学習した画像に似た新たな画像を生成するモデルです。
その実現のため、GAN(Generative Adversarial Networks)や、GANのアルゴリズムを改良したDCGAN(Deep Convolutional Generative Adversarial Networks)が利用されます。

GANやDCGANは、ノイズを元に新たな画像を生成するGeneratorと、入力された画像がGeneratorによって作られた偽者なのか本物なのかを判定するDiscriminatorの2つのネットワークを使います。
Discriminatorは判定の正解率が上がるようにネットワークの勾配を更新していき、GeneratorはDiscriminatorが判定を誤る向きへ勾配を更新していきます。
お互いが競い合うように学習をすすめることから、偽札の製造者()と、偽札を見破る警察()の関係に例えられることが多いようです。

詳しいアルゴリズムについては、有識者の方がQiitaの記事としても解説されていますのでここでは割愛します。(ぜひ検索してみてください)

DCGANを実行してみた

環境情報

今回利用した環境の概要は以下です。

OS: Ubuntu16.04
GPU: Tesla K80
CUDA: 9.2
Chainer: 4.5.0(pipコマンドでインストール)

前準備

pipコマンドでインストールしたChainerにはサンプルプログラムが含まれませんので、githubからサンプルプログラムを含むChainerのソースコード一式をgit cloneコマンドで持ってきます。

# git clone https://github.com/chainer/chainer.git

git cloneコマンドで持ってきたソースコードはmasterブランチのものになりますので、pipでインストールしたChainer 4.5.0のバージョンに合わせるため、対応するタグをチェックアウトします。

# cd chainer/
# git checkout -b v4.5.0 refs/tags/v4.5.0
Switched to a new branch 'v4.5.0'

DCGANのサンプルプログラムは以下のディレクトリにあります。

# ls -al examples/dcgan
total 280
drwxr-xr-x  2 root root   4096 Nov 28 10:59 .
drwxr-xr-x 17 root root   4096 Nov 28 10:59 ..
-rw-r--r--  1 root root    616 Nov 28 10:57 README.md    # READMEファイル
-rw-r--r--  1 root root 252276 Nov 28 10:57 example_image.png    # README内で使われる画像ファイル 
-rw-r--r--  1 root root   3632 Nov 28 10:59 net.py    # ニューラルネットワークの実装
-rw-r--r--  1 root root   4567 Nov 28 10:59 train_dcgan.py    # 本体
-rw-r--r--  1 root root   1459 Nov 28 10:59 updater.py    # 勾配更新処理の実装
-rw-r--r--  1 root root   1095 Nov 28 10:59 visualize.py    # 作成した画像をフォルダに出力する処理の実装

DCGANサンプルプログラムの実行に必要なパッケージをインストールします。

# pip install pillow

以上でDCGAN実行のための準備は完了です。

実行1: CIFAR-10データセットで実行

まずはサンプルプログラムをそのまま実行してみます。

サンプルプログラムの実装を見てみると、Chainerで用意されているCIFAR-10データセットを取得するAPIを利用して、ラベルなし、RGBの各要素の明度を0から255の値として取得する(人間が見た時に自然に見えると理解)引数で実行しているようです。
CIFAR-10は、全10種でラベル分けされた32*32ピクセルのRGB画像で、計6万枚(学習用5万枚、検証用1万枚)からなるデータセットです。

examples/dcgan/train_dcgan.py

    if args.dataset == '':
        # Load the CIFAR10 dataset if args.dataset is not specified
        train, _ = chainer.datasets.get_cifar10(withlabel=False, scale=255.)

では、実行してみます。

# python examples/dcgan/train_dcgan.py --gpu 0

デフォルトでは、1000イテレータごとにカレントディレクトリのresultディレクトリ配下に学習済みデータを圧縮したnpyファイルと、その配下のpreviewフォルダに生成した画像を100枚並べた画像サンプルが出力されます。

1000イテレータ目で生成した画像サンプル

25000イテレータ目で生成した画像サンプル

50000イテレータ目で生成した画像サンプル

最初はノイズだらけですが、学習が進むについて鮮明になっていきました。
ただ、10種の画像がごちゃまぜになっていて、車っぽいけどちょっと違ったり、動物っぽいけど何なのか分からないような画像が生成されてしまいました。

実行2: CIFAR-10データセットのうち猫画像だけを抽出して実行

CIFAR-10の全10種あるすべてのラベルの画像を使用すると、生成される画像もごちゃまぜなものなってしまったので、次は猫に絞ってやってみました。猫にしたのはなんとなくウケが良さそうだからです

CIFAR-10データセットの中身を調べた結果、猫のラベルは3番でした。

label=0: airplane(飛行機)
label=1: automobile(自動車)
label=2: bird(鳥)
label=3: cat(猫)
label=4: deer(鹿)
label=5: dog(犬)
label=6: frog(カエル)
label=7: horse(馬)
label=8: ship(船)
label=9: truck(トラック)

以下のようにサンプルプログラムを修正し、ラベル3番のみを格納したnumpy配列を新たに生成してデータセットとして使用するようにします。

examples/dcgan/train_dcgan.py

    if args.dataset == '':
        # Load the CIFAR10 dataset if args.dataset is not specified
#        train, _ = chainer.datasets.get_cifar10(withlabel=False, scale=255.)    # コメントアウトし、以下を追加
        train, _ = chainer.datasets.get_cifar10(withlabel=True, scale=255.)
        cat_images = np.empty(0, dtype=np.float32)
        count = 0
        for i in train:
            if i[1] == 3:    # 猫のラベルである3のみをnumpy配列に格納
                cat_images = np.append(cat_images, i[0])
                count += 1
        train = np.reshape(cat_images, (count, 3, 32, 32))

では、実行してみます。

# python examples/dcgan/train_dcgan.py --gpu 0

1000イテレータ目で生成した画像サンプル

25000イテレータ目で生成した画像サンプル

50000イテレータ目で生成した画像サンプル

うーん。かわいい猫たちを期待したのですが、猫には見えない微妙な画像がたくさん生成されてしまいました。

実行3: ラーメン画像を使用して実行

CIFAR-10ではあまりよい結果にならなかったのですが、他のデータセットで試したくなりました。
そこでダメ元でPostgreSQL芸人であり、またラーメン通であるぬこ＠横浜さん(@nuko_yokohama) にお願いしたところ、快くコレクションの中から約1000枚を提供いただけました！(ありがとうございます)

こんな感じで、1枚1枚ファイル名に日付と店名が入っています。す、すごい。

これをデータセットとして使用してみます。

画像は横長のものでしたので、正方形になるよう編集します。今回サイズは128*128 ピクセルにしました。
以下はその際に使用したコマンドです。

# 無慈悲にもファイル名を連番になるようリネーム
ls * | awk '{ printf "mv %s %04d.jpg\n", $0, NR }' | sh

# 縦横の比率そのままで縦サイズを128ピクセルにリサイズ
mogrify -resize x128 *.jpg

# 横サイズを中心を起点に128ピクセル残してリサイズ
mogrify -resize x128 -gravity center -crop 128x128+0+0! *.jpg

この後、餃子、チャーハンの画像が混ざっていることに気がつきましたので手動で除外しました。

また、サンプルプログラムのニューラルネットワークはCIFAR-10の3232ピクセルに合うよう実装されていますので、今回使用する128128ピクセルに合わせて以下のように修正しました。

examples/dcgan/net.py

class Generator(chainer.Chain):

#    def __init__(self, n_hidden, bottom_width=4, ch=512, wscale=0.02):    # コメントアウトし、以下を追加
    def __init__(self, n_hidden, bottom_width=16, ch=512, wscale=0.02):

(snip)

class Discriminator(chainer.Chain):

#    def __init__(self, bottom_width=4, ch=512, wscale=0.02):    # コメントアウトし、以下を追加
    def __init__(self, bottom_width=16, ch=512, wscale=0.02):

iオプションでラーメン画像を格納したディレクトリを指定して、実行してみます。

# python examples/dcgan/train_dcgan.py --gpu 0 -i /root/train_nuko/

1000イテレータ目で生成した画像サンプル
25000イテレータ目で生成した画像サンプル
50000イテレータ目で生成した画像サンプル

なんと、思ったよりもラーメンっぽいラーメン画像が生成されました！
データセットとして、画像の構図が揃っている(器を真上から写したもの)ことが影響しているんでしょうか。

さいごに

今回DCGANを3つのデータセットで試してみて、データセットによっては割と良い画像が生成できることが分かりました。

このDCGANの技術をどうビジネスに活かせるのだろうという観点で調べてみたところ、送電線の保守点検のためのディープラーニングで活用されている事例がありました。
データセットを大量に用意することが困難なケースで、DCGANを使い少ない画像データから類似した画像を生成し、画像認識のモデルに学習させることで画像認識の精度向上を実現しているようで、DCGANの可能性を感じました。

Chainerにはまた異なるモデルのサンプルプログラムが用意されてるので、色々試してディープラーニングの世界をもっと見て回りたいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up