More than 5 years have passed since last update.

ChainerでYOLO

Last updated at 2017-02-11Posted at 2016-11-14

はじめに

YOLOとはYou Only Look Onceの略とのことですがまあ当て字ですかね。速度に特化した画像検出・認識用ニューラルネットワークで、Cベースのdarknetというフレームワーク上に構築されています。元論文はこちらです。特徴は、全画像からいきなりクラス確率と物体のバウンディングボックス座標を推論する点です。R-CNNなどと違って複数の候補領域に対して何度も推論しないでよいので、Look Onceだから速い、というわけですね。

TensorFlowに変換した例はすでにあるようなので、今回はchainer化をしてみます。Cで組まれているものをわざわざスクリプト言語に変換するのは中身を理解するためです。今回の記事では学習済の係数を使った推論のみを行いますが、論文を読んだ感じだと学習手順が最大の特徴の一つに思われるので、そのうちトレースしたいです。

コードはこちらを参照してください。

学習済係数データの取得

YOLOには通常サイズ、small、tinyなどがあるようですが今回はtinyだけを変換します。

tiny-yoloとyolo-tinyはバージョン違いの別物みたいです。tiny-yoloのほうがBatchNormalizationとかを使っていて今風ですが、今回はtensorflowモデルにすでに変換されている、古い方のyolo-tinyを使います。

TensorFlow版のyolo-tinyの係数はこちらにあるので、係数をnumpyで吐き出します。

import tensorflow as tf
from YOLO_tiny_tf import *
import numpy as np

c=YOLO_TF()
with c.sess.as_default():
    for v in tf.trainable_variables():
        name = v.name
        ary = v.eval()
        np.save("npy/"+name, ary)

これでnpyフォルダ以下にnumpy形式で係数が書き出せます。tf.trainable_valiables()で、chainerでいうところのLinkに含まれるパラメータをリストアップできます。eval()はchainerでいうところのdataですね。

なお、YOLO_tensorflowでは係数をテキストで書き出すように改造したdarknetをつかってdarknetからの係数変換を行っています。

Chainer化

これをchainerに変換していきます。

yolo-tinyの構成はgithubの履歴をたどるとこれですね。3x3 convolutionとmax poolingを繰り返すかんじです。この記述にならってせっせとChainを記述します。

これぐらい段数が多くてもとのモデルがわかってる場合は、KerasみたいにLinkとFunctionの区別をしないでSequentialに書けるほうが楽ですね。

さて、こうやって組んだChainの係数を差し替えるわけですが、ChainerはDefine by run なので、いちどForward演算をしないとそもそもWやbなどにアクセスできません。今回はいちど０行列をつっこんでForwardしたあとに重みを書き換えました。initialW,initial_biasなどで指定してもよいのだろうとは思います。

Convolution_2dの重みは、TensorFlowとChainerとでは順番がだいぶ違って、