More than 5 years have passed since last update.

深層学習の訓練用画像のラベルをスマホで作成 [紹介]

Posted at 2017-06-21

DeepLearning用ラベリングAndroidApp

後輩が作成したスマホアプリの紹介です。
オリジナルの記事はこちら (Qiita)
アプリのダウンロード先はこちら (Google Play Store)

作者によると

アノテーションファイル生成を遂にスマホで！

あの辛いラベル付け作業をスマホでリラックスしながらできる！

直感的なタッチ操作！

とのことです。なんだか便利そうですね。

活躍する場面

DeepLearningを実際に活用しようとした際には大量のトレーニングデータが必要です。
すでにある大規模なデータセットに含まれているカテゴリなら簡単に学習をすることができますが、存在しないカテゴリにおいてはデータセットを自前で用意しなくてはなりません。
しかしデータセットは一般に大量のデータと正解ラベルが必要となり用意することは大きな負担になります。

今回紹介するのは一般物体認識のタスクで使われるデータセットを自前で用意する際にとても有効なスマホアプリです。

タスクに関連した大量の画像を集めたはいいが集めただけでは正解ラベルはついておらず、手動でラベル付けをしなくてはならなかった作業の負担を大きく軽減します。

画像をスマホに転送して物体の位置をタッチするだけでラベルが生成されます。

使い方

認識させたい物体が写った画像を用意

学習に使う画像を大量に用意します。

スマホでフォーマットしたSDカード(Micro SDなど)に画像を転送

パソコンからスマホに画像を転送します。
SDカードをパソコンに接続し、Android/data/com.tomoya.yololabelingtool/files/imagesに用意した画像を転送します。
転送が完了したらパソコンから取り外してスマホにセットします。

現在はSDカード経由での転送にのみ対応しています。
SDカードはスマホでフォーマットしてください。
スマホのアプリからデータを読み込むためにAndroidのファイル配置である必要があります。普段からスマホで利用しているSDカードであればフォーマット済であると思います。
ディレクトリが存在しない場合は作成してください。

スマホでアプリを起動してひたすらタッチ

画像を転送したSDカードをスマホにセットしたらアプリを起動します。
自動で画像ファイルが読み込まれます。

初期画面です。複雑な機能はありません。
認識したい物体ごとにクラス名を登録する必要があります。
初回にのみ必要な操作です。
左上の歯車アイコンから追加を行ってください。

矩形選択は次のように行います。
画像を読み込んだ状態で表示される黒い十字のカーソルを選択する物体の左上に合わせます。

合わせてから左下のCrossを押し、続いて右下に合わせます。

出力されるデータのフォーマット

データはAndroid/data/com.tomoya.yololabelingtool/files/texts/*に出力されます。
アプリのサムネイルにある説明のイラストが理解しやすいです。

YOLOにそのまま使えるフォーマットになっています。

作成されるラベルのフォーマットを変えたい

現時点ではアプリ内で設定して出力フォーマットを変更することはできません。
フォーマットを変えたい場合はラベルファイルをパソコンに転送して加工しましょう。

出力されるラベルはバウンディングボックスの中心と大きさがそれぞれ全体を1とした比率で比率では扱いにくいので変更したいといった場合には以下のようなコードで変換できます。
変換後はバウンディングボックスの中心と大きさそれぞれがピクセル位置(整数)になります。

Shellが使える環境なら

$ cat label
0 0.15487 0.554 0.5487 0.3684
1 0.245 0.814 0.4574 0.15144
2 0.488 0.254 0.7841 0.1584
4 0.154 0.455521 0.48454 0.545
$ cat label | awk -v width="320" -v height="240" '{print $1 " " int($2*width) " " int($3*height) " " int($4*width) " " int($5*height)}'
0 49 132 175 88
1 78 195 146 36
2 156 60 250 38
4 49 109 155 130

Pythonが使えるなら

width, height = 320, 240
f = open('label', 'r')
for line in f.readlines():
    d = [ float(x) for x in line.split() ]
    print("{0} {1} {2} {3} {4}".format(int(d[0]), int(d[1]*width), int(d[2]*height), int(d[3]*width), int(d[4]*height))

よくあるバウンディングボックスの左上と右下を記録するフォーマットには以下のように変換します。(たしかSSDとかがこのフォーマットだったかな)

Shellが使える環境なら

$ cat label
0 0.15487 0.554 0.5487 0.3684
1 0.245 0.814 0.4574 0.15144
2 0.488 0.254 0.7841 0.1584
4 0.154 0.455521 0.48454 0.545
$ cat label | awk -v width="320" -v height="240" '{print $1 " " int($2*width-$4*width/2) " " int($3*height-$5*height/2) " " int($2*width+$4*width/2) " " int($3*height+$5*height/2)}'
0 -38 88 137 177
1 5 177 151 213
2 30 41 281 79
4 -28 43 126 174

Pythonが使えるなら

width, height = 320, 240
f = open('label', 'r')
for line in f.readlines():
    d = [ float(x) for x in line.split() ]
    print("{0} {1} {2} {3} {4}".format(int(d[0]), int(d[1]*width-d[3]*width/2), int(d[2]*height-d[4]*height/2), int(d[1]*width+d[3]*width/2), int(d[2]*height+d[4]*height/2))

最後に

これで学習データに対してのラベル付けが捗るようになりますね！
テレビのCMの時間に、電車で移動してる時間に、とスキマ時間を上手に活用してライバルに差をつけよう！！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up