はじめに
できることなら無駄な手間は省きたいものです.「コレめんどくさいなぁ」というボヤキが発明を生み出すような気もします.
コンピュータビジョンの研究分野は Deep Learning の襲来ですっかり Read Ocean になってしまっています.arXivを眺めて最新の研究をキャッチアップするのも大変です.世界のトップランナー達のおかげで精度もどんどん上がっています(たとえば物体検出についてはこちらが参考になります).
そんな中,コンピュータビジョンの技術を色んな分野に応用していきたいと思っているのですが,特に機械学習ベースの手法は手間がかかるというのが大きな問題になってきます.
データ作りは大変だ
Deep Learning で精度を出すには学習データが重要です.もちろん,モデル自体もハイパーパラメータも重要なんでしょうが,やっぱり学習データが揃ってなければお話にならないと思います.Deep Learning の発展に ImageNet が果たした役割は大きいというのは良く言われる話ですし[1].
とはいえ,いつでも大量かつ良質なデータを準備できるわけではないので,限られたデータでもうまくやる必要が生じてきます.これはコンピュータビジョンに限らない,機械学習一般での課題ともされていて転移学習や半教師付学習などとして古くから研究されています.転移学習については@icoxfog417
さんの記事[3],神嶌先生のサーベイ論文[4],松井孝太先生のスライド[5]などが参考になります.
コンピュータビジョン界隈でも,もちろん転移学習・ドメイン適合は良く扱われています.one-shot learning や few-shot learning[6] はネーミングがコンピュータビジョンぽくっていいですね.arXivには few-show learning のサーベイ[7]がありましたが,まだちゃんとと読めていません.
で,個人的にもこの分野は興味があるのですが,同時に,もっと直接的・実践的にデータ作りの手間を省ける方法はないのかなぁとも思っています.そのような観点から最近目にとまった論文を紹介します.
人の上に点を打つだけで人を囲むボックス領域をゲット
一般に「物体検出」のタスクでは,画像の中である物体が占める領域を特定するのが目標です.領域といっても,まずは物体を囲む最小の矩形(Bounding Box)を得ることがゴールになります(物体領域を正確に切り出すような問題設定もありますが).機械学習でこれを行うためには,学習データとして画像と Bounding Box の対が必要になります.しかし,この Bounding Box の正解データを作るのがなかなか大変です,それは一度でもデータ作りをやったことがあれば痛感すると思います.
そんな苦い思い出を持った中で目にとまったのがCVPR2019で発表されていた「Point in, Box Out: Beyond Counting Persons in Crowds」[8]です.これは群衆の人数カウントを行うのですが,パッとみて「もし上手く動けばラクになりそう」と思いました.
この図が全てを物語っているのですが,人間が与えるのは左上の「人物頭部を指す点」です.そこから Deep Learning がうまいこと頭部を囲む Bounding Box を求めて,人物頭部を検出してしまうということになっています.
いろいろ前提条件があるのだと思いますが,アノテーション一般の簡略化に応用できれば楽しそうです.
・・・と,もっと書きたいこと,書くべきことがあったのですが,とりあえず担当の日に公開するということで,とりあえずここまでで.せっかくなので近々追記したいと思います.
おわりに
この記事を書くときに「Qiitaに投稿するならちゃんとソースコードと実行例を載せないと」と某氏から言われたのですが,残念ながら(予想どおり?)文章だけの記事になってしまいました.ま,投稿できただけ上出来ということで.
23:59 までには投稿するつもりが,操作に手間取って日をまたいでしまいました.ゴメンナサイ.
参考文献
1. 物体検出を軽〜く入門する
2. 中山英樹, "画像解析関連コンペティションの潮流," 電子情報通信学会誌, vol.100, no.5, pp.373-380, 2017
3. 転移学習:機械学習の次のフロンティアへの招待
4. 神嶌 敏弘, “転移学習," 人工知能学会誌, vol.25, no.4, pp.572-580, 2010
5. Recent Advances on Transfer Learning and Related Topics Ver.2
6. https://qiita.com/minux302/items/d596785a321eca72c9a1
7. Generalizing from a Few Examples: A Survey on Few-Shot Learning
8. Yuting Liu, Miaojing Shi, Qijun Zhao, Xiaofang Wang, Point in, Box Out: Beyond Counting Persons in Crowds, CVPR2019