2017年に南カルフォルニア大学で発表された「深層学習を用いたドローン監視」という論文のまとめと、これはすごい!と思ったことを書きたいと思います。
A Deep Learning Approach to Drone Monitoring
Yueru Chen, Pranav Aggarwal, Jongmoo Choi, and C.-C. Jay Kuo
University of Southern California, California, USA
Dec/2017
引用URL: https://arxiv.org/pdf/1712.00863.pdf
動機
私はドローン測量を手がけるスタートアップで長期インターンに参画していた時、測量中にドローンをロストしてしまうという問題に何回も直面した。森林の奥地までチームを組んで測量をするが、山や木々に視界を邪魔され、小さいドローンは風景と同化し、遠くに飛ばされたドローンに固定されているカメラしか視界を確保できない。そのためドローンを木に衝突させてしまったりどこを飛んでいるのか確認できなかったりする。
今後このような測量が主流になる上、配達、セキュリティ、農業、点検など多岐にわたる分野でドローンが活用され、違法に使われるドローンも増えていくと考えられる。膨大なドローンを全て人間の目で把握/監視するのは不可能なため、私は画像認識を応用してドローンの検知かつ追跡を可能にするシステムについて取り上げたこの論文を選んだ。
論文まとめ
当論文はドローン検知と追跡モジュールを搭載したドローン監視システムを提案している。ドローン監視における難題はドローンが写った画像が手に入りにくいことと、ドローンが背景に埋もれてしまうことである。しかし、このシステムはドローン単体の画像と風景を合成させて自動で画像を生成し、ビデオのフレーム画像の残差も利用し、画像をカサ増しすることでこの問題にアプローチしている。この方法により実世界の複雑な背景の中からドローンを追跡し続けることが可能である。
監視システムの学習の流れとして、①カサ増し作業も含め、学習用の写真を用意する。②2種類の異なるCNNのモデルを用意し、統合する。③2種類のモデルを訓練し、統合モデルの評価指数を設定して精度を検証する。
①まず学習させるための画像の絶対数を増やすために2種類の方法を試している。一つは、3Dレンダリングアルゴリズムと従来の画像生成技術を用いて、大量のドローン合成写真を自動で作り出すことである。カメラの角度/距離、光の強さなどを変えドローン単体の写真を用意する。また、背景画像も引き延ばしたりドローン配置位置をランダムに決める。その2つの画像をぼかしや影を付け加えて自然な合成写真にする。二つ目として、ビデオのフレームは1秒間に30~40ほどだが、直前の画像との相違に注目することで動いている物体のみの情報を抽出することである。これにより周りの静止した複雑な風景を取り除くことができる。
②ドローン監視システムは検知のみのモジュールと追跡のみのモジュールに分けられる。検知システムには基本的に静写真を用いて、高速RCNNという畳み込み深層学習で学習させる。追跡システムはCNNより層が少ないMulti-Domain Network (MDNet)を用いて、今のフレームから次のフレームのどの位置にドローンがいるか大方見当をつける。この学習器に連続する写真の色の残差を取った写真を訓練させることで、動いている物体に注目することができる。(これにより、ドローンをロストしても複雑な背景を無視して動いている物体のみに注目できるため、ドローンの再検出が早くなる。)
この2つのモジュールを統合した監視システムはドローン検出と追跡機能を初期化することの2つのタスクがある。始めにドローン検出により追跡するターゲットを決め、追跡を開始する。仮にロストした場合、追跡機能によりドローンの大方の位置はつかめているため、再びドローン検知を行い検出したら追跡機能を初期化する。この繰り返しによりドローンを常に監視し続けることが可能である。
③検出システムは合成写真を使わない場合と比べて11~16%ほどAUCスコアが上昇し、90%ほどの精度を出した。一方、追跡システムは評価指数としてフレーム1枚ずつに対し、IoU(実際のドローン範囲と検出した範囲の、重なっている範囲/合わせた範囲)を算出。それがある閾値以上だとその写真は正しく検出したとして1、それ以外は0として評価した。それらを全体のフレーム数で割ることで閾値に対して正解率のグラフを作ることができる。すると合成写真を使わない場合と比べて10%ほどスコアが上昇し、60~70%ほどの精度が出た。そして2つを統合したシステムは70%強の精度が出た。
この論文ですごいと思ったこと
・ドローン監視/ロスト問題を検出と追尾を組み合わせたコンピュータビジョンの技術で解決しようと思ったこと。従来はドローンに搭載されているGPSや付属のカメラ情報、または監視の人手を増やすことでドローンの位置を把握していた。ドローン測量では気が生い茂る山間部では電波が届かなかったり、搭載カメラの死角でロスト/衝突という問題があった。しかしこの方法を用いれば画像認識技術で人間の目で見るよりも、正確にドローンを検出/追跡でき、ロストという不具合も見込んでいる。この技術は測量のみならず違法ドローン検出や人口密集地域上空で飛ぶドローンの監視など様々な分野で活躍が見込められるだろう。
・画像カサ増し方法。ドローンと背景の自然な自動合成技術を用いれば、インプット画像数が少ないことによる過学習を防ぐことができる。このカサ増し方法を用いて「機械の視界」の訓練もできるので、無人機が自動で操縦される時、危険の察知や目標物の検出に役立ちそうである。例えば、自動配達ドローンでは届け先の目印検知、自動運転では人や障害物の危険察知などである。
・ビデオシャッターの隣同士のフレーム画像の差異をとることで動いている物体のみに注目することができることである。風景を含む大量の静止情報を処理する必要がないので、周りの邪魔な情報を取り除くことでターゲットを検出/追いやすくできる。「動くもの」に注目し、ターゲットを追跡するシステムは野生動物の監視、天体観測などの自然環境から夜中の不審者検出などのセキュリティ面でも幅広く応用できるかもしれない。