abstruct
・シーン理解
・Knowledge-Embedded Routing Network(KERN)を開発->オブジェクトラベルとオブジェクト対のラベルを別々のGNNで予測
・the large-scale Visual Genome datasetでSOTA
・CVPR2019
背景
・シーングラフ生成の既存アプローチ
・ターゲットオブジェクトの領域に頼る
・認識を助けるために加えて文脈的な手掛かりを導入する
・既存の問題点
・大量のサンプルが必要
・なぜ大量のサンプルが必要か
・実社会でのオブジェクト同士の関係が不均一→大量サンプル数が必要
・KERNは、オブジェクト同士の関係の統計的相関が意味空間を効果的に正則化し、予測の曖昧さを少なくすることで、データの不均衡問題にうまく対処した
ネットワークの大きな流れ
object detection(Faster RCNN)
↓
グラフ作成
↓
GNNを繰り返すことによってノードを予測
↓
予測されたノードラベルを使用
2つのノードをラベル数分のグラフを作成
GNNを繰り返すことでノードの関係を予測
すべての接続しているペアを入力
↓
シーングラフ作成