More than 5 years have passed since last update.

ボクセルデータをつかって類似形状検索をやってみる

Posted at 2018-09-27

ある画像からその画像の特徴を使って、似ている画像をデータベースから検索してくる類似画像検索は、コンピューター・ビジョンの世界では一般的になってきておりAPIなども登場しています。

例えばWebページの検索エンジンであれば出現するキーワードの重要度や、ページ間のリンク強度などをもとに欲しい情報が上位にランクされるようになっていますが、類似画像検索として扱いたいのは、そういったキーワードやタグによらず画像そのものの特徴を比較して似ているものを探したいケースです。

本記事は画像の場合と同様に、3Dデータのボクセルデータに対して類似形状データの検索(Retrieval)を試してみます。
※ボクセルデータは、2次元ピクセルデータの3次元への拡張版で、(x, y, z)の格子に値を持つデータです。CADやCTデータなどがこの形式で表現されることがあります。

全体の流れ

大まかな流れとして、データを特徴量に変換 → 特徴量間の類似度を計測 → 類似度が高いデータを取り出す、という流れになります。

まず特徴量への変換ですが、例えば類似画像を検索する場合、画像処理による作り込み特徴量(SIFTやHoGなど)やニューラルネットワークで特徴を作ることが多いかと思います。今回は3Dオートエンコーダーを使って特徴量へ変換したいと思います。
その後、その特徴量の間の類似尺度としてコサイン類似度を使って、類似したデータを検索します。
その際、似た形状の商品を探したい場合など膨大なデータの中から探すのは手間ですので、検索エンジンと同様に上位に形状が似たものが上がってくるようにしたいです。

また前提として、データ間の類似の定義は予めしておらず(教師データはなし)、オートエンコーダーで作成した特徴量のみを頼りに検索します。

※参考コード(tensorflow実装)はgithubで公開しています。

対象データ

対象データとして、一般公開されているModelNetを使用します。
クラス数が40のものと10のものがある(フルデータの場合は別途コンタクトが必要)のですが、今回は10クラスのModelNet10を使用しています。
10クラスに含まれるカテゴリーは、bathtub、bed、chair、desk、dresser、monitor、night stand、sofa、table、toiletと家具関連になります。
ダウンロードすると、初期状態でtrainとtestにディレクトリーが分かれているのでそのまま使います。
このデータを32×32×32の立方体にリサイズしてネットワークへの入力データとします。

PRINCETON MODELNET
http://modelnet.cs.princeton.edu/

特徴量作成

今回は、3Dオートエンコーダーを使用します。
3Dオートエンコーダーは、2D版と同じくエンコーダーとデコーダーで構成されており、エンコーダーが畳み込んだ特徴量をデコーダーがもとのデータに復元するように学習させます。
ネットワーク全体のちょうど中間にあたるエンコーダーの出力をそのデータの特徴量と考え、この特徴が近い形状のデータを探します。

ネットワークと学習

以下の畳み込み3Dオートエンコーダーを使用します。エンコーダー、デコーダー共に3層の畳み込み層をもつものにしました。入力データとデコーダーの最終層の出力のクロスエントロピーをロス関数として採用しました。

10クラスの全学習データを使って、500エポック学習をさせたものを最終的なモデルとしました。
ModelNetは上に挙げた10クラス以上の分類は存在せず、全クラス一括で学習させているので、例えばあるベッドのデータをクエリー対象として、ベッドに近いイスがヒットするということもありえます。

データ間類似度と検索

学習させたモデルのエンコーダーの出力をデータの特徴量として扱い、この特徴量の類似度が高いものを順に並べたものが類似度が高いデータとなります。
類似度を図る指標として、コサイン類似度($0$~$1$の間をとり値の大きいものほど類似)を使用します。類似度の計算は総当たりで行い、値の大きい上位$k$個をランキング形式で検索します。