はじめまして。
大学院の研究で、高精度な虹彩検出を行う深層学習モデル(以下、モデル)を作ろうとしています。その際、モデルの学習を行うデータセットについての情報が日本語ではまとまっておらず、調べるのにだいぶ時間がかかりました。せっかくなのでこちらにまとめてみます。
NIR画像とVIS画像
まず、虹彩検出を行う際の入力画像は大きく分けて、Near InfraRed(NIR) と Visible (VIS) の2種類の画像タイプがあります。
NIR画像は、下のようなヘッドマウントタイプのアイトラッカーが使用する画像で、目の近くに赤外線光を照射し、赤外線カメラで撮影して得られる画像です。
VRに搭載されているアイトラッカーもNIR画像から視線推定を行なって計算されています。
NIR画像からの視線推定は分野の研究が進んでいて、"Iris detection"などのキーワードで検索したときに優先してその研究についての論文が出てきます。
NIR画像の方が得られる情報としては細かく、単に下で紹介するVIS画像をグレースケール画像にしたものではないことに注意が必要です。
NIR画像とVIS画像の割合はNIR画像の方が多く、画像数にすると約1:9の割合でNIR画像の方が多いです。
NIR画像のデータセットについて
データセットの実際の画像、枚数などの基本情報を下に示します。
この中で有名なのがCASIA-IrisV4で独自の撮影機器を使って目周辺のNIR画像を取得しています。
githubで公開されています。
VIS画像のデータセットについて
一眼カメラやスマートフォン搭載のカメラで撮影した外見から作られるのがVIS画像です。
一眼カメラで撮影したデータセットとして、UBIRIS-v2,
スマートフォン搭載のカメラで撮影したデータセットとして、MICHE-I
などがあります。
データセットの実際の画像、枚数などの基本情報を下に示します。
基本的に眼領域をくり抜いた画像だけが提供されていることが多い印象です。
虹彩中心のラベルもついているデータセットとして、UBIPrがあります。
ただし、自分が使いたいモデルは顔領域を検出してから虹彩検出をする、という手順を踏んでいたので眼領域だけでなく、顔も含んでいてかつラベルがついているデータセットが必要でした。
そのようなデータセットがGI4Eです。
GI4Eは一般的なPCについているwebcamで撮影した写真に虹彩中心を含む眼領域のアノテーションがされているデータセットです。実際の画像が下です。
僕が使いたいモデルはスマートフォンで撮影した顔写真を基に視線推定を行うモデルだったので、GI4Eを使用することにしました。今のところ顔画像と虹彩中心のラベルづけがされているデータセットはGI4EとBioIDの2つだけ僕の方では確認しています。
虹彩中心のアノテーションの付け方
アノテーションを行った方法が論文に記載されていないことも多いのですが、アノテーションをサポートするツールを独自で作って手動でアノテーションする、複数人が手動でアノテーションを行い、その平均をGround Truthとする、などの手法が取られています。
結び
以上、虹彩検出のデータセットについてまとめてみました。
想像以上に様々な種類があり、自分の希望するデータセットにたどり着けないケースもあるかと思います。
NIR画像とVIS画像を区別し、自分が使用すべきデータセットを見つける手助けになれば幸いです。
参考文献
Omelina, Lubos, et al. "A survey of iris datasets." Image and Vision Computing 108 (2021): 104109.
Villanueva, Arantxa, et al. "Hybrid method based on topography for robust detection of iris center and eye corners." ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM) 9.4 (2013): 1-20.