Minimalist Vision with Freeform Pixels

Posted at 2025-10-29

1. 概要

　一般的な画像処理や深層学習のタスクにおいて画像を入力とする場合、高解像度なピクセルがあるほど精度が高くなるため、従来は高画質な画像をグリッドに区切って処理をするタイプの手法がよく用いられた。
　一方で、画像の解像度が上がることで、1)プライバシーに配慮して個人情報として取り扱わなくてはならないことや、2)計算時間がかかるため処理が重く消費エネルギーが大きくなる、といったデメリットがあった。
　この研究では、わずか8ピクセルの専用カメラを作成しニューラルネットワークの構造と一体化した処理を実現することで、室内監視における人物カウントや状態把握、屋外監視における交通量推定といったタスクに対して、従来の高解像度な画像を用いた処理と遜色ない精度の推論を実現した。
　提案手法である"ミニマリストビジョン"では、8ピクセルという画素の少なさからプライバシー問題を回避でき、また外部電力やバッテリーなしに自己給電可能な専用カメラを設計している。
　一般的なコンピュータビジョンのタスクでは、撮影済みの画像を後処理で解析するが、提案手法では専用カメラの設計段階から機械学習を入れることでより省エネかつ効率的にタスクを解決できるようにしている。

*BEST paper award

2. 新規性

任意形状ピクセルでの解析：
　従来は正方形のグリッドベースによる解析が一般的だったが、提案手法ではタスクに応じて最適な自由形状のピクセルを導入している。これにより、各ピクセルがより多くの情報量を得られるようになり冗長性無く少ないピクセル数で高い性能を実現できる。
　例えば、対象の形状や動きに合わせて予め形状を決めておくことで効率的な情報取得が可能となる。提案手法では、この任意形状のピクセルをタスクに合わせて学習型で生成している。
ハードウェアとソフトウェアの協調設計：
　任意形状のピクセルでの撮影というハードウェア設計をニューラルネットワークの最初の層としてモデル化し、タスクに合わせてエンドツーエンドで学習させている。これにより、ハードウェアとソフトウェアが最適に連動し高い性能を発揮している。

3. 実現方法

通常のカメラ撮影の場合はシーンをキャプチャすると、小さなパッチとなって四角いピクセルとして撮影される。一方、提案手法ではシーン全体をバイナリーマスクに通して撮影することで、任意形状のピクセルをで撮像することを可能にしている。
*フォトディテクタは光を電気信号に変換する素子

フォトディテクタからの微弱な電気信号をゲイン増幅器(アンプ)で増幅し、信号をノイズから区別しやすくする。信号の読み出し家庭やアナログ信号をデジタル信号に変換する過程で、ノイズが混入してしまう。これらのノイズは、ピクセルの出力精度を劣化させる要因となる。また、フォトディテクタが扱える光の強さには限界があり、強すぎる光が入ると正しく測れなくなるため、ある範囲を超える強い光が入射した場合、出力信号は飽和しクリッピングが発生する。
ここまでの過程の光学効果と信号処理を経て得られた、各任意形状のピクセルの出力値を推論ネットワークに入力する。推論ネットワークは、カメラ内のすべてのピクセルから情報を集めて、最終的なタスクの出力(例えば、人の存在、明るさ、交通量)を生成する。
マスク部分と推論ネットワークが学習可能なパラメータを備えているため、タスクを解くための最適なパターンがマスクとして獲得できる。

学習したマスクを1枚の透明フィルムに印刷し各ピクセルに貼る。マスクの裏側にフォトディテクタがイメージングボード上に配置されており、各ピクセルがマスクを通じて受けた光を対応するフォトディテクタで検出することができる。増幅器など事前に設計しておいた信号処理回路も取り付ける。
カメラの両側に薄型のソーラパネルが取り付けられており自己給電で動作する。