視覚言語モデルの進展で、画像認識は終わるのかという問いかけをする人もいる。
しかし、未解決の画像認識技術が大量に残っていることを主張したい。
想定する読者
- 新しい分野へ取り組むことを考え始めている画像認識のエンジニア
- 画像認識・機械学習のエンジニアの採用を検討している側の担当者
OpenCV Advent Calendarにむけて
- OpenCVなどの画像認識技術者が、その応用分野を開いていくのに役立つようにメモをリンクしました。
- 人生はチャレンジに満ちている。
ロボットの分野
- 視覚言語モデル・強化学習が動作生成に進展中の分野
- 画像認識技術・機械学習分野で世界的の競争の厳しい分野の1つ
- 「諦めたらそこで試合終了ですよ」という分野。
- ロボットの応用分野で、他国に支配されてたくなければ、あがき続けるしかない。
- 物体検出・セグメンテーションも、対象物を示す言葉を制約せずにできる状況になっている。(open vocaburary object detection)
- VLA(Vision-Language-Action)という問題設定の中で、End-to-endの機械学習が推進されている。
ロボットの動作を、模倣学習や強化学習などの手法によって学習させようとしている。その中で物体検出やセグメンテーションは、VLAというタスクの中に隠れたタスクになる。
大規模言語モデルが精度がでている前提で開発していく領域
- うまくいっている限り、こっちの方が楽しいです。
大規模言語モデルの精度を疑って検証して改善していく領域
- こちらは、茨の道です。
- 精度を評価するためのデータセット、精度を評価する指標は本当にそれでいいのかを疑ってかかる。
- 「自前のデータセットを追加して学習したら、既存のデータセットで誤検出が増えた」と思ったら、
既存のデータセットのアノテーションが不足していたことが理由なんてことは、よくあります。
新しいタスクは新しいデータセットを必要とする。
ロボットの中で実現していくタスクを明確にしよう。
そのタスクの実現にはどのようなデータセットが必要になっているのかを調べよう。
そのタスクに対して、既にどのようなデータセットが作られているかを調べよう。
そして、そのタスクに対するSoTAの実装で利用可能なものがあれば、まずは試してみよう。
そして、それを自分たちの用途の中で使い物になるのかを検証していこう。
そうすると、自前の評価用データセットが必要になる。
画像認識屋は、データセットの構築をしてきたことが多い。
- どのようなカメラを使って、どのようなデータを取得するのかという経験は、機械学習をしてきた画像認識屋は強い。
- データの偏りが、どのような学習の失敗に結びつくのか知っています。
- ですから、初心者だけで機械学習に取り組むよりは、成功しやすくなると思います。
私の想定する未来
- 2足歩行でない種類のロボットが、認識と制御と動作生成分野の進展で、できる作業量を拡大する。
- グリッパーだっていいじゃない。
- 歩けなくたっていいじゃない。
- Mobile ALOHA のレベルのハードウェアでもまずは十分。
- 役に立つことが実証されていけば、ロボットのハードウェアとして洗練されていく。
- 挟み込み対策、汚れ対策、防水対策など
- 社会実装としてのきめ細やかさを満たしたものが定着する。
- それを受け入れる側が納得のいく使われ方をしていること。
- 人が予測した範囲から大きく逸脱しない。
危機感
- 従来の産業用ロボットでのティーチングの常識が変わってしまう、そのため従来のインタフェースしか持たないものは、産業用ロボットの分野の市場さえ失ってしまうだろう。
農業分野でのロボットの導入
-
キュウリの分類問題とどうようなことが、作物の種類分だけあります。
-
トマトの熟れ具合の判定は、色の情報が重要です(RGBカメラを使っている場合)。
- 目的の果実が熟しているのかの判定には色が重要です。
色は、照明・カメラの色特性・絵作りに影響を受けます。それでも安定なトマトの熟している・熟していない判定を作ることになります。
- 目的の果実が熟しているのかの判定には色が重要です。
-
直射日光下の画像認識の安定性の問題。
-
使用するカメラの処理と色バランスの問題。
-
対象物のセグメンテーション問題。
-
セグメンテーション結果と3D計測の関連付け
-
動作生成の問題。
-
そういった個別の問題が山ほど存在します。
そういった分野で、課題解決するというチャレンジが存在します。
最後は、どこまでユーザーに寄り添えるかが決め手となる。
トマトの熟し具合の判定だけで、ビジネスを成功させることはできません。どういう一連のシステムを作って、どのようにサービスを回しているのかが大事になります。
おそらくは、カメラや機械学習にかかわる部分は、それらのビジネスの中のほんの一部になるはずです。
そのとき、そのビジネスを仲間と一緒に解決していくことが、求められます。
ロボット分野の雑誌
ロボット分野のAIの進展状況を探るには、以下の雑誌が有用だろう
Nikkei Robotics
これに書かれていることを自分で調査する社員の時給を考えたら、十分に安いと思う。
映像製作分野
既に、機械学習者の手を離れて、映像製作分野のプロの手の中にあるだろう。
3Dのモーションキャプチャ技術・モーションアクターの技術が活躍している状況だろう。
3Dシーンの環境データの取得
- 3D Gaussian Splatting などは、どう効率的に利用していくかという状況だろう。
- 3Dの環境データの取得は、映像制作だけではなく、ロボットの動作の中でも必要な技術だろう。
視覚言語モデル・拡散モデルなどによる動画生成
- 既に多数、Youtubeにあふれているので、省略。
医療用画像
- 2D画像診断
- 超音波画像
- X線画像
- 内視鏡画像
- 3D画像
- ボリュームレンダリング画像(CTなど)
- 内視鏡のステレオ画像
手強い理由
-
間違えた判定の影響がありすぎます。
手術不要な人へ手術を生じてはなりません。 -
説明可能なAIが求められます。
説明可能なAIの開発については、機械学習タスクごとに違ってきます。物体検出・セグメンテーション・クラス分類などによって説明可能にする方法が違ってきます。クラス分類の場合には、決定木によるクラス分類の場合には、どのような特徴量によって、どのように判定しているのかをトレースしやすい傾向があります。 -
正解のアノテーションが簡単ではないこと
- アノテーションについては、医学的な知識のある人による確認が必須である。
- アノテーション済みのデータの数は少数になってしまう。
- 医療用の画像認識の場合には、良質なアノテーション済みデータを利用できるチームの一員となることが大切です。
良質なアノテーション済みデータがないかぎり、どのようなデータサイエンティストであれ、そのような機械学習の開発者であれ、できることは限定されるはずです。
-
一般の物体検出でのデータ拡張を適用できないこと
- 色情報が意味を持つ。
-
医療用画像の機械学習では、通常画像での機械学習と前提としている条件に違いがですぎるので、その違いを考慮したうえでの改善ができることが必要になる。
- 例:3D計測
- 内視鏡画像には、環境光が存在しない。そのため、左カメラと右カメラの対応点で、イメージセンサのカウントが同じになることを期待してはいけない。 - 内視鏡画像では、対象物はすべて水分を含んでいるので、水分による反射特性があることを意識することになりそう。
- 内視鏡画像では、対象物が変形するので、異なるフレームのデータを解釈するときに剛体とは異なる難しさ
- 例:3D計測
-
医療機器ソフトウェアの認証
医療機器の中で使われるソフトウェアの認証について、各自調べてみてください。
医療機器ソフトウェアの国際標準化状況
それらの分野について調査してみよう
医用画像セグメンテーションに向けた基盤モデルの fine-tuning 手法の検討
Davinciの特許が切れたことで、医療用ロボットの開発も拡大している。
使えそうな進展
脳波
脳波の時系列データ解析
3Dの点群としての計測
3D Gaussian Spllattingとスケーリングの妥当性(LiDARなどによる)が加わったとき、多くの価値が得られる。
触覚技術への応用
面としての触覚には、画像認識系の技術が転用されている。
- 例 Vision Transformer系の技術が、面としての触覚に利用されている。
外観検査
- 工場内の外観検査
- 工業製品の外観検査
- 農作物・食品などの一定していない対象物での外観検査
- 建築物の外観検査
- ドローンを利用する外観検査
それぞれ、前提とする対象物・カメラが違ってくるので、それぞれの分野で必要なノウハウは違ってくる。
新しくそれらの分野に加わった場合には、まず既存の手法を理解することです。
そのうえで、改善できる可能性を探っていきましょう。
データ拡張は、画像認識の機械学習で使われてきた様々な手法が候補に入ってくるでしょう。
「導入前: 1,000個をすべて人が判断
導入後: 1,000個のうち、不良品の可能性が高い30%をAIが判断.
30%のみ 検査員が目視検査」出典 AI導入ガイドブック 外観検査(部品、不良品あり)
このような判定でも、検査員による目視検査が激減するので、効果がある。
異物混入検査
- 正常系のデータの分布によって、異常を見つけようとするアプローチもあります。
- 近赤外カメラ画像やマルチスペクトルカメラを使うアプローチもあります。
- 磁石に反応する金属を見つけるというアプローチもあります。
- この手の分野の手法を調査してみましょう。
- 展示会情報
- 国際画像機器展
- 画像センシング展
マシンビジョンの分野書籍の例
〔産業分野における〕AI・ディープラーニングを利用した画像検査・解析の効率化
食品の安全・安心を守る分析・評価技術 PDF版
食品製造における自動外観検査・異物検査 技術・装置ガイド
製造DX推進のための外観検査自動化ガイドブック
外観検査の実務とAI活用最前線 ~目視検査のコツから自動化のポイント・人工知能の導入まで~
pdf AI導入ガイドブック 外観検査(部品、不良品あり)
画像ラボ
画像から素材を推定できないか
- ネコの写真を見ると、そのふわふわとした毛を想像する。
- そのような具合に、ヒトは、画像領域の特徴を推定しながら行動している。
- そのような知見を含むpre-trained モデルを用意することはできないだろうか
どの分野でも必要なこと
- 目的のユースケースで性能がでているのかどうか評価を大事にすること。
- 評価用のデータベース・評価用手法などをバージョン管理し、再現可能な状況を維持すること。
- MLOps とよばれる領域です。
- DevOps が得意な人たちと協力して、メンテナンスすることです。
どの分野で共通なこと
- 課題を解決していくのはチームのしごとです。
- あなた一人で解決しようとしないことです。
新しい分野に取り組もう
- 画像認識屋・機械学習屋は、課題を解決していけば、次の課題に取り組んでいくように定められている。
- いくつかの過去のタスクは、ほぼほぼ解決済みになっている。
- だから、新しいフロンティアに取り組める。
拡大する分野には、異分野からの新規参入する人材が必要になります。
- 「医療系の機械学習には、必要な要素が多すぎるので、それに対して十分な能力を持つ人は限られる。」と考えて、人材を補充しないことは、もったいないです。
- 今の時代は競争がはげしいので、ゆっくりしていると海外の企業に先を越されてしまいます。
解決してきた挑戦は、次の挑戦のための糧になる。
- 機械学習を改善するために行なってきた様々な試行錯誤は、次の挑戦においても参考情報になる。
- 深層学習時代のデータ拡張の手法は、Transformerベースの実装においても参考になる。
数学がわかることは強い
- 機械学習の多くのアルゴリズムは、最小化問題である。どういう束縛条件をいれた最小化問題として、そのアルゴリズムが構築されているのかを知ることは、複数の似たようなアルゴリズムを理解して比較するときの参考になる。
物理をわかることも強い
物理とは、自然をどのようにモデル化したらいいのかという問題に対して取り組んできたものである。
その結果、モデル化に成功した範囲は。推論predict()が可能になっている。
物理学では、一つの問題に対して、異なる定式化によって問題を解くのをやってみせる。
また、同じ定式化によって、異なる物理現象も共通に解けることを学ぶ。
だから、物理学に強いことは、画像認識・機械学習のアルゴリズムを理解するのに役立つ。
制約条件付きの最小化問題を知っているのも強い
- 機械学習の問題の多くは、制約条件付きの最小化問題として定式化されています。
- そういう視点で個別の実装を比較できることは、多くの利点を持ちます。
- どのような制約条件で、何を最適化するのかについて、タスクを分析できれば、アルゴリズム自体への改良が可能になります。
良質の学習データを作れることも強い
- 機械学習は、どのように良質の学習用・評価用データを持つかによって、結果が著しく違ってきます。
- データへの洞察力が、その鍵です。
- どのようなデータが足りていないことを見つけ出して、それを補うことができるのも才能です。
- 標準的なデータ拡張としてまだ用意されていなかったデータ加工を、自ら作り出して学習結果の性能を向上させるのも強みです。
国内の開発者が情報を持ち寄っていく関係を作っている人は強い。
- 他の人の協力をあおげることは、力になります。
- 最近の論文や実装の調査でもそうです。
- CVPR Challenge のサーベイメンバーになるという方法があります。