いつも記事を読んでいただきありがとうございます!
モブエンジニア(@mob-engineer)です!
今回は11/16(土)に参加した「第62回 コンピュータビジョン勉強会@関東」のイベントレポート記事となります。
私個人がコンピュータビジョンについて未知の領域のため、認識相違などがあるかもしれませんが、温かい目で読んでいただければ幸いです!
また、コメント等に関しても遠慮なくいただけますと幸いです。
※YOUTUBE
目次
- 読んでもらいたい読者層
- 参加したきっかけ**
- コンピュータビジョンとは
- イベント紹介
- セーフィー株式会社事業紹介
- 論文読み会
- Factorized Diffusion: Perceptual Illusions by Noise Decomposition
- Long-CLIP: Unlocking the Long-Text Capability of CLIP
- クリエイティブ・グラフィックデザインAI祭り
- VideoMamba: State Space Model for Efficient Video Understanding
- Geospecific View Generation -- Geometry-Context Aware High-Resolution Ground View Inference from Satellite Views
- Improving 2D Feature Representations by 3D-Aware Fine-Tuning
- MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping
- VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
- Minimalist Vision with Freeform Pixels
- Robust Nearest Neighbors for Source-Free Domain Adaptation under Class Distribution Shift
- UniCal: Unified Neural Sensor Calibration
- まとめ
読んでもらいたい読者層
次のような読者層の方に読んでもらえたらありがたいです。
- コンピュータビジョンに関して興味関心を持っている方
- 勉強会の雰囲気を知りたい方
- 画像生成技術に関してざっくりとして知りたい方
参加したきっかけ
参加したきっかけとして「面白そうだと思った」からという単純な理由でした。
そのうえで、個人的に画像生成技術に興味があったので参加したというのもあります。
私自身コンピュータビジョンというワードが初耳だったので、良いキャッチアップ機会だと思っていました。
コンピュータビジョンとは
Microsoftホームページに分かりやすい説明が記載されていたため載せておきます。
コンピュータビジョン は、コンピューターが画像やビデオ内のオブジェクトや人物を識別して理解できるようにすることに重点を置くコンピューター サイエンスの分野です。他の種類の AI と同様に、コンピューター ビジョンでは、人間の能力を再現するタスクを実行および自動化することを目指しています。この場合、コンピューター ビジョンは、人間が見る方法と、人間が見ているものを理解する方法の両方を再現しようとします。
コンピューター ビジョン テクノロジーの実用的なアプリケーションの範囲は、多くの最新のイノベーションとソリューションの中心的なコンポーネントになっています。コンピューター ビジョンはクラウドまたはオンプレミスで実行できます。
ざっくり言えば、写真などの画像を読み込んで、AIが理解できるように認識させる技術とのことです。また、解像度を上げるために物体認識などの画像認識の知識をキャッチアップしておくとよろしいかと思います。
イベント概要
- コンピュータビジョンに関する学習を行うコミュニティ
- 最近は最新論文を読むことを中心に行っている
- 発表者が偉いといった運営ポリシーで進めている
セーフィー株式会社事業紹介
- 自己紹介(鬼城さん)
- セーフィー株式会社のプロジェクトリーダー
- ビジョン
- 映像から未来をつくる
- 事業内容
- 監視カメラをクラウド上で管理するビジネスを展開している
- クラウド上のデータをAIを通じて分析する
- 数多くの商業施設で利用されている
- セールスポイント
- 高品質な画像
- 高いセキュリティ
- APIによるデータ連携
- AIを用いた画像認識
- スマートカメラ
- 握りこぶしサイズのカメラでLTEモジュール・バッテリーも搭載している(スゴイ)
- 技術スタックはフロント・バックに限らず、インフラ・AIまで幅広く扱っている
- データベースに関してもペタバイト単位で持っている(Amazon S3)
- コンピュータビジョン開発
- エッジ・クラウド上で動くコンピュータビジョン機構を設計
- システム設計だけでなく、ユーザ向けの教育を行っている(エコシステム的思考)
論文読み会
Factorized Diffusion: Perceptual Illusions by Noise Decomposition
公式ドキュメントより
要約:事前に学習した拡散モデルを使用して、生成された画像のコンポーネントを制御できます。これを使用して、さまざまな知覚的錯覚を生成します。
Hybrid Image
- 概要
- 距離によって画像が変わったらどう認識するのか?
- Hybrid Imageとは
- 距離に応じて見え方が変わるもの(距離にとって笑っている・戸惑っているように見えるなど)
- うまく加工すればだまし絵的なものを生成できる
- 全体のアライメント(≒位置調整)を行わないと、うまく生成できない
- 任意の画像をHybrid Imageにするには補完的な画像が必要となる
- 政治家とプロレスラーの画像は補完性がないため組み合わせても意味がない
- Factorized Diffusionとは
- Hybrid Imageを生成するためのツール
- 画像そのものに手を加えるのではなく、更新時に手を加える
- ロジック
- 生成したい画像ごとにプロンプトを作る
- 初期段階ではノイズレベルの画像しか出てこないが、周波数を合わせることでよさげな画像を生み出す
- 線型性があれば活用可能
- 応用イメージ
- 距離だけでなく色合いによっても調整できる
- 論文内で紹介している手法で100%うまくいくわけではない
- 類似性がない情報だと失敗してしまう
- まとめ
- 高品質な画像が生まれることはまれ
- 一般的なDuffusion Modelで実現可能
- CVPRで打診されたことから、このTシャツが生まれた
Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 自己紹介
- 法政大学の学部生の方
- NLP学会での発表あり
- CLIPあれこれ
- 77トークンの制限
- 絶対位置埋め込みを採用している
- バッチサイズは大きい、直感的でリーズナブルな学習ができる
- トークン制限であまり学習が出来ない
- 今回の論文ではLong-ClIPへチャレンジしたもの ※78トークン⇒248トークン
- CLIP課題
- 有効なテキストトークンが短い
- 20トークンから精度が下がってしまう
- 物体属性を理解していない※単語位置で変わってしまう
- 提案手法
- 有効な位置埋め込みの手法
- 長いトークン・短いトークンにも対応していく
- 有効な位置埋め込み手法
- 20トークン目まではそのままで、それ以降は線形補正を使ってみる
- 長いトークン/短いトークンへの対応
- 画像特徴・テキスト特徴の粒度に合わせてファインチューニングを行っていく
- 主成分分析はPCAを利用する
- 実験からも長いトークン/短いトークンともに精度向上させている
- Zero_shot画像分類(粗い粒度画像)
- 粗い粒度の画像でも性能低下は見られなかった※様々なタスクで利用できる
- まとめ
- データセットの質向上が課題となっている
- 商用利用にはまだまだ課題がある
- そもそも、248トークンの内容が画像に入っているのか?
クリエイティブ・グラフィックデザインAI祭りをやりたかった...
- 自己紹介
- LINEヤフー リサーチサイエンティスト
- ECCV2024で発表した論文紹介
- ECCV2024
- イタリア・ミラノで開催
- 学会での懇親会がパリピ感があって良き
- cvpaper.challengeでの速報もあった
- 技術マップを通じたアウトプットも行っている
- クリエイティブ・グラフィックデザインとは
- 画像生成技術を応用してデザインチックな画像生成を行っていく(デザイナー的)
- カンファレンス紹介論文より
- レイアウト(要素の配置)を自動生成することでメシの種につながる
- 目的として「生成ミスの防止」
- レイアウトに関しては「離散拡散モデル」を用いてトークン処理が出来る
- 離散拡散モデル
- 生成物に対してデノイジング(修正作業)を行うことでいい感じでアウトプットを出力させる
- 残念ながら、離散拡散モデルの修正能力はほぼない...
- マスク処理して再生成する条件の場合は良い感じで修正してくれる
- Layout-Collectorあれこれ
- 暫定生成結果を見て、スコアが低い箇所に関してマスクさせる機構
- 定量評価でもいい感じのスコアを出してくれる
- まとめ
- Layout-Collectorを用いればいい感じに性能改善ができる
VideoMamba: State Space Model for Efficient Video Understanding
- 自己紹介
- セーフィーで画像認識開発を実施
- VideoMambaとは
- Albert Gu氏が考えた新しいネットワークアーキテクチャ
- Transformerの約5倍の高度な推論技術
- 言語・音声に関してもTransformerと同等レベル
- 背景
- Transformerの二次的な処理の複雑さ
- 複雑さをなくしたシンプルなアーキテクチャが求められた
- 論文の論点
- Mambaをビデオドメインに適応させることで優れた性能を示した
- スループット・GPU消費量を削減できた(エコAI)
- 研究の流れ(SSM⇒Mamba)
- SSM(状態空間モデル)を用いた技術を応用して生まれた
- Mambaあれこれ
- 画像認識においては双方向Mambaを用いて実装してみた
- 動画だと時間による変化もあるため3D的処理が必要になる(次元数が多くなる?)
- 学習効率を向上させるためにUTM(マスク付き教師あり学習モデル)を使ってみた
- まとめ
- 論文ではビデオ理解を実現する純SSMベースモデルの提案
- 大規模なモデルへの拡張・モダリティ(音声)との統合・長時間動画への対応などがある
Geospecific View Generation -- Geometry-Context Aware High-Resolution Ground View
(衛星画像から地上画像を生成してみる)
- 自己紹介
- Elith(松尾研発ベンチャー)所属のエンジニアの方
- 論文
- 衛星画像から地上のパノラマ画像のようなものを生成してみる
- モチベーション
- 公道でのとあるシーンから静的リスクを分析したい
- 衛星画像から地上画像を生成すればリスク分析が出来るのではと思いチャレンジしてみた
- 衛星画像あれこれ
- 衛星画像内には側面画像の情報も持っている⇒オルソ修正
- アプローチとしてGANで頑張る or 視点変換がある
- 今回の紹介論文では視点変換を活用したもの
- ステレオマッチングによる3次元復元
- アメリカ・ジャックソンシティの画像をもとに実施
- 他の手法と比較して建物の3D復元に強い
- 視点が変わったときの一貫性が保証できない
- まとめ
- 都市のプロンプトを入れればそれっぽい画像を生成できる
- 忠実性は低いので、仮想都市を作るといったプロダクトであればいけそう
Improving 2D Feature Representations by 3D-Aware Fine-Tuning
- 自己紹介
- チューリング株式会社所属のエンジニア
- 自動運転チームのMLエンジニア
- 学生時代は生物を専攻(葉脈トポロジー)
- 要約
- 2次元モデルを用いて、3D画像のノイズを削除していくには
- 内容
- 3D Gaussianに2D視覚情報を入れてみる
- 処理を行う前に、特徴量データを入れる
- レンダリングした画像をもとに、学習させてみた
- 良い感じで画像処理を行うようになった
- ポイントは**構造物の情報取得(椅子の脚の形など)**かしら
- 屋内だけでなく屋外でも実証してみたらよさげな結果が出た
- 3D Gaussianに2D視覚情報を入れてみる
- まとめ
- 3DGSを使って2D視覚モデルを改善するのはよき
- 視覚モデルは3D構造を理解しているという感じではなさそう
- 自動運転で活用できそうな印象を持っている
MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping
- 要約:オンラインマッピングXトラッキングを活用した技術
- 自己紹介
- 自動運転向け画像認識の研究開発をされている方
- 前提知識
- 自律走行システム(良い感じに経路を決める)の実現を行っていく
- オンラインマッピングとは
- 路面情報から道路情報を推定して地図を作ること
- 典型的な方法としてはセグメンテーションがある
- やっていることは、正面から見た画像を上から見た画像に変える(衛星画像風にする)
- 典型的な方法だと、再現するのに時間がかかる⇒トラッキング技術を使う
- 地図要素でのトラッキング
- 常に同じ状態を維持し続ける(自身の動きに対して物体が依存するわけではない)
- 手法の話
- 典型的なマッピングモデル(BEVエンコーダ)と地図要素を検出するDecoderを用いる
- メモリバッファを用いて、複数フレームをまるっと処理させるイメージ
- 自車の動き情報に合わせて、処理キャンセルさせていく
- 実験結果についても定量・定性でも割といい感じだった
- 典型的なマッピングモデル(BEVエンコーダ)と地図要素を検出するDecoderを用いる
- オンラインマッピングの鑑賞ポイント
- クエリ粒度はどうか
- Self-Attention部分の工夫など
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
- 自己紹介
- Sansan社へ新卒入社したエンジニアの方
- シニアリサーチャーをされている方
- 要約:視覚文書理解に関する論文説明
- 視覚文書理解とは
- 画像化された文書から意味のある情報を理解するタスク
- OCR技術を用いた技術スタック
- アプローチ方法としてOCRベースとORCフリーの方法
- OCRベースのアプローチ
- LayoutLMファミリーを用いて視覚文書理解を実現していく
- UDOPを用いた手法
- レイアウトを考慮したモデル
- OCRフリーのアプローチ
- Donutを用いたOCR非依存な先進的モデル
- 内容的にはTransformerを用いたもの
- pixiv2Structなどのモデルもある
- LVLMの台頭でモデルが多数出てきている...
- Donutを用いたOCR非依存な先進的モデル
- Sansanでの取り組み(内製モデルとしてViolaを利用)
- 複数モデルの検証、サービスとしても利用されている
- 提案手法
- 既存手法の課題(無関係な視覚情報が含まれている)といったところがある
- 良い感じで視覚情報をチューニングしたい
- Learn to Readの実施:とりあえず読ませて理解させる
- LMPM:単語へのマスキングを通じて周辺語から判断させる
- やりすぎると、あまりよくないのでほどほどにしておく
- 評価
- 既存方法と比較して、定量評価ではいい感じの結果が出てきた
- 定性評価でも、ニアミスなども少なくいい感じになっている
- まとめ
- シンプルな構成でもECCVに採択されているので良さげ
- 商用利用するとなる、初期段階でプロンプトを使いこなしたいので改善が必要な印象
Minimalist Vision with Freeform Pixels
- 自己紹介
- セーフィー株式会社でテックリードを行っている方
- 五反田食事どころをInstaで紹介している(笑)
- 論点:不要なセンサ・推論処理を省いて省力化を実現した
- Minimalist Visionとは
- シーンに応じた統計情報を出力するタスク
- 従来の処理
- センサが画像処理を行い、画像を入力して処理⇒不要な処理も取得しているため電力消費が高い
- 調査対象
- 人数・机の利用・ソファの利用・ドアの開閉を調査
- センサモデル
- 現状を踏まえモデル化させていくことが必要(正しく学習できない)
- 論文自体にカメラ仕様に関しても言及しているのでハンズオンも可能
- 結果
- 既存システムと比較して1000分の1の電力消費量で実現できた
- ディスカッション
- マスクは液晶デバイスを利用すれば電子的に処理が出来るのでは?
- 複数タスクを時間分割させていけるのではないか
- ハンズオンワーク
- タスクとして:自販機前に人がいるかいないかの分析
- まとめ
- ニューラルネットの計算を光学系で実現可能
- ビジネス視点で利用するのであれば、低消費電力は魅力(熱暴走は怖い)
- タスクによって必要なマスク数が変わってくる
Robust Nearest Neighbors for Source-Free Domain Adaptation under Class Distribution Shift
- 自己紹介
- サイバーエージェントで働いているリサーチャーとの方
- 剣道・カラオケが趣味
- source-free-domain-adaptationとは
- モデルデプロイ後に学習元のデータ差異によって学習精度が下がってしまう
- 学習精度の低下を防ぐためにsource-free-domain-adaptationを利用する
- 学習済みデータとリアルデータで学習させる必要がある
- あらかじめラベル付けを行う必要があるが、今回の手法ではラベル付けを行わなくてもいい
- 学習データの特性によっては学習済みデータとリアルデータで差分が発生する
- 学習済みデータとリアルデータの差分を埋めるために
- 解決に向けた研究は行われているが、どの研究でもラベル付けが前提となる
- 学習済みデータを平等(ユニフォーム)にさせることで改善できるといった研究はある
- やり方としてはかなり邪道
- 学習済みモデルをいじらずに実現するために
- 原因として多くあるデータが他データに影響を及ぼしていた
- セカンドオピニオン的な取り組みを取り入れることがよいのではとなった
- 学習コストを抑えて効果的な学習ができる
UniCal: Unified Neural Sensor Calibration
- 自動運転に関する会社(T2)所属のエンジニア
- waabiが発表した自動運転システムに関する紹介
- キャリブレーションとは何か
- センサの入力を3次元的に処理させる機構
- センサの入力は2次元なので、三次元空間でのマッピングが出来ない
- 良いデータはキャリブレーションすること
- 時速100KMで動いているので、小さな誤差も許されない
- 正確なデータ分析が必要
- キャリブレーションあれこれ
- 安定したキャリブレーションを実現するために複数台に展開しないといけない
- 自動化することもできるが、専用設備が必要になるためコスト高になる
- 求められるのは簡潔にできること
- 本論文で示唆していること
- ニューラルレンダリングを用いて、走るだけでキャリブレーションが実現できる
- 設定について
- カメラの内部パラメータは既知
- キャリブレーション情報が与えられれば微分可能になる
- 学習時は徐々にキャリブレーションさせていく
- 特徴点を学習するようにチューニングさせていく
- 評価
- 他のキャリブレーションモデルと比較して特徴点を正しく評価できている
- 従来手法と比べると短時間で処理が行える
- 8の字ループだとよさげな結果になりそう
- 利用シーン
- 都会だと使いづらい、かといって田舎でも難しい
- 要は、そこそこ車が走っている環境だと使えるイメージ
- まとめ
- データセットが独自のものなので、何とも言えない
- 手法自体はシンプルなので、実現すればよいイメージ
まとめ
イベントに参加してみてコンピュータビジョンって何かといったポイントに関して、少しだけ解像度を上げることが出来たかなぁと考えています。そのうえで、技術的な内容について分からないところがそこそこありましたので、キャッチアップしていきたいと思いました。
最後まで記事を読んでいただきありがとうございました!
本記事を通じて、コンピュータビジョンに関して少しでも興味を持った方がいらっしゃれば、ありがたいと思います!