論文解説】画像や動画の「あらゆる概念」をセグメンテーションするSAM 3の登場!
1. 概要 本記事では、Segment Anything Model、通称SAMシリーズの最新版「SAM 3: Segment Anything with Concepts」の論文を解説します。...
39 search resultsShowing 1~20 results
You need to log-in
1. 概要 本記事では、Segment Anything Model、通称SAMシリーズの最新版「SAM 3: Segment Anything with Concepts」の論文を解説します。...
Stochastic Activations: SILU と RELU をランダムに切り替えて最適化とスパース性を両立する手法 背景 トークン効率とスパース性の問題 大規模言語モデルは、Feed...
Wave-Based Semantic Memory 背景 意味検索では、多くのシステムがembeddingを保存し、cosine similarityによって検索対象との距離を測ってきた。 こ...
Kimi K2は何をしているのか Muon の学習不安定性と QK-Clip、MuonClip、Self-Critique RL のポイント 背景 大規模言語モデルの性能は、どれだけ効率よくトー...
Vision Transformers Need Registers: 解説 概要 この記事では、視覚表現学習におけるVision Transformer(ViT)の改善策を提案する論文「Vis...
画像生成における自己回帰モデル(VAR) この記事について 本記事は「Visual Autoregressive Modeling: Scalable Image Generation via ...
最近、Transformerに代わる新しいモデルとして「Mamba」が注目されています。 連続的なデータを扱うのが得意で、計算量も少ないのが利点です。 ただ、画像認識の世界、特にスマホのような軽...
Deep Neural Networksは、独立同分布を前提とした静的なデータセット上で絶大な性能を発揮する一方で、動的な環境下で逐次的に知識を蓄積するContinual Learning (C...
【論文読み】 今回は2025年6月に発表された、点追跡(Point Tracking)の分野で大きな注目を集めている「AllTracker」という論文を読んでいきます。 論文: AllTrack...
Ubuntu コマンド逆引きチートシート Ubuntuを使っていると、「こういう操作がしたいけど、どのコマンドを使えばいいのだろう?」と思うことが多いかもしれません。 ここでは、よくある目的ごと...
※まとめができ次第,随時更新中です!! はじめに 12/10~12/15にバンクーバーで開催されたNeurips2024の数ある論文の中で、今年注目が集まっているMambaに関する論文を集めまし...
※追記 Swiftを学び初めて1年、ついにiOSアプリをリリースしました!!! LINEヤフー株式会社様主催のHackU2023でも賞をいただくことができました...!! ・毎日の服の上下の組み...
はじめに 画像処理分野では、アテンションマップを用いたViT(Vision Transformer)の登場によりさらなる発展を遂げてきました。しかし、ViTによる高解像度画像の処理における計算コ...
【CVPR2024】継続学習の新手法:干渉のない低ランク適応(InfLoRA) 概要 この記事では、CVPR 2024で発表予定の論文「InfLoRA: Interference-Free Lo...
GPUの性能を最大限引き出す!FlashRNNによる50倍高速化 はじめに 近年、自然言語処理や時系列予測などの分野では、Transformerに代表されるシーケンス並列化可能なニューラルネット...
SAMモデルをベースにした高精度な物体追跡手法「SAMURAI」 SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tr...
Vision Transformerの特徴マップを高密度化する軽量な変換手法「LiFT」 LiFT: A Surprisingly Simple Lightweight Feature Tran...
Few-shot Class-incremental Learning: 中間特徴の潜在能力を引き出す新手法 1. 概要 本記事では、「Rethinking Few-shot Class-inc...
1. 概要 本研究では、航空画像における小物体検出のための新しいDETRモデル「DQ-DETR」を提案しています。従来のDETRモデルは固定数のオブジェクトクエリを使用するため、画像内のオブジェ...
【ECCV2024】Vision Transformerの性能向上: テキスト特徴量を活用した忘却の軽減と適応的パラメータ融合 1. 概要 本研究では、大規模な視覚言語事前学習モデルCLIPを用...
39 search resultsShowing 1~20 results
Qiita is a knowledge sharing service for engineers.