1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

「生成AIを用いて論文を読んでみた」シリーズ - まとめページ

Last updated at Posted at 2025-04-12

これまで、ChatGPTを使って機械学習の論文を把握しようとして来た試みの中で、多数Qiitaに投稿して来た「生成AIを用いて論文を読んでみた」記事のまとめページを作りました。

内訳: (計54記事、論文39件)

  • 画像の分類系: CNN系 / Vision Transformer系 / ImageNetでSoTA / 物体検出系、
  • VAE系、画像の生成系、
  • Transformer・言語モデル系、
  • 学習方法、
  • 自動運転系

以降で、分野・種類毎に分けて、一覧で記載します。

画像の分類系

画像の分類系: CNN系 / Vision Transformer系 / ImageNetでSoTA / 物体検出系

CNN系

主な手法名: ResNet-ResNeXt, SE block, EfficientNet v1-2, ConvNets

各論文内容の概要:

  • ResNet(2015年)は、深層残差学習という革新的なアプローチを提案した論文。層が深くなることで学習が困難になる問題を、残差接続によって解消。
  • ResNeXt(2016年)は、ResNetの構造を拡張し、複数の枝(分岐)を持つ集約型ブロックを導入することで、表現力を高めたもの。
  • SE block(2017年)は、チャネル間の依存関係に着目し、特徴マップの重要度を動的に調整する仕組みを導入。
  • EfficientNet(2019年)は、モデルの深さ・幅・解像度を同時にスケーリングするための原理的な指針を示した軽量モデルの設計手法。
  • EfficientNetV2(2021年)は、EfficientNetをさらに改良し、学習速度と精度の両立を図り、特に現代的な学習戦略に適応した設計。
  • ConvNets vs ViT(2023年)は、従来のCNNとVision Transformerを同一条件で比較し、大規模データセット上での性能差や設計上の要因について検証。

2024/08/29
https://qiita.com/dl_from_scratch/items/910727ec6bb49dc98b5d
生成AIを用いてResNetの論文「Deep Residual Learning for Image Recognition (2015)」を読んでみた

2024/08/30
https://qiita.com/dl_from_scratch/items/7b0bc87923c675b396ed
生成AIを用いてResNeXtの論文「Aggregated Residual Transformations for Deep Neural Networks (2016)」を読んでみた

2024/08/22
https://qiita.com/dl_from_scratch/items/cf5bb954396595c4a340
生成AIを用いてSE blockの論文「Squeeze-and-Excitation Networks (2017)」を読んでみた

2024/08/25
https://qiita.com/dl_from_scratch/items/926e1ea330a994b1491f
生成AIを用いてEfficientNetの論文「EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks (2019)」を読んでみた

2024/08/26
https://qiita.com/dl_from_scratch/items/0d2881b54668c2175680
生成AIを用いてEfficientNetV2の論文「EfficientNetV2: Smaller Models and Faster Training (2021)」を読んでみた

2024/09/30
https://qiita.com/dl_from_scratch/items/62134ea6fa7ee8e4e875
生成AIを用いてConv vs ViTの論文「ConvNets Match Vision Transformers at Scale (2023)」を読んでみた

Vision Transformer系

主な手法名: ViT, MLP-Mixer, PoolFormer

各論文内容の概要:

  • ViT(2020年)は、画像を固定サイズのパッチに分割して線形埋め込みを行い、自然言語処理で成功を収めたTransformerアーキテクチャを画像認識に応用した先駆的な研究。従来の畳み込みを用いずに、自己注意機構のみで高精度な画像分類を達成。
  • MLP-Mixer(2021年)は、自己注意機構すら使わず、単純なMLP層のみで空間方向とチャネル方向の情報を交互に混合する構造を提案したモデル。シンプルながら競争力のある性能を示し、構造のミニマリズムを追求したもの。
  • PoolFormer(2021年)は、TransformerやMLPに共通する「MetaFormer」構造に着目し、自己注意やMLPの代わりに単純なプーリング演算を適用することで、十分な表現力を保ちながら計算コストを大幅に削減するアーキテクチャを提案。

2024/09/10
https://qiita.com/dl_from_scratch/items/51eba3730c53403c4fd0
生成AIを用いてVision Transformerの論文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (2020)」を読んでみた

2024/09/11
https://qiita.com/dl_from_scratch/items/293b7ace8a4107ed1bb4
生成AIを用いてVision Transformerの論文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (2020)」を読んでみた (続き)

2024/09/18
https://qiita.com/dl_from_scratch/items/a098e2f3edc908867537
生成AIを用いてMLP-Mixerの論文「MLP-Mixer: An all-MLP Architecture for Vision (2021)」を読んでみた

2024/09/19
https://qiita.com/dl_from_scratch/items/27f84b8c17b6fd145e03
生成AIを用いてPoolFormerの論文「MetaFormer Is Actually What You Need for Vision (2021)」を読んでみた

ImageNetでSoTAのもの

主な手法名: OmniVec, CoCa, CoAtNet, MPL, Noisy Student

各論文内容の概要:

  • Noisy Student(2019年)は、自己学習と知識蒸留を組み合わせた「Noisy Student」手法を提案した研究。​教師モデルが生成した擬似ラベルを用いて、ノイズを加えた学生モデルを学習させることで、ImageNet分類において88.4%のTop-1精度を達成しています。​この手法は、ImageNet-AやImageNet-Cなどの頑健性評価セットでも大幅な性能向上を示す。​
  • Meta Pseudo Labels(2020年)は、教師モデルと学生モデルを同時に学習させる「Meta Pseudo Labels」手法を提案した研究。​教師モデルは学生モデルの性能フィードバックを受けて適応し、より良い擬似ラベルを生成。​この手法により、ImageNet分類で90.2%のTop-1精度を達成し、従来の手法を1.6%上回る性能を示す。 ​
  • CoAtNet(2021年)は、畳み込み層と自己注意層を統合したハイブリッドアーキテクチャ「CoAtNet」を提案した研究。​このモデルは、深さ方向に畳み込み層と注意層を積み重ねることで、一般化性能と効率性を両立。​ImageNet分類において、追加データなしで86.0%、ImageNet-21Kでの事前学習後に88.56%、さらにJFT-3Bでの事前学習後には90.88%のTop-1精度を達成。
  • CoCa(2022年)は、コントラスト学習とキャプション生成を統合した「Contrastive Captioner(CoCa)」モデルを提案した研究。​このモデルは、画像とテキストのエンコーダ・デコーダ構造を持ち、クロスアテンションを部分的に適用することで、マルチモーダルな表現学習を効率化。​ImageNet分類において、ゼロショットで86.3%、エンコーダを固定した場合に90.6%、エンコーダを微調整した場合には91.0%のTop-1精度を達成。 ​
  • OmniVec(2023年)は、画像・テキスト・音声などの異なるモダリティ間での表現共有を促進するクロスモーダル学習手法「OmniVec」を提案した研究。​このモデルは、各モダリティの特徴を統合し、堅牢な表現学習を実現。​ImageNet分類を含む各種タスクで高い性能を示す。

2024/09/17
https://qiita.com/dl_from_scratch/items/2c2f1ebb65c1319d7138
生成AIを用いて2019年ImageNetでSoTAの論文「Self-training with Noisy Student improves ImageNet classification (2019)」を読んでみた

2024/09/15
https://qiita.com/dl_from_scratch/items/186c4335fc3bc8afea6e
生成AIを用いて2020年ImageNetでSoTAの論文「Meta Pseudo Labels (2020)」を読んでみた

2024/09/16
https://qiita.com/dl_from_scratch/items/320f0b2a107535edb3cb
生成AIを用いて2020年ImageNetでSoTAの論文「Meta Pseudo Labels (2020)」を読んでみた (続き)

2024/09/13
https://qiita.com/dl_from_scratch/items/8d195b6612bf34625f18
生成AIを用いて2021年ImageNetでSoTAの論文「CoAtNet: Marrying Convolution and Attention for All Data Sizes (2021)」を読んでみた

2024/09/13
https://qiita.com/dl_from_scratch/items/7203c4e22f4e2a8843d6
生成AIを用いて2022年ImageNetでSoTAの論文「CoCa: Contrastive Captioners are Image-Text Foundation Models (2022)」を読んでみた

2024/09/12
https://qiita.com/dl_from_scratch/items/daef4f0c780e96739226
生成AIを用いて2023年ImageNetでSoTAの論文「OmniVec: Learning robust representations with cross modal sharing (2023)」を読んでみた

物体検出系

主な手法名: YOLO v1-3 (YOLO系のみ)

各論文内容の概要:

  • YOLO(2015年)は、物体検出を単一のニューラルネットワークによる回帰問題として定式化し、リアルタイム処理を実現した初期モデル。​画像全体を一度に処理し、45fpsの高速性と63.4%のmAP(PASCAL VOC 2012)を達成。​誤検出が少ない一方で、局所化精度に難あり。 ​
  • YOLOv2 / YOLO9000(2016年)は、新たに設計された軽量な分類ネットワーク「Darknet-19」をバックボーンに採用し、精度と速度の両立を図った改良版。​マルチスケール学習やバッチ正規化、アンカー機構の導入により、PASCAL VOC 2007で76.8%のmAPを67fpsで達成。​また、ImageNetとCOCOの同時学習により、9000以上のクラスを検出可能なYOLO9000を提案。 ​
  • YOLOv3(2018年)は、残差接続を持つ「Darknet-53」をバックボーンに採用し、マルチスケール出力による高精度な検出を実現したバージョン。​320×320の入力で22ms(約45fps)の処理速度を維持しつつ、COCOデータセットで57.9%のmAP@50を達成。​

2024/08/27
https://qiita.com/dl_from_scratch/items/9ab1877b96943a106576
生成AIを用いてYOLOの論文「You Only Look Once: Unified, Real-Time Object Detection (2015)」を読んでみた

2024/08/28
https://qiita.com/dl_from_scratch/items/dab451ec65a17472aeec
生成AIを用いてYOLO v2の論文「YOLO9000: Better, Faster, Stronger (2016)」を読んでみた

2024/08/28
https://qiita.com/dl_from_scratch/items/18be75dad0ca3b6d2190
生成AIを用いてYOLO v3の論文「YOLOv3: An Incremental Improvement (2018)」を読んでみた

VAE系

主な手法名: VAE & tut, CVAE, VQ-VAE, VQ-VAE2

各論文内容の概要:

  • Auto-Encoding Variational Bayes(2013年)は、変分推論とニューラルネットワークを組み合わせ、効率的な生成モデルの学習を可能にした初期の提案。​再パラメータ化トリックにより、勾配ベースの最適化が可能となり、複雑な潜在変数モデルの学習が容易になる。​
  • Conditional VAE(2014年)は、ラベル付きデータが少ない状況での学習を可能にする半教師あり学習手法を提案。​クラスラベルを条件とした生成モデル(Conditional VAE)を導入し、クラスとスタイルの分離表現を実現。​
  • Neural Discrete Representation Learning(2017年)は、連続的な潜在変数の代わりに離散的な潜在コードを用いるVQ-VAEを提案。​ベクトル量子化により、後部崩壊の問題を回避し、高品質な画像や音声の生成を実現。​
  • Generating Diverse High-Fidelity Images with VQ-VAE-2(2019年)は、VQ-VAEを多階層構造に拡張し、自己回帰的な事前分布と組み合わせることで、高解像度かつ多様な画像生成を可能にした手法。​GANに匹敵する品質を達成しつつ、モード崩壊などの問題を回避。

2024/10/01
https://qiita.com/dl_from_scratch/items/03fcb6242079501c6919
生成AIを用いてVAEの論文「Auto-Encoding Variational Bayes (2013)」を読んでみた

2024/10/02
https://qiita.com/dl_from_scratch/items/2ac8855c84eba9586842
生成AIを用いてVAEの論文「Auto-Encoding Variational Bayes (2013)」を読んでみた (続き)

2024/10/03
https://qiita.com/dl_from_scratch/items/037f5adde2af7a3a6a32
生成AIを用いてVAEのチュートリアル論文「Tutorial on Variational Autoencoders (2016)」を読んでみた

2024/10/08
https://qiita.com/dl_from_scratch/items/3a734d152a80d4ecd3be
生成AIを用いてConditional VAEの論文「Semi-Supervised Learning with Deep Generative Models (2014)」を読んでみた

2024/10/04
https://qiita.com/dl_from_scratch/items/51fdd02775b7234b7aa4
生成AIを用いてVQ-VAEの論文「Neural Discrete Representation Learning (2017)」を読んでみた

2024/10/05
https://qiita.com/dl_from_scratch/items/3e118869f674ea10b16c
生成AIを用いてVQ-VAE2の論文「Generating Diverse High-Fidelity Images with VQ-VAE-2 (2019)」を読んでみた

画像の生成系

主な手法名: DALL-E, Stable Diffusion (Diffusion系のみ)

各論文内容の概要:

  • DALL·E(2021年)は、テキストから画像を生成するゼロショット学習モデル。​Transformerベースのアーキテクチャを用い、テキストと画像のトークンを単一のデータストリームとして自己回帰的にモデル化。​事前に学習された離散VAE(dVAE)を使用して画像をトークン化し、効率的な処理を実現。​多様な概念の組み合わせや創造的な画像生成が可能。 ​
  • Stable Diffusion(2022年)は、高解像度の画像生成を可能にする潜在拡散モデル。​画像を低次元の潜在空間にエンコードし、その空間上で拡散過程を適用することで、計算効率を大幅に向上。​テキスト条件付きの画像生成、インペインティング、超解像など多様なタスクに対応。

2024/10/09
https://qiita.com/dl_from_scratch/items/176c43084e7f04c6b1b8
生成AIを用いてDALL-Eの論文「Zero-Shot Text-to-Image Generation (2021)」を読んでみた

2024/10/11
https://qiita.com/dl_from_scratch/items/e9e937a52ffe68203a5d
生成AIを用いてDALL-Eの論文「Zero-Shot Text-to-Image Generation (2021)」を読んでみた (続き)

2024/09/01
https://qiita.com/dl_from_scratch/items/079d58a38b470a4440f1
生成AIを用いてStable Diffusionの論文「High-Resolution Image Synthesis with Latent Diffusion Models (2021)」を読んでみた

2024/09/09
https://qiita.com/dl_from_scratch/items/612155295da57453b822
生成AIを用いてStable Diffusionの論文「High-Resolution Image Synthesis with Latent Diffusion Models (2021)」を読んでみた (続き)

言語モデル系

Transformer / GPT系 / スケール則

Transformer

主な手法名: Transformer, Sparse Transformer

各論文内容の概要:

  • Transformer(2017年)は、再帰や畳み込みを排除し、自己注意機構のみで構成された新しいアーキテクチャを提案した論文。​機械翻訳タスクにおいて従来の手法を上回る性能を達成し、並列処理による学習効率の向上を実現。​自然言語処理をはじめとする多くの分野でTransformerベースのモデルが主流となるきっかけとなった研究。​
  • Sparse Transformer(2019年)は、長いシーケンスの処理における計算コストの課題を解決するため、注意機構のスパース化を導入した論文。​計算量をO(n²)からO(n√n)に削減し、数万ステップに及ぶ長大なシーケンスのモデリングを可能にした。​テキスト、画像、音声など多様なデータに対して高い表現力を示した研究。​

2024/08/24
https://qiita.com/dl_from_scratch/items/3d6ba5ef4d627e6c36cd
生成AIを用いてTransformerの論文「Attention Is All You Need (2017)」を読んでみた

2024/09/28
https://qiita.com/dl_from_scratch/items/3ed12e1245e2d4ceb3a9
生成AIを用いてSparse Transformersの論文「Generating Long Sequences with Sparse Transformers (2019)」を読んでみた

GPT系

主な手法名: GPT, GPT-2, GPT-3, InstructGPT, PPO

各論文内容の概要:

  • GPT(2018年)は、Transformerアーキテクチャを用いた言語モデルで、自己回帰的な事前学習(Generative Pre-Training)と、各タスクに特化した微調整(Fine-Tuning)を組み合わせることで、自然言語処理タスクの性能向上を実現。​このアプローチにより、従来の手法と比較して、モデル構造の変更を最小限に抑えつつ、効果的な転移学習が可能となる。 ​
  • GPT-2(2019年)は、1.5億パラメータを持つ大規模なTransformerベースの言語モデルで、WebTextと呼ばれる大規模なインターネットテキストデータセットで事前学習。​このモデルは、特定のタスクに対する明示的な教師なしでも、質問応答、翻訳、要約などの多様な自然言語処理タスクをこなす能力を示す。 ​
  • GPT-3(2020年)は、1750億パラメータを持つ大規模な自己回帰型言語モデルで、タスク固有の微調整なしに、少数の例示(Few-Shot Learning)やゼロショット学習(Zero-Shot Learning)によって、多様な自然言語処理タスクを高精度で遂行する能力を示す。​このモデルは、翻訳、質問応答、クロズタスクなどのNLPベンチマークで強力な性能を発揮。 ​
  • InstructGPT(2022年)は、GPT-3をベースに、人間のフィードバックを用いた強化学習(Reinforcement Learning from Human Feedback, RLHF)によって微調整されたモデル。​この手法により、モデルの出力がユーザーの意図により忠実に従うようになり、真実性の向上や有害な出力の削減が実現。​特に、1.3億パラメータのInstructGPTモデルは、1750億パラメータのGPT-3よりも人間の評価で好まれる結果を示す。 ​
  • PPO(2017年)は、強化学習における方策勾配法の一種で、従来の手法と比較して、実装の容易さ、サンプル効率、性能のバランスが取れたアルゴリズム。​PPOは、環境との相互作用を通じてデータを収集し、確率的勾配上昇法を用いて「代理」目的関数を最適化。​この手法は、ロボットの動作制御やAtariゲームのプレイなど、さまざまなベンチマークタスクで他のオンライン方策勾配法を上回る性能を示す。 ​

2024/09/20
https://qiita.com/dl_from_scratch/items/28fc4ab28c954c8a60d6
生成AIを用いて初代GPTの論文「Improving Language Understanding by Generative Pre-Training (2018)」を読んでみた

2024/09/21
https://qiita.com/dl_from_scratch/items/6d717eeaa41a6ba8540b
生成AIを用いてGPT-2の論文「Language Models are Unsupervised Multitask Learners (2019)」を読んでみた

2024/09/22
https://qiita.com/dl_from_scratch/items/36e5680972f639e69ddb
生成AIを用いてGPT-3の論文「Language Models are Few-Shot Learners (2020)」を読んでみた

2024/09/24
https://qiita.com/dl_from_scratch/items/faf96a34fdeede731afd
生成AIを用いてGPT-3の論文「Language Models are Few-Shot Learners (2020)」を読んでみた (続き)

2024/09/25
https://qiita.com/dl_from_scratch/items/8d7e83fef8b434f404dc
生成AIを用いてInstructGPTの論文「Training language models to follow instructions with human feedback (2022)」を読んでみた

2024/09/25
https://qiita.com/dl_from_scratch/items/8564a54fe5be1883c3a1
生成AIを用いてInstructGPTの論文「Training language models to follow instructions with human feedback (2022)」を読んでみた (続き)

2024/09/27
https://qiita.com/dl_from_scratch/items/686acbb9f07d22e2a882
生成AIを用いてPPOの論文「Proximal Policy Optimization Algorithms (2017)」を読んでみた

スケール則

主な手法名: Scaling Laws (1 & 2 & 3), Chinchilla

各論文内容の概要:

  • Scaling Laws for Neural Language Models(2020年)では、言語モデルの性能がモデルサイズ、データセットサイズ、計算量に対してパワー・ロー(冪乗則)に従ってスケーリングすることを示したもの。​特に、モデルサイズが大きくなるほどサンプル効率が向上し、最適な計算効率を達成するためには、非常に大きなモデルを比較的少量のデータで訓練し、収束前に早期停止することを推奨。 ​
  • Scaling Laws for Autoregressive Generative Modeling(2020年)では、生成画像モデリング、ビデオモデリング、マルチモーダル画像↔テキストモデル、数学問題解決の4つのドメインにおいて、クロスエントロピーロスがモデルサイズと計算コストに対してスムーズに性能向上することを示したもの。​
  • Scaling Laws for Transfer(2021年)では、事前学習された大規模モデルが、固定サイズのデータセットでファインチューニングされる際の転移学習のスケーリング法則を調査したもの。​ ​
  • Training Compute-Optimal Large Language Models(2022年)では、計算予算内で最適な性能を達成するために、モデルサイズと訓練トークン数を同等にスケーリングすることが重要であると提案。​従来の手法ではモデルサイズの増加に重点が置かれていたが、この研究では、モデルサイズと訓練データサイズをバランスよく増加させることで、より効率的な訓練が可能であることを示す。​このアプローチに基づいて訓練されたChinchillaモデル(70Bパラメータ、1.4Tトークン)は、同じ計算予算で訓練されたGopher(280Bパラメータ、300Bトークン)よりも多くのベンチマークで優れた性能を示す。

2024/10/16
https://qiita.com/dl_from_scratch/items/76c8848dab63f4c2293f
生成AIを用いてScaling Lawsの論文「Scaling Laws for Neural Language Models (2020)」を読んでみた

2024/10/17
https://qiita.com/dl_from_scratch/items/c577e14753c7278f7317
生成AIを用いてScaling Lawsの論文「Scaling Laws for Neural Language Models (2020)」を読んでみた (続き)

2024/10/18
https://qiita.com/dl_from_scratch/items/9884166ce77926512692
生成AIを用いてScaling Lawsの論文「Scaling Laws for Autoregressive Generative Modeling (2020)」を読んでみた

2024/10/19
https://qiita.com/dl_from_scratch/items/10b9bb9ed3603a9f6f39
生成AIを用いてScaling Lawsの論文「Scaling Laws for Autoregressive Generative Modeling (2020)」を読んでみた (続き)

2024/10/22
https://qiita.com/dl_from_scratch/items/1dc93d3e3533f2ae105e
生成AIを用いてScaling Lawsの論文「Scaling Laws for Transfer (2021)」を読んでみた

2024/10/23
https://qiita.com/dl_from_scratch/items/14cb6b03d5b8c8cf363f
生成AIを用いてScaling Lawsの論文「Scaling Laws for Transfer (2021)」を読んでみた (続き)

2024/10/24
https://qiita.com/dl_from_scratch/items/1b44b9144bc160415149
生成AIを用いてScaling Laws (Chinchilla)の論文「Training Compute-Optimal Large Language Models (2022)」を読んでみた

2024/11/30
https://qiita.com/dl_from_scratch/items/23120b1a975df36ef0f9
生成AIを用いてScaling Laws (Chinchilla)の論文「Training Compute-Optimal Large Language Models (2022)」を読んでみた (続き)

学習方法

主な手法名: Contrastive

各論文内容の概要:

  • Contrastive Learning(2020年)は、自己教師あり学習における特徴表現の獲得方法を体系的に整理した論文。正例同士を近づけ、負例同士を遠ざける仕組みにより、判別的な表現を学習。SimCLRやMoCoなどの代表手法が、ImageNetで教師あり学習に匹敵する精度を達成。下流タスクへの汎用性にも優れることを示した研究。

2024/10/12
https://qiita.com/dl_from_scratch/items/51dc9a6416535c43f1d7
生成AIを用いてContrastive Learningの論文「A Survey on Contrastive Self-supervised Learning (2020)」を読んでみた

自動運転系

主な手法名: TransFuser++, Think2Drive, Bench2Drive

各論文内容の概要:

  • TransFuser++(2023年)は、エンドツーエンドの自動運転モデルにおける隠れたバイアスを明らかにした研究。特に、目標点追従による横方向の回復と、マルチモーダルな縦方向の平均化による減速という2つのバイアスが、CARLAベンチマークでの性能向上に寄与していることを指摘。これらのバイアスの欠点を克服するために、TF++という手法を提案し、Longest6およびLAVベンチマークで従来手法を上回る性能を達成。
  • Think2Drive(2024年)は、CARLA v2シミュレーターを用いた準現実的な自動運転環境において、世界モデルを活用した効率的な強化学習手法を提案。この手法は、周辺環境(運動)の遷移を学習し、低次元の状態空間とテンソルの並列計算を利用することで、3日間で専門家レベルの性能を達成。また、CornerCase-Repositoryという新たなベンチマークと、走行完了率、違反数、シナリオ密度を考慮した評価指標を導入。
  • Bench2Drive(2024年)は、エンドツーエンド自動運転システムの多様な能力を評価するための包括的なベンチマークを提供。CARLA v2で収集された200万フレームのデータセットを基に、44のインタラクティブなシナリオ、23の天候条件、12の都市環境における220のルートで評価。これにより、従来の評価手法の限界を克服し、公平で現実的な性能評価を可能にした。
  • EMMA(2024年)は、Waymoが開発したマルチモーダル大規模言語モデル(MLLM)を基盤とするエンドツーエンドの自動運転モデル。カメラセンサーデータを直接処理し、走行軌道、物体検出、道路グラフなどの出力を自然言語として表現。nuScenesやWaymo Open Motion Datasetで最先端の性能を示したが、処理可能な画像フレーム数の制限や、LiDARやレーダーなどの高精度3Dセンサーデータの未対応、計算コストの高さなどに対する改善が必要。

2024/12/01
https://qiita.com/dl_from_scratch/items/eb8429abb6258b841f87
生成AIを用いて自動運転(TransFuser++)の論文「Hidden Biases of End-to-End Driving Models (2023)」を読んでみた

2025/01/19
https://qiita.com/dl_from_scratch/items/79b50d48c792f35436d4
生成AIを用いて自動運転(TransFuser++)の論文「Hidden Biases of End-to-End Driving Models (2023)」を読んでみた (続き)

2025/01/26
https://qiita.com/dl_from_scratch/items/8d4495f7ad880b9153dc
生成AIを用いて自動運転の論文「Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2) (2024)」を読んでみた

2025/02/01
https://qiita.com/dl_from_scratch/items/df8fa8a9b7d90d3255f1
生成AIを用いて自動運転の論文「Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2) (2024)」を読んでみた (続き)

2025/02/08
https://qiita.com/dl_from_scratch/items/9e71e8c82a1dcc292b01
生成AIを用いて自動運転の論文「Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving (2024)」を読んでみた

2025/03/10
https://qiita.com/dl_from_scratch/items/e6a25b8947a37a3964ba
生成AIを用いて自動運転の論文「Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving (2024)」を読んでみた (続き)

2025/04/25
https://qiita.com/dl_from_scratch/items/665c318be9b3553b91d2
生成AIを用いて自動運転の論文「EMMA: End-to-End Multimodal Model for Autonomous Driving (2024)」を読んでみた

生成AIを用いて記事・論文の内容を把握する試行方法

2024/08/20
https://qiita.com/dl_from_scratch/items/f6e6a27fc4752e28dd5a
生成AIを用いて記事・論文の内容を把握する (番号付き質問でピンポイントに取得・判別)

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?