LLM・LLM活用 Advent Calendar 2024

2024年最新LLM技術まとめ｜大規模言語モデルの研究動向とトレンド(随時更新予定)

Last updated at 2025-02-16Posted at 2024-12-24

はじめに

本記事は「LLM・LLM活用 Advent Calendar 2024」の記事となります。

はじめまして、株式会社Algomaticのsergicalsix(@sergicalsix)です。

大学修士までニューラルネットワーク(NN)のアルゴリズム研究をし、前職ではアプリケーション、AI、インフラエンジニアキャリアを積み、現在(Algomatic AI Transformation(AX))に至ります。

👇 所属組織はこちら

2024年も多くの革新的な研究が発表され、特に大規模言語モデル（LLM）の分野では目覚ましい進展が見られました。本記事では、その中から特に注目を集めた論文や、私が個人的に興味深いと感じた研究を厳選してご紹介します（2024年12月24日時点で約50本）。

また本記事はモデルのTechnical Report系、Visition系のモデルはあまり取り扱っておりません。別途まとめて記事にしたいと思います。

では早速論文紹介を始めていきます！

訓練系(6件)

Instruction Pre-Training

Instruction Pre-Training: Language Models are Supervised Multitask Learners
- リンク: https://arxiv.org/abs/2406.14491

膨大な生データ（生テキスト）に対して「命令と応答（instruction-response）ペア」を大規模に生成しながら事前学習を行うInstruction Pre-Trainingを提案。通常の事前学習→タスク固有のファインチューニングを行うよりも、汎用的なタスク適応能力を獲得しやすい。

Figure1, https://arxiv.org/abs/2406.14491

Self-Tuning

Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching
- リンク: https://arxiv.org/abs/2406.06326

Self-Tuningでは、LLMが自分自身で問題例・回答を自動生成（Self-Teaching）しながら、古い情報に惑わされずに新しい知識を獲得できる手法を提案。

Figure1, https://arxiv.org/abs/2406.06326

Rho-1

Rho-1: Not All Tokens Are What You Need
- リンク: https://arxiv.org/abs/2404.07965

事前学習で“すべてのトークン”を平均的に予測させるのではなく、“重要なトークン”だけを選んで学習するSelective Language Modeling (SLM)を導入し、高速かつ効果的に学習できるLLM「Rho-1」を提案。特に数理タスクやコードタスクで性能が向上。

Knowledge Editing

A Comprehensive Study of Knowledge Editing for Large Language Models
- リンク: https://arxiv.org/abs/2401.01286

大規模言語モデル（LLM）の知識を「あとから部分的に修正する」技術＝「知識編集」に関する包括的な調査研究。

Knowledge Fusion

Knowledge Fusion of Large Language Models
- リンク: https://arxiv.org/abs/2401.10491

異なるLLM同士の重みを混ぜるのではなく、確率分布を融合することで新たなモデルを作るKnowledge Fusionを提案。

Figure1, https://arxiv.org/pdf/2401.10491

AIM

Scalable Pre-training of Large Autoregressive Image Models
リンク: https://arxiv.org/abs/2401.08541

画像データに関して自己回帰で学習を行うAIMを提案。画像データに関しても、モデルサイズを大きくし、学習データを増やすと性能が向上した。よって画像領域においても「スケーリング則」に近いふるまいが確認されたといえる。

訓練データ系(4件)

LLM2LLM

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement
- リンク: https://arxiv.org/abs/2403.15042

Studentモデルをファインチューニング→誤答を分析→教師モデルに追加データを合成させる→再学習、という反復プロセス（LLM2LLM）で性能を高める方法を提案。

Figure1, https://arxiv.org/pdf/2403.15042

Task Me Anything

Task Me Anything
- リンク: https://arxiv.org/abs/2406.11775

ユーザーが自分の用途に合わせて選べる柔軟なベンチマーク自動生成エンジン「Task-Me-Anything」を提案。

Efficient Exploration

Efficient Exploration for LLMs
- リンク: https://arxiv.org/abs/2402.00396

人間が与えるフィードバックを効率よく収集しながら、報酬モデル（LLMの好ましい出力を判定するモデル）を学習するために、バンディット問題などで知られる効率的な探索を組み合わせ。

Hybrid Preferences

Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback
- リンク: https://arxiv.org/abs/2410.19133

どの入力サンプルを人手アノテーションに回すか、どのサンプルはAI（LLM）で自動対応できるかを振り分けるルーターを学習させる「Hybrid Preferences」を提案。

Figure1, https://arxiv.org/pdf/2410.19133

計算量削減(7件)

MoA: Mixture of Sparse Attention

MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression
- リンク: https://arxiv.org/abs/2406.14909

疎なアテンションを各層・各Headで自動的に最適化・組み合わせる「Mixture of Attention (MoA)」を提案。メモリ使用量や計算量を削減しながらロングコンテキストに対処できるモデルを構築。

LayerSkip

LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding
- リンク: https://arxiv.org/abs/2404.16710

中間層をすべて計算せず、途中で早期終了/スキップできる仕組みを導入した研究。モデル学習時にLayerSkipという層をドロップアウトするという戦略を組み合わせ、推論時にも自己検証（self-speculative）を行いながら必要な層だけを通過させる。

Figure1, https://arxiv.org/pdf/2404.16710![ 2024-12-24 0.40.28.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/487820/66a20cf2-49eb-b69e-66c1-225612ee8a95.png)

ShortGPT

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
- リンク: https://arxiv.org/abs/2403.03853

「層同士の相似性」などを定量分析し、単純に層を間引く（pruning）だけでも性能を維持可能。

RouteLLM

RouteLLM: Learning to Route LLMs with Preference Data
- リンク: https://arxiv.org/abs/2406.18665

「強いモデル」と「軽量モデル」のどちらを使うかを、入力ごとに“ルーター”が判断するフレームワークを提案。

BitNet b1.58

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
- リンク: https://arxiv.org/abs/2402.17764

各パラメータが三値(-1, 0, 1)を取る1.58ビットのLLMを提案。半精度（FP16）のLLMと同等の性能を発揮する場合も。

Figure1, https://arxiv.org/pdf/2402.17764

Neurally Compressed Text

Training LLMs over Neurally Compressed Text
- リンク: https://arxiv.org/abs/2404.03626

テキストを通常のトークナイザではなく、ニューラル圧縮技術（Arithmetic Codingなど）を用いて極度に短く符号化し、それを直接LLMに学習させる試み。圧縮された表現は可読性がないものの、言語モデリング自体は可能であり、学習メモリや推論ステップを削減できる利点を持つ。

LISA

LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning
- リンク: https://arxiv.org/abs/2403.17919

層ごとに重要度を計算し、不必要な層は固定またはサンプリング頻度を下げる「Layerwise Importance Sampled AdamW (LISA)」を提案。LoRAよりも優れた性能と少ないメモリ使用量を両立。

RAG/ロングコンテキスト(14件)

RAGやロングコンテキスト系は2024年でかなり流行したのかなと思います。
少し多いですが、以下にまとめます。

CRAG

Corrective Retrieval Augmented Generation
- リンク: https://arxiv.org/abs/2401.15884

検索した内容の関連性を評価し、内容が正しくない or 曖昧である場合は元のクエリを書き換えて、web検索実施することで精度を高めるCRAGという手法を提案。

Figure2, https://arxiv.org/pdf/2401.15884

HtmlRAG

HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
- リンク: https://arxiv.org/abs/2411.02959

HTMLをナレッジの形式として利用する「HtmlRAG」を提案。タグによる見出しや構造などがヒントとなり、精度が向上。

HybridRAG

HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction
- リンク: https://arxiv.org/abs/2408.04948

GraphRAGとVectorRAGを組み合わせたHybridRAGを提案。

RAFT

RAFT: Adapting Language Model to Domain Specific RAG
- リンク: https://arxiv.org/abs/2403.10131

ドメイン固有の検索強化型生成（RAG）を行う際に、モデルが提示されたドキュメントのうち“不必要なドキュメント”に惑わされないよう工夫する「Retrieval Augmented FineTuning (RAFT)」手法を提案。RAGでよくあるノイズやミスリードを避けつつ、必要箇所のみチェーン・オブ・ソート（CoT）で引用する指示を与えて学習することで、回答精度を向上。

Figure1, https://arxiv.org/pdf/2403.10131

LongRAG

LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
- リンク: https://arxiv.org/abs/2406.15319

RAGでは検索結果を小さなパラグラフ単位に分割して取り込む方法が多いが、逆に一つの大きな文書塊（4Kトークン程度）を扱い、さらに長いコンテキストに対応できるLLMを用いる「LongRAG」を提案。検索空間が小さくなるため、より少ない上位候補で正確な情報を得やすいと報告。

Figure1, https://arxiv.org/pdf/2406.15319

RankRAG

RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
- リンク: https://arxiv.org/abs/2407.02485

RAGにおいて「検索段階のランキング（どの順序で文書を並べるか）」をLLMに統合的に学習させる手法を提案。具体的には、検索結果をそのままLLMに投げるのではなく、LLM自身が重要度のスコア付けを行って文書を並べ替えてから回答を生成。

Figure2, https://arxiv.org/pdf/2407.02485

RAG and RAU

RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing
- リンク: https://arxiv.org/abs/2404.19543

RAG（Retrieval-Augmented Generation）とRAU（Retrieval-Augmented Understanding）の両方を包括的にまとめたサーベイ論文。

RAG vs Fine-tuning

RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
- リンク: https://arxiv.org/abs/2401.08406

RAG（検索＋生成）と通常のファインチューニングを組み合わせて農業領域のQAを行う事例研究。地理的情報などドメイン特化知識を必要とするが、RAGだけでは十分に正確な推論ができないケースがあり、最終的に両者を組み合わせるパイプラインで精度が上がることを示す。

Long-context LLMs Struggle with Long In-context Learning

Long-context LLMs Struggle with Long In-context Learning
- リンク: https://arxiv.org/abs/2404.02060

ロングコンテキストにおける“in-context learning”をさせるタスク（例えば50Kトークン超の例示）では性能が大きく低下することを指摘。

Figure1, https://arxiv.org/pdf/2404.02060

Infini-attention

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
- リンク: https://arxiv.org/abs/2404.07143

コンテキスト長を“無限”に拡張可能な新しいアテンション手法「Infini-attention」を提案。トランスフォーマーの計算やメモリコストは通常シーケンス長に比例して増えるが、ロングコンテキストを圧縮・部分的に処理するメソッドを一体化し、効率的かつほぼ無限にコンテキストを扱えるように改良。

Figure1, https://arxiv.org/pdf/2404.07143

NeedleBench

NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
- リンク: https://arxiv.org/abs/2407.11963

最大100万トークン規模の超ロングコンテキストを処理し、コンテキスト内の細かい情報を適切に検索・推論できるかを問うベンチマーク「NeedleBench」の提案。

Long-Context LLMs Meet RAG

Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG
- リンク: https://arxiv.org/abs/2410.05983

RAGで大量の文書をまとめて参照しようとすると、モデルが間違った文書を拾って回答の質が低下する現象（いわゆるハードネガティブ問題）が発生。より長いコンテキストを扱えるLLMを使いながら、不要文書のリランキングやファインチューニングを組み合わせることで精度を上げる手法を紹介。

From RAGs to rich parameters

From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries
- リンク: https://arxiv.org/abs/2406.12824

LLMがRAGで外部の検索結果を使うとき、内在的（パラメトリック）な知識に頼るのか、外部知識に頼るのかを因果メディエーション解析などの手法で可視化した研究。実験によると、RAGを使うと“ほとんどパラメトリック知識を見ずに外部知識ばかり参照する”バイアスがあると結論。

Contextual Document Embeddings

Contextual Document Embeddings
- リンク: https://arxiv.org/abs/2410.02525

エンコーダーのアーキテクチャを変更し、隣接文書の情報をエンコードに組み込めるようにするContextual Document Embeddingsを提案。チャンク単体でコンテキスト情報が不足する問題を緩和。

Figure1, https://arxiv.org/pdf/2410.02525

推論系(3件)

12月に中盤から後半にかけてo1、o1-proが流行っていたので、推論スケーリングに関する論文を追加しました。(2024年12月25日)

Large Language Monkeys

Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
- リンク: https://arxiv.org/abs/2407.21787

推論回数を多くする（反復サンプリング）ことで正答率が向上することを明らかにした。また正答率と回答サンプル数はべき乗則で概ねモデル化できるため、推論時間のスケーリング則が存在することが示唆された。

Figure1, https://arxiv.org/pdf/2407.21787

Reasoning Step Length

The Impact of Reasoning Step Length on Large Language Models
- リンク: https://arxiv.org/abs/2401.04925

推論ステップを長くすることで、新たな情報を追加しなくても、複数のデータセットにおいてLLMの推論能力が大幅に向上することが判明。

Figure1, https://arxiv.org/pdf/2401.04925

Inference Scaling for Long-Context RAG

Inference Scaling for Long-Context Retrieval Augmented Generation
- リンク: https://arxiv.org/abs/2410.04343

RAGを拡張し、デモンストレーションベースRAG(DRAG)と反復的DRAG(IterDRAG)という2つの新しい推論スケーリング戦略を提案。推論スケーリングにより計算リソースを活用することでRAGの性能を向上させる事が出来る。

Figure2, https://arxiv.org/pdf/2410.04343

サーベイ形(6件)

他の項目で説明できていないサーベイ論文を以下にまとめます。

Scaling Meets LLM Finetuning

When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method
- リンク: https://arxiv.org/abs/2402.17193

LFT、LoRAなどのPEFTによるファインチューニングそれぞれについて、モデルサイズ・事前学習データ量・パラメータ量・ファインチューニングデータ量を変化させたときの効果を包括的に調べた研究。ファインチューニングはタスクやデータサイズに依存し、LLMを大きくするほどファインチューニングのメリットは増すが、一方で小さいタスクデータでは過剰パラメータかもしれないなどの指摘。

A Survey of Mamba

A Survey of Mamba
- リンク: https://arxiv.org/abs/2408.01129

Mamba周辺の研究を体系的に整理。

A Survey of Personalization

Personalization of Large Language Models: A Survey
- リンク: https://arxiv.org/abs/2411.00027

LLMのパーソナライズのサーベイ論文。
パーソナライゼーションの粒度、パーソナライゼーション技術、データセット、評価方法、およびパーソナライズされたLLMのアプリケーションに関して整理。

A Survey of SLMs

Small Language Models: Survey, Measurements, and Insights
- リンク: https://arxiv.org/abs/2409.15790

Small Language Models(SLMs)に関するサーベイ論文。アーキテクチャ、学習データセット、学習アルゴリズムを分析し、能力を評価。

A Survey on LLM-as-a-Judge

A Survey on LLM-as-a-Judge
- リンク: https://arxiv.org/abs/2411.15594

LLM as a Judgeのサーベイ論文。信頼性の高いLLM-as-a-Judgeシステム構築のための一貫性の向上、バイアスの緩和、多様な評価シナリオへの適応や実用的なアプリケーション、課題、将来の方向性についても議論。

A Survey on Efficient Inference

A Survey on Efficient Inference for Large Language Models
- リンク: https://arxiv.org/abs/2404.14294

効率的なLLM推論に関する既存の文献を包括的に調査。

LLMに関する知見系(4件)

LLMs Know More Than They Show

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations
- リンク: https://arxiv.org/abs/2410.02707

「モデル内部表現には、実際には正しい答えを示す手がかりが含まれているのではないか」という仮説を検証。実際に、モデルの内部表現（attention埋め込みなど）を解析すると、「回答生成とは矛盾する正解情報」が埋もれているケースがあることが判明。

Transformers are Multi-State RNNs

Transformers are Multi-State RNNs
- リンク: https://arxiv.org/abs/2401.06104

TransformerはRNNと全く異なる構造と扱われがちだが、Transformerのデコーダは「本質的には無制限の状態を持つマルチステートRNNとみなせる」とする理論的解析を実施。

Fast vs. Slow Thinking

What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective
- リンク: https://arxiv.org/abs/2410.23743

Chain-of-Thought(CoT）のような“ステップを踏んだ遅い思考（Slow Thinking）”の学習と、“即答などの速い思考（Fast Thinking）”の学習において、モデル内部の層ごとの勾配パターンがどう変わるかを分析。
遅い思考（詳細な思考過程, Detailed CoT）では、層間の勾配が安定し、正しい応答と無関係な応答を区別するのに役立つことが示された。

Length Generalizationについて

Transformers Can Achieve Length Generalization But Not Robustly
- リンク: https://arxiv.org/abs/2402.09371

短いシーケンスで学んだルールを、長いシーケンスに適用することにおいて（Length Generalization）「入力フォーマットや埋め込み方式を工夫すればある程度実現できる」と述べつつ、初期化や学習順序に依存して安定性が低いと指摘。

エージェント/マルチエージェント(4件)

エージェント系、もう少し論文数を増やします。(2024年12月24日時点)

Agent Forest

More Agents Is All You Need
- リンク: https://arxiv.org/abs/2402.05120

LLMを複数インスタンス（エージェント）並べて、同じ問題に対する応答を投票で決める「Agent Forest」戦略の提案。多数決によって出力品質が向上する傾向があることが判明。

Figure2, https://arxiv.org/pdf/2402.05120

MoA

Mixture-of-Agents Enhances Large Language Model Capabilities
- リンク: https://arxiv.org/abs/2406.04692

LLMをマルチエージェント化し、複数の層上に配置させることで協調させる手法:Mixture-of-Agents (MoA)を提案。

Agent S

Agent S: An Open Agentic Framework that Uses Computers Like a Human
- リンク: https://arxiv.org/abs/2410.08164

複雑なデスクトップタスクを自律的に実行するためのオープンなエージェントフレームワークであるAgent Sを提案。

Figure1, https://arxiv.org/pdf/2410.08164

Agent-as-a-Judge

Agent-as-a-Judge: Evaluate Agents with Agents
- リンク: https://arxiv.org/abs/2410.10934

エージェントシステムが他のエージェントシステムを評価することで、段階的なフィードバックを提供する「Agent-as-a-Judge」を提案。従来の人間評価やLLM評価を超える高い信頼性と効率性を実現。

Figure1, https://arxiv.org/pdf/2410.10934

その他まとめ記事

以下「2024年生成AIエージェントのおすすめ論文 16選」を添付させていただきました。

強化学習(2件)

強化学習の文脈で筆者に知見があまりなく、選定数が少ないです。

DPO vs PPO

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
- リンク: https://arxiv.org/abs/2404.10719

多様なベンチマークで実験し、従来「DPOが優れている」と報告される結果は実は実験条件に左右されることが多く、PPOでも十分に高性能を得られる、と整理。

Self-Rewarding

Self-Rewarding Language Models
- リンク: https://arxiv.org/abs/2401.10020

RLHF（人間のフィードバック）ではなく、モデル自体が“LLM as a Judge”として報酬を与えて学習する「自己報酬（Self-Rewarding）」フレームワークを提案。反復学習を通じて、モデル自身が出力の質を評価し、より高得点の文を選好する方向に更新が進む仕組み。

Figure1, https://arxiv.org/pdf/2401.10020

応用/その他(6件)

The AI Scientist

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
- リンク: https://arxiv.org/abs/2408.06292

科学研究の工程（アイデア創出、実験計画、結果評価、論文執筆、査読）を可能な限り自動化し、「AIがAIを研究する」ような完全自動サイクルを実装した試み。教師データは不要で、モデル同士が新仮説を立て論文を書き、査読までするパイプラインを紹介。

Figure1, https://arxiv.org/pdf/2408.06292

SpreadsheetLLM

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
- リンク: https://arxiv.org/abs/2407.09025

表計算ソフト（Excel, Google Sheetsなど）のスプレッドシートをLLMへ直接入力するための効率的な符号化（エンコーディング）方法を研究。単にセルのテキストを時系列で並べるだけでなく、HTML風・ブロック構造などの工夫した「SheetCompressor」で、数十列・数千行のスプレッドシートでもQA精度が高まることが報告。

Figure1, https://arxiv.org/pdf/2407.09025

LLM4Decompile

LLM4Decompile: Decompiling Binary Code with Large Language Models
- リンク: https://arxiv.org/abs/2403.05286

バイナリコードを高水準言語に逆コンパイルするためにLLMを活用する取り組みで、LLM4Decompileという最大33Bパラメータのモデル群を公開。既存のGhidraなどが出力する可読性の低いコードを、より“人間が理解しやすい”形へ再構成。

Genie

Genie: Generative Interactive Environments
- リンク: https://arxiv.org/abs/2402.15391

LLMにインタラクティブに変化する“仮想3D空間”や“2Dピクセル”を自己回帰的に生成させるフレームワーク「Genie」を提案。ゲーム開発やシミュレーションに応用可能。

Figure1, https://arxiv.org/pdf/2402.15391

Stealing Part of LLM

Stealing Part of a Production Language Model
- リンク: https://arxiv.org/abs/2403.06634

公開されていない商用モデル（例: OpenAIのChatGPTやGoogleのPaLM-2）のembedding層（プロジェクション部分）の大きさをAPIアクセスだけで盗み出す手法を提案、セキュリティリスクを指摘。

Gemma Scope

Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
リンク: https://arxiv.org/abs/2408.05147

Gemma 2Bと9Bの全レイヤーおよびGemma 2の一部をスパースオートエンコーダ（SAE）で訓練し公開。

おわりに

今回ご紹介したように、2024年のLLMの研究は訓練手法・計算量削減・エージェント・RAGなど、多方面で多彩なアプローチが考案されました。

少しでも参考になれば幸いです。

宣伝

私が所属しているAlgomaticは現在採用募集中です！

Algomaticに興味がある方々、生成AIやLLM技術に興味がある方、まずはカジュアル面談でお気軽に連絡いただければと思います。

ここまで読んでいただき、ありがとうございました！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up