はじめに
本記事は「LLM・LLM活用 Advent Calendar 2024」の記事となります。
はじめまして、株式会社Algomaticのsergicalsix(@sergicalsix)です。
大学修士までニューラルネットワーク(NN)のアルゴリズム研究をし、前職ではアプリケーション、AI、インフラエンジニアキャリアを積み、現在(Algomatic AI Transformation(AX))に至ります。
👇 所属組織はこちら
2024年も多くの革新的な研究が発表され、特に大規模言語モデル(LLM)の分野では目覚ましい進展が見られました。本記事では、その中から特に注目を集めた論文や、私が個人的に興味深いと感じた研究を厳選してご紹介します(2024年12月24日時点で約50本)。
また本記事はモデルのTechnical Report系、Visition系のモデルはあまり取り扱っておりません。別途まとめて記事にしたいと思います。
では早速論文紹介を始めていきます!
目次
訓練系(6件)
Instruction Pre-Training
- Instruction Pre-Training: Language Models are Supervised Multitask Learners
膨大な生データ(生テキスト)に対して「命令と応答(instruction-response)ペア」を大規模に生成しながら事前学習を行うInstruction Pre-Trainingを提案。通常の事前学習→タスク固有のファインチューニングを行うよりも、汎用的なタスク適応能力を獲得しやすい。
Figure1, https://arxiv.org/abs/2406.14491
Self-Tuning
- Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching
Self-Tuningでは、LLMが自分自身で問題例・回答を自動生成(Self-Teaching)しながら、古い情報に惑わされずに新しい知識を獲得できる手法を提案。
Figure1, https://arxiv.org/abs/2406.06326
Rho-1
- Rho-1: Not All Tokens Are What You Need
事前学習で“すべてのトークン”を平均的に予測させるのではなく、“重要なトークン”だけを選んで学習するSelective Language Modeling (SLM)を導入し、高速かつ効果的に学習できるLLM「Rho-1」を提案。特に数理タスクやコードタスクで性能が向上。
Knowledge Editing
- A Comprehensive Study of Knowledge Editing for Large Language Models
大規模言語モデル(LLM)の知識を「あとから部分的に修正する」技術=「知識編集」に関する包括的な調査研究。
Knowledge Fusion
- Knowledge Fusion of Large Language Models
異なるLLM同士の重みを混ぜるのではなく、確率分布を融合することで新たなモデルを作るKnowledge Fusionを提案。
Figure1, https://arxiv.org/pdf/2401.10491
AIM
- Scalable Pre-training of Large Autoregressive Image Models
リンク: https://arxiv.org/abs/2401.08541
画像データに関して自己回帰で学習を行うAIMを提案。画像データに関しても、モデルサイズを大きくし、学習データを増やすと性能が向上した。よって画像領域においても「スケーリング則」に近いふるまいが確認されたといえる。
訓練データ系(4件)
LLM2LLM
- LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement
Studentモデルをファインチューニング→誤答を分析→教師モデルに追加データを合成させる→再学習、という反復プロセス(LLM2LLM)で性能を高める方法を提案。
Figure1, https://arxiv.org/pdf/2403.15042
Task Me Anything
- Task Me Anything
ユーザーが自分の用途に合わせて選べる柔軟なベンチマーク自動生成エンジン「Task-Me-Anything」を提案。
Efficient Exploration
- Efficient Exploration for LLMs
人間が与えるフィードバックを効率よく収集しながら、報酬モデル(LLMの好ましい出力を判定するモデル)を学習するために、バンディット問題などで知られる効率的な探索を組み合わせ。
Hybrid Preferences
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback
どの入力サンプルを人手アノテーションに回すか、どのサンプルはAI(LLM)で自動対応できるかを振り分けるルーターを学習させる「Hybrid Preferences」を提案。
Figure1, https://arxiv.org/pdf/2410.19133
計算量削減(7件)
MoA: Mixture of Sparse Attention
- MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression
疎なアテンションを各層・各Headで自動的に最適化・組み合わせる「Mixture of Attention (MoA)」を提案。メモリ使用量や計算量を削減しながらロングコンテキストに対処できるモデルを構築。
LayerSkip
- LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding
中間層をすべて計算せず、途中で早期終了/スキップできる仕組みを導入した研究。モデル学習時にLayerSkipという層をドロップアウトするという戦略を組み合わせ、推論時にも自己検証(self-speculative)を行いながら必要な層だけを通過させる。
Figure1, https://arxiv.org/pdf/2404.16710![ 2024-12-24 0.40.28.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/487820/66a20cf2-49eb-b69e-66c1-225612ee8a95.png)
ShortGPT
- ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
「層同士の相似性」などを定量分析し、単純に層を間引く(pruning)だけでも性能を維持可能。
RouteLLM
- RouteLLM: Learning to Route LLMs with Preference Data
「強いモデル」と「軽量モデル」のどちらを使うかを、入力ごとに“ルーター”が判断するフレームワークを提案。
BitNet b1.58
- The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
各パラメータが三値(-1, 0, 1)を取る1.58ビットのLLMを提案。半精度(FP16)のLLMと同等の性能を発揮する場合も。
Figure1, https://arxiv.org/pdf/2402.17764
Neurally Compressed Text
- Training LLMs over Neurally Compressed Text
テキストを通常のトークナイザではなく、ニューラル圧縮技術(Arithmetic Codingなど)を用いて極度に短く符号化し、それを直接LLMに学習させる試み。圧縮された表現は可読性がないものの、言語モデリング自体は可能であり、学習メモリや推論ステップを削減できる利点を持つ。
LISA
- LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning
層ごとに重要度を計算し、不必要な層は固定またはサンプリング頻度を下げる「Layerwise Importance Sampled AdamW (LISA)」を提案。LoRAよりも優れた性能と少ないメモリ使用量を両立。
RAG/ロングコンテキスト(14件)
RAGやロングコンテキスト系は2024年でかなり流行したのかなと思います。
少し多いですが、以下にまとめます。
CRAG
- Corrective Retrieval Augmented Generation
検索した内容の関連性を評価し、内容が正しくない or 曖昧である場合は元のクエリを書き換えて、web検索実施することで精度を高めるCRAGという手法を提案。
Figure2, https://arxiv.org/pdf/2401.15884
HtmlRAG
- HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
HTMLをナレッジの形式として利用する「HtmlRAG」を提案。タグによる見出しや構造などが暗黙のヒントとなり、精度が向上。
HybridRAG
- HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction
GraphRAGとVectorRAGを組み合わせたHybridRAGを提案。
RAFT
- RAFT: Adapting Language Model to Domain Specific RAG
ドメイン固有の検索強化型生成(RAG)を行う際に、モデルが提示されたドキュメントのうち“不必要なドキュメント”に惑わされないよう工夫する「Retrieval Augmented FineTuning (RAFT)」手法を提案。RAGでよくあるノイズやミスリードを避けつつ、必要箇所のみチェーン・オブ・ソート(CoT)で引用する指示を与えて学習することで、回答精度を向上。
Figure1, https://arxiv.org/pdf/2403.10131
LongRAG
- LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
RAGでは検索結果を小さなパラグラフ単位に分割して取り込む方法が多いが、逆に一つの大きな文書塊(4Kトークン程度)を扱い、さらに長いコンテキストに対応できるLLMを用いる「LongRAG」を提案。検索空間が小さくなるため、より少ない上位候補で正確な情報を得やすいと報告。
Figure1, https://arxiv.org/pdf/2406.15319
RankRAG
- RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
RAGにおいて「検索段階のランキング(どの順序で文書を並べるか)」をLLMに統合的に学習させる手法を提案。具体的には、検索結果をそのままLLMに投げるのではなく、LLM自身が重要度のスコア付けを行って文書を並べ替えてから回答を生成。
Figure2, https://arxiv.org/pdf/2407.02485
RAG and RAU
- RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing
RAG(Retrieval-Augmented Generation)とRAU(Retrieval-Augmented Understanding)の両方を包括的にまとめたサーベイ論文。
RAG vs Fine-tuning
- RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
RAG(検索+生成)と通常のファインチューニングを組み合わせて農業領域のQAを行う事例研究。地理的情報などドメイン特化知識を必要とするが、RAGだけでは十分に正確な推論ができないケースがあり、最終的に両者を組み合わせるパイプラインで精度が上がることを示す。
Long-context LLMs Struggle with Long In-context Learning
- Long-context LLMs Struggle with Long In-context Learning
ロングコンテキストにおける“in-context learning”をさせるタスク(例えば50Kトークン超の例示)では性能が大きく低下することを指摘。
Figure1, https://arxiv.org/pdf/2404.02060
Infini-attention
- Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
コンテキスト長を“無限”に拡張可能な新しいアテンション手法「Infini-attention」を提案。トランスフォーマーの計算やメモリコストは通常シーケンス長に比例して増えるが、ロングコンテキストを圧縮・部分的に処理するメソッドを一体化し、効率的かつほぼ無限にコンテキストを扱えるように改良。
Figure1, https://arxiv.org/pdf/2404.07143
NeedleBench
- NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
最大100万トークン規模の超ロングコンテキストを処理し、コンテキスト内の細かい情報を適切に検索・推論できるかを問うベンチマーク「NeedleBench」の提案。
Long-Context LLMs Meet RAG
- Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG
RAGで大量の文書をまとめて参照しようとすると、モデルが間違った文書を拾って回答の質が低下する現象(いわゆるハードネガティブ問題)が発生。より長いコンテキストを扱えるLLMを使いながら、不要文書のリランキングやファインチューニングを組み合わせることで精度を上げる手法を紹介。
From RAGs to rich parameters
- From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries
LLMがRAGで外部の検索結果を使うとき、内在的(パラメトリック)な知識に頼るのか、外部知識に頼るのかを因果メディエーション解析などの手法で可視化した研究。実験によると、RAGを使うと“ほとんどパラメトリック知識を見ずに外部知識ばかり参照する”バイアスがあると結論。
Contextual Document Embeddings
- Contextual Document Embeddings
エンコーダーのアーキテクチャを変更し、隣接文書の情報をエンコードに組み込めるようにするContextual Document Embeddingsを提案。チャンク単体でコンテキスト情報が不足する問題を緩和。
Figure1, https://arxiv.org/pdf/2410.02525
推論系(3件)
12月に中盤から後半にかけてo1、o1-proが流行っていたので、推論スケーリングに関する論文を追加しました。(2024年12月25日)
Large Language Monkeys
- Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
推論回数を多くする(反復サンプリング)ことで正答率が向上することを明らかにした。また正答率と回答サンプル数はべき乗則で概ねモデル化できるため、推論時間のスケーリング則が存在することが示唆された。
Figure1, https://arxiv.org/pdf/2407.21787
Reasoning Step Length
- The Impact of Reasoning Step Length on Large Language Models
推論ステップを長くすることで、新たな情報を追加しなくても、複数のデータセットにおいてLLMの推論能力が大幅に向上することが判明。
Figure1, https://arxiv.org/pdf/2401.04925
Inference Scaling for Long-Context RAG
- Inference Scaling for Long-Context Retrieval Augmented Generation
RAGを拡張し、デモンストレーションベースRAG(DRAG)と反復的DRAG(IterDRAG)という2つの新しい推論スケーリング戦略を提案。推論スケーリングにより計算リソースを活用することでRAGの性能を向上させる事が出来る。
Figure2, https://arxiv.org/pdf/2410.04343
サーベイ形(6件)
他の項目で説明できていないサーベイ論文を以下にまとめます。
Scaling Meets LLM Finetuning
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method
LFT、LoRAなどのPEFTによるファインチューニングそれぞれについて、モデルサイズ・事前学習データ量・パラメータ量・ファインチューニングデータ量を変化させたときの効果を包括的に調べた研究。ファインチューニングはタスクやデータサイズに依存し、LLMを大きくするほどファインチューニングのメリットは増すが、一方で小さいタスクデータでは過剰パラメータかもしれないなどの指摘。
A Survey of Mamba
- A Survey of Mamba
Mamba周辺の研究を体系的に整理。
A Survey of Personalization
- Personalization of Large Language Models: A Survey
LLMのパーソナライズのサーベイ論文。
パーソナライゼーションの粒度、パーソナライゼーション技術、データセット、評価方法、およびパーソナライズされたLLMのアプリケーションに関して整理。
A Survey of SLMs
- Small Language Models: Survey, Measurements, and Insights
Small Language Models(SLMs)に関するサーベイ論文。アーキテクチャ、学習データセット、学習アルゴリズムを分析し、能力を評価。
A Survey on LLM-as-a-Judge
- A Survey on LLM-as-a-Judge
LLM as a Judgeのサーベイ論文。信頼性の高いLLM-as-a-Judgeシステム構築のための一貫性の向上、バイアスの緩和、多様な評価シナリオへの適応や実用的なアプリケーション、課題、将来の方向性についても議論。
A Survey on Efficient Inference
- A Survey on Efficient Inference for Large Language Models
効率的なLLM推論に関する既存の文献を包括的に調査。
LLMに関する知見系(4件)
LLMs Know More Than They Show
- LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations
「モデル内部表現には、実際には正しい答えを示す手がかりが含まれているのではないか」という仮説を検証。実際に、モデルの内部表現(attention埋め込みなど)を解析すると、「回答生成とは矛盾する正解情報」が埋もれているケースがあることが判明。
Transformers are Multi-State RNNs
- Transformers are Multi-State RNNs
TransformerはRNNと全く異なる構造と扱われがちだが、Transformerのデコーダは「本質的には無制限の状態を持つマルチステートRNNとみなせる」とする理論的解析を実施。
Fast vs. Slow Thinking
- What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective
Chain-of-Thought(CoT)のような“ステップを踏んだ遅い思考(Slow Thinking)”の学習と、“即答などの速い思考(Fast Thinking)”の学習において、モデル内部の層ごとの勾配パターンがどう変わるかを分析。
遅い思考(詳細な思考過程, Detailed CoT)では、層間の勾配が安定し、正しい応答と無関係な応答を区別するのに役立つことが示された。
Length Generalizationについて
- Transformers Can Achieve Length Generalization But Not Robustly
短いシーケンスで学んだルールを、長いシーケンスに適用することにおいて(Length Generalization)「入力フォーマットや埋め込み方式を工夫すればある程度実現できる」と述べつつ、初期化や学習順序に依存して安定性が低いと指摘。
エージェント/マルチエージェント(4件)
エージェント系、もう少し論文数を増やします。(2024年12月24日時点)
Agent Forest
- More Agents Is All You Need
LLMを複数インスタンス(エージェント)並べて、同じ問題に対する応答を投票で決める「Agent Forest」戦略の提案。多数決によって出力品質が向上する傾向があることが判明。
Figure2, https://arxiv.org/pdf/2402.05120
MoA
- Mixture-of-Agents Enhances Large Language Model Capabilities
LLMをマルチエージェント化し、複数の層上に配置させることで協調させる手法:Mixture-of-Agents (MoA)を提案。
Agent S
- Agent S: An Open Agentic Framework that Uses Computers Like a Human
複雑なデスクトップタスクを自律的に実行するためのオープンなエージェントフレームワークであるAgent Sを提案。
Figure1, https://arxiv.org/pdf/2410.08164
Agent-as-a-Judge
- Agent-as-a-Judge: Evaluate Agents with Agents
エージェントシステムが他のエージェントシステムを評価することで、段階的なフィードバックを提供する「Agent-as-a-Judge」を提案。従来の人間評価やLLM評価を超える高い信頼性と効率性を実現。
Figure1, https://arxiv.org/pdf/2410.10934
強化学習(2件)
強化学習の文脈で筆者に知見があまりなく、選定数が少ないです。
DPO vs PPO
- Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
多様なベンチマークで実験し、従来「DPOが優れている」と報告される結果は実は実験条件に左右されることが多く、PPOでも十分に高性能を得られる、と整理。
Self-Rewarding
- Self-Rewarding Language Models
RLHF(人間のフィードバック)ではなく、モデル自体が“LLM as a Judge”として報酬を与えて学習する「自己報酬(Self-Rewarding)」フレームワークを提案。反復学習を通じて、モデル自身が出力の質を評価し、より高得点の文を選好する方向に更新が進む仕組み。
Figure1, https://arxiv.org/pdf/2401.10020
応用/その他(6件)
The AI Scientist
- The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
科学研究の工程(アイデア創出、実験計画、結果評価、論文執筆、査読)を可能な限り自動化し、「AIがAIを研究する」ような完全自動サイクルを実装した試み。教師データは不要で、モデル同士が新仮説を立て論文を書き、査読までするパイプラインを紹介。
Figure1, https://arxiv.org/pdf/2408.06292
SpreadsheetLLM
- SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
表計算ソフト(Excel, Google Sheetsなど)のスプレッドシートをLLMへ直接入力するための効率的な符号化(エンコーディング)方法を研究。単にセルのテキストを時系列で並べるだけでなく、HTML風・ブロック構造などの工夫した「SheetCompressor」で、数十列・数千行のスプレッドシートでもQA精度が高まることが報告。
Figure1, https://arxiv.org/pdf/2407.09025
LLM4Decompile
- LLM4Decompile: Decompiling Binary Code with Large Language Models
バイナリコードを高水準言語に逆コンパイルするためにLLMを活用する取り組みで、LLM4Decompileという最大33Bパラメータのモデル群を公開。既存のGhidraなどが出力する可読性の低いコードを、より“人間が理解しやすい”形へ再構成。
Genie
- Genie: Generative Interactive Environments
LLMにインタラクティブに変化する“仮想3D空間”や“2Dピクセル”を自己回帰的に生成させるフレームワーク「Genie」を提案。ゲーム開発やシミュレーションに応用可能。
Figure1, https://arxiv.org/pdf/2402.15391
Stealing Part of LLM
- Stealing Part of a Production Language Model
公開されていない商用モデル(例: OpenAIのChatGPTやGoogleのPaLM-2)のembedding層(プロジェクション部分)の大きさをAPIアクセスだけで盗み出す手法を提案、セキュリティリスクを指摘。
Gemma Scope
- Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
- リンク: https://arxiv.org/abs/2408.05147
Gemma 2Bと9Bの全レイヤーおよびGemma 2の一部をスパースオートエンコーダ(SAE)で訓練し公開。
おわりに
今回ご紹介したように、2024年のLLMの研究は訓練手法・計算量削減・エージェント・RAGなど、多方面で多彩なアプローチが考案されました。
少しでも参考になれば幸いです。
宣伝
私が所属しているAlgomaticは現在採用募集中です!
Algomaticに興味がある方々、生成AIやLLM技術に興味がある方、まずはカジュアル面談でお気軽に連絡いただければと思います。
ここまで読んでいただき、ありがとうございました!