38
38

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLM・LLM活用Advent Calendar 2024

Day 24

2024年最新LLM技術まとめ|大規模言語モデルの研究動向とトレンド(随時更新予定)

Last updated at Posted at 2024-12-24

はじめに

本記事は「LLM・LLM活用 Advent Calendar 2024」の記事となります。

はじめまして、株式会社Algomaticのsergicalsix(@sergicalsix)です。

大学修士までニューラルネットワーク(NN)のアルゴリズム研究をし、前職ではアプリケーション、AI、インフラエンジニアキャリアを積み、現在(Algomatic AI Transformation(AX))に至ります。

👇 所属組織はこちら

2024年も多くの革新的な研究が発表され、特に大規模言語モデル(LLM)の分野では目覚ましい進展が見られました。本記事では、その中から特に注目を集めた論文や、私が個人的に興味深いと感じた研究を厳選してご紹介します(2024年12月24日時点で約50本)。

また本記事はモデルのTechnical Report系、Visition系のモデルはあまり取り扱っておりません。別途まとめて記事にしたいと思います。

では早速論文紹介を始めていきます!

目次

訓練系(6件)

Instruction Pre-Training

膨大な生データ(生テキスト)に対して「命令と応答(instruction-response)ペア」を大規模に生成しながら事前学習を行うInstruction Pre-Trainingを提案。通常の事前学習→タスク固有のファインチューニングを行うよりも、汎用的なタスク適応能力を獲得しやすい。

 2024-12-24 0.25.40.png

Figure1, https://arxiv.org/abs/2406.14491

Self-Tuning

Self-Tuningでは、LLMが自分自身で問題例・回答を自動生成(Self-Teaching)しながら、古い情報に惑わされずに新しい知識を獲得できる手法を提案。

 2024-12-24 0.26.29.png

Figure1, https://arxiv.org/abs/2406.06326

Rho-1

事前学習で“すべてのトークン”を平均的に予測させるのではなく、“重要なトークン”だけを選んで学習するSelective Language Modeling (SLM)を導入し、高速かつ効果的に学習できるLLM「Rho-1」を提案。特に数理タスクやコードタスクで性能が向上。

Knowledge Editing

大規模言語モデル(LLM)の知識を「あとから部分的に修正する」技術=「知識編集」に関する包括的な調査研究。

Knowledge Fusion

異なるLLM同士の重みを混ぜるのではなく、確率分布を融合することで新たなモデルを作るKnowledge Fusionを提案。

 2024-12-24 0.28.00.png

Figure1, https://arxiv.org/pdf/2401.10491

AIM

画像データに関して自己回帰で学習を行うAIMを提案。画像データに関しても、モデルサイズを大きくし、学習データを増やすと性能が向上した。よって画像領域においても「スケーリング則」に近いふるまいが確認されたといえる。

訓練データ系(4件)

LLM2LLM

Studentモデルをファインチューニング→誤答を分析→教師モデルに追加データを合成させる→再学習、という反復プロセス(LLM2LLM)で性能を高める方法を提案。

 2024-12-24 0.35.47.png

Figure1, https://arxiv.org/pdf/2403.15042

Task Me Anything

ユーザーが自分の用途に合わせて選べる柔軟なベンチマーク自動生成エンジン「Task-Me-Anything」を提案。

Efficient Exploration

人間が与えるフィードバックを効率よく収集しながら、報酬モデル(LLMの好ましい出力を判定するモデル)を学習するために、バンディット問題などで知られる効率的な探索を組み合わせ。

Hybrid Preferences

どの入力サンプルを人手アノテーションに回すか、どのサンプルはAI(LLM)で自動対応できるかを振り分けるルーターを学習させる「Hybrid Preferences」を提案。

 2024-12-24 0.36.50.png

Figure1, https://arxiv.org/pdf/2410.19133

計算量削減(7件)

MoA: Mixture of Sparse Attention

疎なアテンションを各層・各Headで自動的に最適化・組み合わせる「Mixture of Attention (MoA)」を提案。メモリ使用量や計算量を削減しながらロングコンテキストに対処できるモデルを構築。

LayerSkip

中間層をすべて計算せず、途中で早期終了/スキップできる仕組みを導入した研究。モデル学習時にLayerSkipという層をドロップアウトするという戦略を組み合わせ、推論時にも自己検証(self-speculative)を行いながら必要な層だけを通過させる。

 2024-12-24 0.38.51.png

Figure1, https://arxiv.org/pdf/2404.16710![ 2024-12-24 0.40.28.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/487820/66a20cf2-49eb-b69e-66c1-225612ee8a95.png)

ShortGPT

「層同士の相似性」などを定量分析し、単純に層を間引く(pruning)だけでも性能を維持可能。

RouteLLM

「強いモデル」と「軽量モデル」のどちらを使うかを、入力ごとに“ルーター”が判断するフレームワークを提案。

BitNet b1.58

各パラメータが三値(-1, 0, 1)を取る1.58ビットのLLMを提案。半精度(FP16)のLLMと同等の性能を発揮する場合も。

 2024-12-24 13.15.25.png

Figure1, https://arxiv.org/pdf/2402.17764

Neurally Compressed Text

テキストを通常のトークナイザではなく、ニューラル圧縮技術(Arithmetic Codingなど)を用いて極度に短く符号化し、それを直接LLMに学習させる試み。圧縮された表現は可読性がないものの、言語モデリング自体は可能であり、学習メモリや推論ステップを削減できる利点を持つ。

LISA

層ごとに重要度を計算し、不必要な層は固定またはサンプリング頻度を下げる「Layerwise Importance Sampled AdamW (LISA)」を提案。LoRAよりも優れた性能と少ないメモリ使用量を両立。

RAG/ロングコンテキスト(14件)

RAGやロングコンテキスト系は2024年でかなり流行したのかなと思います。
少し多いですが、以下にまとめます。

CRAG

検索した内容の関連性を評価し、内容が正しくない or 曖昧である場合は元のクエリを書き換えて、web検索実施することで精度を高めるCRAGという手法を提案。

 2024-12-24 0.37.45.png

Figure2, https://arxiv.org/pdf/2401.15884

HtmlRAG

HTMLをナレッジの形式として利用する「HtmlRAG」を提案。タグによる見出しや構造などが暗黙のヒントとなり、精度が向上。

HybridRAG

  • HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction

GraphRAGとVectorRAGを組み合わせたHybridRAGを提案。

RAFT

ドメイン固有の検索強化型生成(RAG)を行う際に、モデルが提示されたドキュメントのうち“不必要なドキュメント”に惑わされないよう工夫する「Retrieval Augmented FineTuning (RAFT)」手法を提案。RAGでよくあるノイズやミスリードを避けつつ、必要箇所のみチェーン・オブ・ソート(CoT)で引用する指示を与えて学習することで、回答精度を向上。

 2024-12-24 0.40.53.png

Figure1, https://arxiv.org/pdf/2403.10131

LongRAG

RAGでは検索結果を小さなパラグラフ単位に分割して取り込む方法が多いが、逆に一つの大きな文書塊(4Kトークン程度)を扱い、さらに長いコンテキストに対応できるLLMを用いる「LongRAG」を提案。検索空間が小さくなるため、より少ない上位候補で正確な情報を得やすいと報告。

 2024-12-24 0.41.42.png

Figure1, https://arxiv.org/pdf/2406.15319

RankRAG

RAGにおいて「検索段階のランキング(どの順序で文書を並べるか)」をLLMに統合的に学習させる手法を提案。具体的には、検索結果をそのままLLMに投げるのではなく、LLM自身が重要度のスコア付けを行って文書を並べ替えてから回答を生成。

 2024-12-24 0.42.24.png

Figure2, https://arxiv.org/pdf/2407.02485

RAG and RAU

RAG(Retrieval-Augmented Generation)とRAU(Retrieval-Augmented Understanding)の両方を包括的にまとめたサーベイ論文。

RAG vs Fine-tuning

RAG(検索+生成)と通常のファインチューニングを組み合わせて農業領域のQAを行う事例研究。地理的情報などドメイン特化知識を必要とするが、RAGだけでは十分に正確な推論ができないケースがあり、最終的に両者を組み合わせるパイプラインで精度が上がることを示す。

Long-context LLMs Struggle with Long In-context Learning

ロングコンテキストにおける“in-context learning”をさせるタスク(例えば50Kトークン超の例示)では性能が大きく低下することを指摘。

 2024-12-24 12.45.47.png

Figure1, https://arxiv.org/pdf/2404.02060

Infini-attention

コンテキスト長を“無限”に拡張可能な新しいアテンション手法「Infini-attention」を提案。トランスフォーマーの計算やメモリコストは通常シーケンス長に比例して増えるが、ロングコンテキストを圧縮・部分的に処理するメソッドを一体化し、効率的かつほぼ無限にコンテキストを扱えるように改良。

 2024-12-24 12.46.57.png

Figure1, https://arxiv.org/pdf/2404.07143

NeedleBench

最大100万トークン規模の超ロングコンテキストを処理し、コンテキスト内の細かい情報を適切に検索・推論できるかを問うベンチマーク「NeedleBench」の提案。

Long-Context LLMs Meet RAG

RAGで大量の文書をまとめて参照しようとすると、モデルが間違った文書を拾って回答の質が低下する現象(いわゆるハードネガティブ問題)が発生。より長いコンテキストを扱えるLLMを使いながら、不要文書のリランキングやファインチューニングを組み合わせることで精度を上げる手法を紹介。

From RAGs to rich parameters

  • From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

LLMがRAGで外部の検索結果を使うとき、内在的(パラメトリック)な知識に頼るのか、外部知識に頼るのかを因果メディエーション解析などの手法で可視化した研究。実験によると、RAGを使うと“ほとんどパラメトリック知識を見ずに外部知識ばかり参照する”バイアスがあると結論。

Contextual Document Embeddings

エンコーダーのアーキテクチャを変更し、隣接文書の情報をエンコードに組み込めるようにするContextual Document Embeddingsを提案。チャンク単体でコンテキスト情報が不足する問題を緩和。

 2024-12-24 12.48.02.png

Figure1, https://arxiv.org/pdf/2410.02525

推論系(3件)

12月に中盤から後半にかけてo1、o1-proが流行っていたので、推論スケーリングに関する論文を追加しました。(2024年12月25日)

Large Language Monkeys

推論回数を多くする(反復サンプリング)ことで正答率が向上することを明らかにした。また正答率と回答サンプル数はべき乗則で概ねモデル化できるため、推論時間のスケーリング則が存在することが示唆された。

 2024-12-24 20.49.34.png

Figure1, https://arxiv.org/pdf/2407.21787

Reasoning Step Length

推論ステップを長くすることで、新たな情報を追加しなくても、複数のデータセットにおいてLLMの推論能力が大幅に向上することが判明。

 2024-12-24 20.53.03.png

Figure1, https://arxiv.org/pdf/2401.04925

Inference Scaling for Long-Context RAG

RAGを拡張し、デモンストレーションベースRAG(DRAG)と反復的DRAG(IterDRAG)という2つの新しい推論スケーリング戦略を提案。推論スケーリングにより計算リソースを活用することでRAGの性能を向上させる事が出来る。

 2024-12-24 20.58.37.png

Figure2, https://arxiv.org/pdf/2410.04343

サーベイ形(6件)

他の項目で説明できていないサーベイ論文を以下にまとめます。

Scaling Meets LLM Finetuning

LFT、LoRAなどのPEFTによるファインチューニングそれぞれについて、モデルサイズ・事前学習データ量・パラメータ量・ファインチューニングデータ量を変化させたときの効果を包括的に調べた研究。ファインチューニングはタスクやデータサイズに依存し、LLMを大きくするほどファインチューニングのメリットは増すが、一方で小さいタスクデータでは過剰パラメータかもしれないなどの指摘。

A Survey of Mamba

Mamba周辺の研究を体系的に整理。

A Survey of Personalization

LLMのパーソナライズのサーベイ論文。
パーソナライゼーションの粒度、パーソナライゼーション技術、データセット、評価方法、およびパーソナライズされたLLMのアプリケーションに関して整理。

A Survey of SLMs

Small Language Models(SLMs)に関するサーベイ論文。アーキテクチャ、学習データセット、学習アルゴリズムを分析し、能力を評価。

A Survey on LLM-as-a-Judge

LLM as a Judgeのサーベイ論文。信頼性の高いLLM-as-a-Judgeシステム構築のための一貫性の向上、バイアスの緩和、多様な評価シナリオへの適応や実用的なアプリケーション、課題、将来の方向性についても議論。

A Survey on Efficient Inference

効率的なLLM推論に関する既存の文献を包括的に調査。

LLMに関する知見系(4件)

LLMs Know More Than They Show

「モデル内部表現には、実際には正しい答えを示す手がかりが含まれているのではないか」という仮説を検証。実際に、モデルの内部表現(attention埋め込みなど)を解析すると、「回答生成とは矛盾する正解情報」が埋もれているケースがあることが判明。

Transformers are Multi-State RNNs

TransformerはRNNと全く異なる構造と扱われがちだが、Transformerのデコーダは「本質的には無制限の状態を持つマルチステートRNNとみなせる」とする理論的解析を実施。

Fast vs. Slow Thinking

Chain-of-Thought(CoT)のような“ステップを踏んだ遅い思考(Slow Thinking)”の学習と、“即答などの速い思考(Fast Thinking)”の学習において、モデル内部の層ごとの勾配パターンがどう変わるかを分析。
遅い思考(詳細な思考過程, Detailed CoT)では、層間の勾配が安定し、正しい応答と無関係な応答を区別するのに役立つことが示された。

Length Generalizationについて

短いシーケンスで学んだルールを、長いシーケンスに適用することにおいて(Length Generalization)「入力フォーマットや埋め込み方式を工夫すればある程度実現できる」と述べつつ、初期化や学習順序に依存して安定性が低いと指摘。

エージェント/マルチエージェント(4件)

エージェント系、もう少し論文数を増やします。(2024年12月24日時点)

Agent Forest

LLMを複数インスタンス(エージェント)並べて、同じ問題に対する応答を投票で決める「Agent Forest」戦略の提案。多数決によって出力品質が向上する傾向があることが判明。

 2024-12-24 12.48.48.png

Figure2, https://arxiv.org/pdf/2402.05120

MoA

LLMをマルチエージェント化し、複数の層上に配置させることで協調させる手法:Mixture-of-Agents (MoA)を提案。

Agent S

複雑なデスクトップタスクを自律的に実行するためのオープンなエージェントフレームワークであるAgent Sを提案。

 2024-12-24 12.49.29.png

Figure1, https://arxiv.org/pdf/2410.08164

Agent-as-a-Judge

エージェントシステムが他のエージェントシステムを評価することで、段階的なフィードバックを提供する「Agent-as-a-Judge」を提案。従来の人間評価やLLM評価を超える高い信頼性と効率性を実現。

 2024-12-24 12.50.10.png

Figure1, https://arxiv.org/pdf/2410.10934

強化学習(2件)

強化学習の文脈で筆者に知見があまりなく、選定数が少ないです。

DPO vs PPO

多様なベンチマークで実験し、従来「DPOが優れている」と報告される結果は実は実験条件に左右されることが多く、PPOでも十分に高性能を得られる、と整理。

Self-Rewarding

RLHF(人間のフィードバック)ではなく、モデル自体が“LLM as a Judge”として報酬を与えて学習する「自己報酬(Self-Rewarding)」フレームワークを提案。反復学習を通じて、モデル自身が出力の質を評価し、より高得点の文を選好する方向に更新が進む仕組み。

 2024-12-24 12.50.40.png

Figure1, https://arxiv.org/pdf/2401.10020

応用/その他(6件)

The AI Scientist

科学研究の工程(アイデア創出、実験計画、結果評価、論文執筆、査読)を可能な限り自動化し、「AIがAIを研究する」ような完全自動サイクルを実装した試み。教師データは不要で、モデル同士が新仮説を立て論文を書き、査読までするパイプラインを紹介。

 2024-12-24 12.51.16.png

Figure1, https://arxiv.org/pdf/2408.06292

SpreadsheetLLM

表計算ソフト(Excel, Google Sheetsなど)のスプレッドシートをLLMへ直接入力するための効率的な符号化(エンコーディング)方法を研究。単にセルのテキストを時系列で並べるだけでなく、HTML風・ブロック構造などの工夫した「SheetCompressor」で、数十列・数千行のスプレッドシートでもQA精度が高まることが報告。

 2024-12-24 12.51.44.png

Figure1, https://arxiv.org/pdf/2407.09025

LLM4Decompile

バイナリコードを高水準言語に逆コンパイルするためにLLMを活用する取り組みで、LLM4Decompileという最大33Bパラメータのモデル群を公開。既存のGhidraなどが出力する可読性の低いコードを、より“人間が理解しやすい”形へ再構成。

Genie

LLMにインタラクティブに変化する“仮想3D空間”や“2Dピクセル”を自己回帰的に生成させるフレームワーク「Genie」を提案。ゲーム開発やシミュレーションに応用可能。

 2024-12-24 12.52.33.png

Figure1, https://arxiv.org/pdf/2402.15391

Stealing Part of LLM

公開されていない商用モデル(例: OpenAIのChatGPTやGoogleのPaLM-2)のembedding層(プロジェクション部分)の大きさをAPIアクセスだけで盗み出す手法を提案、セキュリティリスクを指摘。

Gemma Scope

Gemma 2Bと9Bの全レイヤーおよびGemma 2の一部をスパースオートエンコーダ(SAE)で訓練し公開。

おわりに

今回ご紹介したように、2024年のLLMの研究は訓練手法・計算量削減・エージェント・RAGなど、多方面で多彩なアプローチが考案されました。

少しでも参考になれば幸いです。

宣伝

私が所属しているAlgomaticは現在採用募集中です!

Algomaticに興味がある方々、生成AIやLLM技術に興味がある方、まずはカジュアル面談でお気軽に連絡いただければと思います。

ここまで読んでいただき、ありがとうございました!

38
38
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
38
38

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?