本記事はYoutubeチャンネルの論文解説動画(大規模言語モデル編)を時系列に繋げるための作成した記事です。サムネイル画像をクリックすると説明動画に飛びます
1. 初期の言語モデル (2000年代初頭〜2010年代半ば)
初期の言語モデルは、小規模なデータセットと長期依存関係の捕捉という課題に直面していました。これを例えるなら、「短いメモを読んで要点を理解するのは簡単ですが、長い小説の全体を覚えてストーリーのつながりを把握するのは難しい」という状況です。これらの問題に対処するため、RNN (1986)やLSTM (1997)などの仕組みが応用されはじめました。RNNは連続的なデータを処理する能力を持ち、LSTMはさらに長期的な依存関係を捉えることができました。これらの技術により、機械翻訳や音声認識などのタスクで大きな進展が見られました。 しかし、並列処理の難しさや非常に長い文章での性能低下など、まだ課題が残されていました。この時期の進歩は、後の大規模言語モデル(LLM)の基礎となる重要な一歩でした。
2. Transformer の登場 (2017年):
Googleが発表したTransformer (2017)は、自然言語処理に革命をもたらしました。その核心である自己注意機構は、従来の注意機構 (2014)を進化させたもので、文中の全ての単語を並行処理することを可能にしました。これにより、GPUの性能を最大限に引き出し、処理速度を大幅に向上させました。さらに、位置エンコーディングにより、単語が文中のどこにあるかという情報も考慮しながら文脈を正確に捉えることができるようになり、自然言語処理の精度が飛躍的に向上しました。この革新的なアーキテクチャは、BERTやGPTといったLLMの礎となり、今日の自然言語処理の発展に大きく貢献しています。
Transformer (2017) | 注意機構 (2014) |
3. 事前学習モデルの台頭 (2018年〜2019年)
2018年から2019年にかけて、AIが大量のテキストデータを学習し、そこから得た知識を様々なタスクに活用するための技術、事前学習モデル(PLM)が大きく進歩しました。GoogleのBERT (2018)は、文章全体を見て「言葉を理解する能力」に優れ、OpenAIのGPT-1 (2018) とGPT-2 (2019)は、人間のように自然な「文章を作る能力」を高めました。GPT-2は、より大規模なモデルとデータで訓練され、GPT-1よりも高度なテキスト生成が可能です。MetaのBART (2019)やGoogleのT5 (2019)は、BERTとGPT-2の長所を融合することで言葉の理解と文章の生成の両方に優れた性能を示しました。MicrosoftのDeBERTa (2020)はBERTをさらに改良し、より高度な言語の理解を実現しました。 事前学習モデルは、大量の文章データを学習し、得た知識を「転移学習」により様々なタスクに応用できるようにしました。従来は各タスクごとにAIを訓練する必要がありましたが、事前学習モデルにより、一度学習した知識を他のタスクにも活用できるため、AI開発の効率が飛躍的に向上しました。この技術の革新は、現在のAIブームの基盤となっています。
BERT (2018) | GPT-1 (2018) | BART (2019) | DeBERTa (2020) |
4. 大規模言語モデル (LLM) の登場 (2020年〜)
2020年、OpenAIが発表したGPT-3 (2020)は、まるで人間のように自然な文章を生成できる能力で世界を驚かせ、AIが言葉を扱う「大規模言語モデル」の時代の幕開けを告げました。GPT-3は、質問への回答、物語の作成、翻訳など、多岐にわたるタスクをこなせることを示しました。 その後、Googleは、まるで人間と会話しているかのような自然な対話を実現するLaMDA (2022)と、膨大な知識を扱えるPaLM (2022) を発表しました。Metaは、少ない計算資源でも高い性能を発揮する効率的なモデルLLaMA (2023)を開発し、OpenAIはGPT-3をさらに進化させたGPT-4 (2023) を発表しました。GPT-4は、画像理解やプログラミングなど、その応用範囲を大幅に拡大しました。中国のZhipu AIが開発したZiya2 (2023)は、中国語に特化した高性能モデルとして注目を集めました。また、MetaのMEGALODON (2024)は、大規模な言語モデルの新たな可能性を示しました。Googleは、オープンソースの軽量モデルGemma 2 (2024)を発表し、高性能と使いやすさを両立させました。 これらのLLMは、ほんの少しの例や指示を与えるだけで、あるいは全く例がなくても、新しいタスクをこなせる能力を持っています。これは、従来のAIでは考えられなかったことで、AIの可能性を大きく広げました。
GPT-3 (2020) | LaMDA (2022) | PaLM (2022) | LLaMA (2023) |
GPT-4 (2023) | Ziya2 (2023) | MEGALODON (2024) | Gemma 2 (2024) |
5. インストラクション・チューニングとアライメント (2021年〜)
2021年以降、大規模言語モデルの能力向上に伴い、モデルの出力を人間の意図や価値観に整合させる必要性が高まりました。この課題に対応するため、「インストラクション・チューニング」と「アライメント」の研究が活発化しました。OpenAIのInstructGPT (2022)は、人間のフィードバックで指示追従能力を向上させました。これを発展させたChatGPTは、PPOを用いた強化学習 (RLHF)で高度な対話指示追従を実現し、世界中で大きな注目を集めました。 GoogleのFLAN (2021) は複数タスクの一貫学習で指示追従能力を高め、Hugging FaceのT0 (2021) はゼロショット学習で優れた性能を発揮しました。これらの技術により、LLMはより安全で信頼性の高い形で実用化されるようになりました。
InstructGPT (2022) | PPOとDPOの性能比較 (2024) |
6. マルチモーダル・モデルの発展 (2022年〜)
2022年以降、言語モデルの研究はテキスト以外のモダリティ(形式)にも拡張されました。最近ではOpenAIのGPT-4o (2024) やGoogleのGemini 1.5(2024)などのオムニ/マルチモーダルモデルが登場し、テキストだけでなく、画像や音声の理解・生成も可能になりました。MetaのChameleon (2024) は、画像とテキストを完全統合し、高性能な画像キャプション生成を実現しています。 GoogleのPaLM-E (2023)は、言語モデルに視覚情報を取り入れ、ロボット分野への応用を目指しています。MicrosoftのLLaVA (2023)は、言語と視覚情報を統合し、画像に基づく質問応答などで高い性能を示しています。AppleのMM1 (2024) は複数のモダリティを統合し、より柔軟な情報処理を可能にしています。 これらのモデルは、異なるモダリティ間の関係を学習し、画像質問応答やテキストから画像生成などの複雑なタスクを実行できます。各モダリティ専用の処理と共通表現空間の学習が鍵となり、AIはより人間らしい情報処理が可能になり、応用範囲を大幅に拡大しました。
GPT-4o (2024) | Gemini 1.5 (2024) | Chameleon (2024) | PaLM-E (2023) |
LLaVA (2023) | MM1 (2024) |
7. 効率化と小型化 (2023年〜)
2023年頃から、大規模言語モデルの計算コストと環境負荷が問題視される中、効率化と小型化の研究が進展しました。LoRA (2021)やMoRA (2024)は少数のパラメータで効率的な微調整を可能にし、QLoRA (2023)はこれを量子化と組み合わせてさらに効率化しました。量子化技術は精度を維持しつつメモリ使用量を削減しました。BitNetb1.58 (2024)は1-bit量子化技術でメモリ効率と性能を両立させています。MoE (2022)は、専門化したサブモデルを組み合わせて効率を向上させ、PEER (2024)はMoEの数を100万規模にスケールさせました。MetaのLLaMA 2 (2023)やLLaMA 3 (2024), LLaMA 3.1 (2024)は、オープンソースで効率的な設計を特徴とし、様々なサイズのモデルを提供しました。GoogleのPaLM 2 (2023)は、小型モデルながら高性能を実現しました。MicrosoftのPhi-3(2024)やMistral 7B (2023)などの小型かつ高性能なモデルも登場し、限られたリソースでの高度なタスク実行を可能にしました。これらの技術により、AIの民主化と応用範囲が大幅に広がりました。
LoRA (2021) | MoRA (2024) | QLoRA (2023) | PEER (2024) |
BitNetb1.58 (2024) | LLaMA 2 (2023) | LLaMA 3 (2024) | PaLM 2 (2023) |
Phi-3 (2024) | LLaMA 3.1 (2024) |
8. 外部知識とツールの利用 (2023年〜):
2023年以降、LLMの限界を克服するため、外部知識やツールを活用する手法が注目されています。RAG技術により、モデルは外部の知識ベースから関連情報を検索し、より正確で最新の情報に基づいた回答が可能になりました。 また、GPT-4のプラグイン機能やHuggingGPT (2023)のようなフレームワークにより、LLMは外部のAPIやツールと連携し、リアルタイムの情報取得や特定のタスク実行ができるようになりました。ToolFormer (2023) のような手法では、モデル自体が外部ツールの使用方法を学習したり、APIGen (2024)といったAPIを訓練するデータセットが充実化してきています。これらの技術により、LLMの適用範囲が大幅に拡大し、より実用的で信頼性の高いAIシステムの開発が可能になっています。
HuggingGPT (2023) | ToolFormer (2023) | APIGen (2024) |
9. 最近の注目動向 (2024年〜):
ポスト アテンション・アーキテクチャ:
Transformer以外の新しいアーキテクチャの探求
Google DeepMindが提案したHawkとGriffin (2024) : リカレントニューラルネットワーク(RNN)の進化形で、Transformerの欠点を克服
State Space Models (SSM)、Mamba (2023)、Hyena など
LLM を活用した AI エージェントの発展:
自律的なタスク実行や意思決定が可能な AI エージェントの開発
複数のエージェントが協調して問題解決を行うマルチエージェントシステムの研究
継続学習と適応能力の向上:
新しい情報や変化する環境に適応できる LLM の開発
モデルの知識を効率的に更新する手法の研究
解釈可能性と説明可能性の向上:
LLM の意思決定プロセスをより透明化し、説明可能にする研究
モデルの振る舞いや出力の根拠を理解するための手法開発
HawkとGriffin (2024) | Mamba (2023) |