0. はじめに
会社業務でLLMをいじる機会がありそうなので、勉強と備忘録も兼ねて調べたことをまとめていきます。(情報の多くはchatGPTくんから仕入れたものですのであしからず)
1.導入
LLM(大規模言語モデル)は近年急速に進化しており、ChatGPTやGeminiなどの高度なAIが登場しています。しかし、そのルーツは統計的言語モデル(LM: Language Model)にまで遡ります。本記事では、LLMの歴史を初期の言語モデルから概観します。
2. 初期の言語モデル(1950〜1990年代)
2.1 統計的言語モデルとN-gram
最も初期の言語モデルは、統計的手法を用いたものです。単語やフレーズの出現確率を利用するN-gramモデルが代表的でした。
-
Claude Shannon (1948)
- A Mathematical Theory of Communication
- → 言語の確率モデルの概念を示し、情報理論の基礎を築いた。
- 論文リンク
-
Brown et al. (1992)
- Class-Based n-gram Models of Natural Language
- → N-gramモデルの改良として、単語をクラスに分ける手法を提案。
- 論文リンク
2.2 隠れマルコフモデル(HMM)
N-gramモデルの発展として、隠れマルコフモデル(HMM)を用いた手法が登場しました。特に音声認識分野で広く用いられました。
-
Rabiner (1989)
- A tutorial on hidden Markov models and selected applications in speech recognition
- → HMMを用いた言語モデル・音声認識の基礎を確立。
- 論文リンク
-
Jelinek (1990)
- Self-organized language modeling for speech recognition
- → IBMの研究者が、HMMをベースとした言語モデルの自動学習を提案。
- 論文リンク
3. ニューラルネットワーク時代(2000年代〜2010年代)
2000年代に入り、ニューラルネットワークを活用した言語モデルが登場しました。
-
Bengio et al. (2003)
- A Neural Probabilistic Language Model
- → 初めてニューラルネットワークを使った言語モデルを提案。
- 論文リンク
この時期には、Word2Vec(2013)、Seq2Seq(2014)、Attention機構(2015)などの技術が登場し、最終的に**Transformer(2017)**が発表されました。
4. LLMの誕生と発展(2018年〜現在)
Transformerモデルを基盤にしたLLMが登場し、大規模なデータを学習することで驚異的な性能を発揮するようになりました。
- 2018年:BERT(Google)登場。事前学習+ファインチューニングの概念が確立。
- 2019年:GPT-2(OpenAI)登場。生成AIの可能性を示す。
- 2020年:GPT-3(OpenAI)登場。パラメータ数175BのLLM時代が本格化。
- 2022年:ChatGPTリリース。実用的な対話AIが普及。
- 2023年〜現在:GPT-4、Claude、Geminiなど、様々なLLMが登場。
5. 今後の展望
LLMは今後、以下の方向へ進化すると予測されます。
- マルチモーダル化(テキスト+画像+音声+動画)
- 効率化(少ない計算資源で高精度な推論)
- 専門特化(エンジニアリング分野などでの活用)
特に、MBSE(モデルベースシステムエンジニアリング) や UAF(統一アーキテクチャフレームワーク) などの分野でも、LLMの活用が期待されています。
6. まとめ
LLMは、統計的手法からニューラルネットワーク、Transformerを経て現在の大規模モデルへと発展してきました。
今後もさらなる進化が期待されるため、最新技術をウォッチし続けることが重要です。
参考文献
- Shannon, C. (1948). A Mathematical Theory of Communication.
- Brown, P. F., et al. (1992). Class-Based n-gram Models of Natural Language.
- Rabiner, L. (1989). A tutorial on hidden Markov models and selected applications in speech recognition.
- Bengio, Y., et al. (2003). A Neural Probabilistic Language Model.