0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLMの歴史を振り返ってみる

Posted at

0. はじめに

会社業務でLLMをいじる機会がありそうなので、勉強と備忘録も兼ねて調べたことをまとめていきます。(情報の多くはchatGPTくんから仕入れたものですのであしからず)

1.導入

LLM(大規模言語モデル)は近年急速に進化しており、ChatGPTやGeminiなどの高度なAIが登場しています。しかし、そのルーツは統計的言語モデル(LM: Language Model)にまで遡ります。本記事では、LLMの歴史を初期の言語モデルから概観します。


2. 初期の言語モデル(1950〜1990年代)

2.1 統計的言語モデルとN-gram

最も初期の言語モデルは、統計的手法を用いたものです。単語やフレーズの出現確率を利用するN-gramモデルが代表的でした。

  • Claude Shannon (1948)

    • A Mathematical Theory of Communication
    • → 言語の確率モデルの概念を示し、情報理論の基礎を築いた。
    • 論文リンク
  • Brown et al. (1992)

    • Class-Based n-gram Models of Natural Language
    • → N-gramモデルの改良として、単語をクラスに分ける手法を提案。
    • 論文リンク

2.2 隠れマルコフモデル(HMM)

N-gramモデルの発展として、隠れマルコフモデル(HMM)を用いた手法が登場しました。特に音声認識分野で広く用いられました。

  • Rabiner (1989)

    • A tutorial on hidden Markov models and selected applications in speech recognition
    • → HMMを用いた言語モデル・音声認識の基礎を確立。
    • 論文リンク
  • Jelinek (1990)

    • Self-organized language modeling for speech recognition
    • → IBMの研究者が、HMMをベースとした言語モデルの自動学習を提案。
    • 論文リンク

3. ニューラルネットワーク時代(2000年代〜2010年代)

2000年代に入り、ニューラルネットワークを活用した言語モデルが登場しました。

  • Bengio et al. (2003)
    • A Neural Probabilistic Language Model
    • → 初めてニューラルネットワークを使った言語モデルを提案。
    • 論文リンク

この時期には、Word2Vec(2013)、Seq2Seq(2014)、Attention機構(2015)などの技術が登場し、最終的に**Transformer(2017)**が発表されました。


4. LLMの誕生と発展(2018年〜現在)

Transformerモデルを基盤にしたLLMが登場し、大規模なデータを学習することで驚異的な性能を発揮するようになりました。

  • 2018年:BERT(Google)登場。事前学習+ファインチューニングの概念が確立。
  • 2019年:GPT-2(OpenAI)登場。生成AIの可能性を示す。
  • 2020年:GPT-3(OpenAI)登場。パラメータ数175BのLLM時代が本格化。
  • 2022年:ChatGPTリリース。実用的な対話AIが普及。
  • 2023年〜現在:GPT-4、Claude、Geminiなど、様々なLLMが登場。

5. 今後の展望

LLMは今後、以下の方向へ進化すると予測されます。

  1. マルチモーダル化(テキスト+画像+音声+動画)
  2. 効率化(少ない計算資源で高精度な推論)
  3. 専門特化(エンジニアリング分野などでの活用)

特に、MBSE(モデルベースシステムエンジニアリング)UAF(統一アーキテクチャフレームワーク) などの分野でも、LLMの活用が期待されています。


6. まとめ

LLMは、統計的手法からニューラルネットワーク、Transformerを経て現在の大規模モデルへと発展してきました。
今後もさらなる進化が期待されるため、最新技術をウォッチし続けることが重要です。


参考文献

  • Shannon, C. (1948). A Mathematical Theory of Communication.
  • Brown, P. F., et al. (1992). Class-Based n-gram Models of Natural Language.
  • Rabiner, L. (1989). A tutorial on hidden Markov models and selected applications in speech recognition.
  • Bengio, Y., et al. (2003). A Neural Probabilistic Language Model.
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?