初めに
社内向け及び勉強会向けに生成AI周りの資料を作成したので、SpeakerDeckに公開するとともに、いくつかのトピックについてはこちらで補足解説していきます。
趣味の範囲で機械学習周りを学んでいるため、説明に誤りがあればご指摘ください。
自然言語処理の進化
下記のサーベイ論文を基に4つの段階に分類し、各時代の特徴からドラゴンボールの時代に例えてみます。
A Survey of Large Language Models [Xin Zhao et al., arXiv:2303.18223]
・SLM(Statistical Language Models) :統計的言語モデル
・NLM(Neural Language Models) :ニューラル言語モデル
・PLM(Pre-trained Language Models):事前学習済みモデル
・LLM(Large language models) :大規模言語モデル
SLM:統計的言語モデル(~2010年付近)
時代的には~2010年までの時代として分類されており、単語の発生頻度などの確率統計を用いたモデルが主流。
モデル例としては、N-Gram言語モデルなど。
ドラゴンボールに例えると
人の知識がメインとなっているため、桃白白(タオパイパイ)やヤムチャが活躍していた時代に似ている
⇒少年編~ピッコロ大魔王編
NLM:ニューラル言語モデル(2010~2018)
発表用スライドでも説明しているような分散表現が導入され、ベクトルでの処理が行われるようになる。
そして、ニューラルネットワークの技術を用いた時代へと変化していき、自然言語処理関連の参考書の序盤に出てくるRNN(Recurrent Neural Network)やLSTM(Long Short Term Memory)が登場してくる。
最終的に2017年にGoogleによってTransformerと呼ばれるAttention機構を最大限に生かしたモデルが発表され、次の時代へと移り変わっていく。
このTransformerは、今となっては多くのモデルに組み込まれており、自然言語処理の枠に留まらず、画像や音声モデルなどにも転用されている。最新のモデルには、大抵どこかしらでtransformerが組み入れられており、時代の重要な分水嶺のような気がする。
モデル例としては、Word2vecやELMoなどが挙げられる。
ドラゴンボールに例えると
ニューラルネットワークが注目され、transformerという象徴的な技術の存在で終止符を迎える一連の流れは、ドラゴンボールにおけるサイヤ人の襲来とスーパーサイヤ人への覚醒に例えられる
⇒サイヤ人編~フリーザ編
余談
この時代(正確にはtransformer以後)にELMoというLSTMをベースにしたモデルが発表される。
これを機にセサミストリートのキャラクター名をモデルに付ける流れが発生する。
ELMoとは全身赤い主要キャラクターだが、色合いからして界王拳10倍といったところか、、
PLM:事前学習済みモデル(2018~2020)
徐々に時代の間隔が狭くなってきているが、現在の大規模言語モデルへの助走期間のような時代。
Transformerをベースとしたモデルが続々と発表され、まるでトランスフォーマーのバーゲンセール状態に。
ELMoによって、文書(単語)を右から左へ学習していく形から、前後の単語からの双方向学習が提案されたが、
上述の通りELMoはLSTMがベースとなっていたが、Transformerベースに転用したのがBERTになる。
自然言語処理のモデル性能を測る上では、いくつかのベンチマークテストが存在する。
その中のSQuADと呼ばれる、Wikipediaの内容から出題される言語テストにおいて、BERTが人間の回答結果を上回る結果をだす。
この時代の序盤モデルの特徴は2段階でモデルを変更する点になる。(GPT-1など)
・Pre-training
大規模なトレーニングデータで学習をさせ、汎用的なモデルを作成する
⇒とりあえず英語を喋れる人を赤ん坊から育て上げるイメージ
・Fine-tuning
各タスクに特化した出力を出せるように、モデルの最終層を変更する
⇒英語が分かる人に、法律などの専門文章を追加でトレーニングさせ、専門家を育て上げるイメージ
ドラゴンボールに例えると
人が作ったモデルが人間の性能を超える時代になってきた。
⇒人造人間・セル編
LLM:大規模言語モデル(2020~)
Scaling lawなどの研究によって、モデルを適切に大きくすることで性能はべき乗で向上することが分かっていた。
このような先行研究などから、モデルのパラメータや学習データが急激に増大し、性能も向上する。
性能が向上する一方で、人との対話の中では適切ではない回答を占めることが出てきた。
これは、LLMの抱えるHallucination(幻覚)と呼ばれる課題とは異なり、看護師は女性として回答してしまうなどのジェンダーの偏りや、爆弾の作成方法などの有害な回答をしてしまう部分である。
人との対話を目指す中では、適切な回答と有害な回答を分離させる仕組みが必要となってきた。そこで、Instruct GPTと呼ばれる、強化学習を用いて人との対話に適切な回答をするような強化学習が実施されるようになる。
その結果、ChatGPTに代表されるような対話に特化したモデルやサービスが発表されてきた。
ドラゴンボールに例えると
性能としてはすごい物となったが、なんでも回答できるが故に、悪い回答も出すようになってきた。
そのため、良い回答と悪い回答を分離してやる必要が出てきた。
⇒魔人ブウ編
直近
ChatGPTの登場や自然言語以外にも画像生成や動画生成のサービスなどが登場しており、今までの仕事のあり方や、人とシステムの関係性などの見直しが迫られており、創造的破壊の時代へと入りつつある。
⇒破壊神ビルス編