はじめに
おはようございます、しなもんです。
2023年にOpenAIがGPT-4を公開して以来、大規模言語モデルは急速な進化を遂げました。
リリース当初はそれはもう大注目され世間を変え業界を変え...
ですが、主人公であったGPT-4には次々にライバルが立ちはだかっています
正直、もしChatGPTだけを使っているのならば、あなたは最新のAI技術動向から取り残されている可能性があります。
ということで、この記事では現在の大規模言語モデルの動向を、なんとか取り残されないように、しっぽつかむくらいの感覚で追えればと思います。
この記事は、あくまで言語モデル自体の話をしており、
FigmaAIやNotionAI、DuolingoのようなAIサービスの話ではありません。
また、DALL-Eのような画像生成についても言及しません。
1年でこれだけのことが変わっている
トークン数の増加
生成AIが一度に処理できる情報量を指すコンテキストウィンドウという言葉があります。
簡単に言うと、入力できるプロンプトの長さです。
GPT-3.5
のような従来の生成AIは、コンテキストウィンドウが短く、限られた情報しか処理できませんでした。
そのため、長い文章を理解したり、複雑なタスクを実行したりすることが困難でした。
ですが、現在では長いコンテキストウィンドウを持つ生成AIが開発されていて、その進化具合は一目瞭然です。
ChatGPT: 4,096トークン(GPT-3.5)→ 32,768トークン(GPT-4)
Claude: 100,000トークン以上(Claude 3 Opus)
桁が全く違います。びっくり。
このように膨大なトークンを入力できるようになると、数千ページに及ぶ文書や小説を要約したり、膨大で複雑なコードを理解できるようになる等、可能性が大きく広がるのです。
マルチモーダル化
マルチモーダルとは、生成AIが処理できる情報の種類を指します。
従来の生成AIでは主にテキスト情報を処理していましたが、現在のAIは画像、音声、動画を処理できることが当たり前になってきています。
- 画像の説明
- 音声認識
- 動画の理解
- 画像の生成
このようなメディアが組み合わされることで、より豊かな情報を理解し、より視覚的なアウトプットが出来るようになっています。
専門性の向上
ChatGPTはその汎用性に全振りした設計から、しばしば「ChatGPTは専門性に欠ける」といわれることがありましたが、それはその通りです。
現在のAIモデルは、基本的には「素体」であることが重視されています。
ノーカスタムのAviutlが動画の継ぎ接ぎしかできないのと同じです。(?)
その代わり、業界全体で「AIのカスタム性」「専門的機能の追加」が大きく流行っている気がします。
GPTsは正にその流れを汲んでいるもので、バニラのChatGPTに様々な機能を追加できるようになっています。
画像生成やブラウザ機能はもちろん、作曲や自分だけの家庭教師、漫才をしてくれるGPTなど、たくさんあります。
省エネ化への取り組み
大規模なAIモデルは膨大な計算量を必要とし、環境負荷が懸念されていました。
しかし、新しいアルゴリズムやハードウェアの開発により、処理効率が向上し、省エネ化が進んでいます。
NVIDIAが専用のハードウェアを出したことは記憶に新しいと思います。
強力な生成AIモデルはChatGPTだけでは無くなった
Claude
最近話題の、元OpenAIのメンバーが立ち上げたAnthropic社開発の生成AIです。
安全で信頼できるAIの実現に重きを置き開発されていますが、基本的にはChatGPTと似たシステムです。
「Artifacts」機能がめちゃくちゃヤバいっぽいです。
Gemini(Bard)
Googleが開発しているAIです。
BardというAIサービスの一部で、Gemini単体ではChatGPTと同じ分野です。
発表当時はBardというAIでしたが、Geminiへ進化する過程で能力が向上しています。
ChatGPTとの技術的な違いはあまりないですが、会社が違うということは運営思想が異なるということです。選択肢が増える。
LLaMA
一週間でリークされて話題になったアレ。
Meta AIが開発したAIです。
こちらは今まで紹介したAIとは異なり、カスタム性に全振りしたAIといえます。
モデルのサイズは70億から1370億パラメータまで選べ、かつモデルがオープンソースであるため
様々な分野で研究が進んでいるようです。
最後に
1年たっただけで、LLMは大きく進化していてできることが非常に増えました。
プロンプトエンジニアリングとかもそろそろ勉強すべきなのかも...