Meta Llama 3の登場!業界をリードする最新AIモデル
Metaから「Meta Llama 3」がリリースされました。
なかなか凄そうなのですが、まとまった情報が日本語で無さそうなのでまとめてみます。
とりあえず試したい方用
特徴
利用可能なプラットフォーム
Llama 3は、AWS、Google Cloud、Microsoft Azure、NVIDIA NIMなどの主要なクラウドプラットフォームに加え、Hugging FaceやKaggleなどのプラットフォームで利用可能になる予定。
Claude 3 Sonnet・Gemini Pro 1.5を上回るスコア
ほとんどの部分でClaude 3 Sonnet・Gemini Pro 1.5を上回るスコアを出しています。
ただ、Claude 3にはSonnetより上のOpusもおり、こちらのスコアよりは低め。
改めてClaude 3 Opus凄いな・・・。
パラメータサイズ
Llama 3は、8B(80億パラメータ)と70B(700億パラメータ)のモデルを提供し、非常に幅広いユースケースに対応しているとのこと。
推論とコード生成の改善
Llama 3は、推論能力とコード生成能力を大幅に向上させており、より複雑な指示に応じて動作する能力がある。
多言語・マルチモーダル対応の計画
将来的には、多言語対応や画像とテキストを組み合わせたマルチモーダルなモデルを提供予定とのこと。
モデルアーキテクチャ
標準的なデコーダのみのトランスフォーマーアーキテクチャを使用し、新しいトークナイザーやself-attentionを採用して効率と性能を向上させている。
デコーダのみにすることで、入力データから直接的にテキストを生成する際の効率が向上するようです。
トレーニングデータ
公開されているソースから集められた15T(15兆トークン)以上のデータセットで訓練されており、その規模と質は前世代のモデルを大きく上回っている。
スケーリングと効率性
新しいスケーリング法則に基づいて訓練が行われ、大規模なGPUクラスタを使用することで訓練効率が大幅に向上。
カスタムビルドされた24K GPUクラスタを使用して訓練しているとのことで、想像できないようなリソースの投資が行われていることがわかります。
Building with Llama 3: 開発者向けのフレームワークとツール
Llama Guard 2
最新のセキュリティ要件に対応したモデルのセーフティを強化するツールで、プロンプトとレスポンスの安全性を向上。
Code Shield
コード生成の際に不安全なコードをフィルタリングすることで、より安全な使用が可能になるガードレール機能。
CyberSec Eval 2
セキュリティ評価ツールを使用して、モデルのセキュリティリスクを評価し、適切な対策を講じることができる。
torchtune
PyTorchネイティブのライブラリで、LLMのファインチューニングや実験が容易になります。このライブラリはメモリ効率が高く、様々なプラットフォームと統合されている。
まとめ
広範なプラットフォームへの対応や、推論性能の向上、セキュリティと安全性を考慮した新しいツールの提供は、大きなメリットになりそう。
Meta AIで利用できるとのことですが、日本ではまだMeta AIが利用できないので、Meta AIが早く利用できるようになるといいのですが・・・。
AWS Bedrockで利用できるようになったら色々と試してみたいですね。