More than 1 year has passed since last update.

AI言語モデルについての勉強

Posted at 2024-10-02

はじめに

AI製品の開発のために大規模言語モデルやそれをどう開発するかの勉強をはじめました。
メジャーなAI言語モデルにはどのようなのがあって、それをどう開発に活かせるか調べた内容の備忘録も兼ねて記事にします。

GPT-4は、OpenAIによって開発された自然言語処理モデルであり、前身のGPT-3の強化版です。膨大なデータセットで訓練されており、多様なタスクに対応できる汎用性が特徴です。
Github CopilotなどもGPT-4を活用したサービスです。

技術的特徴
- 高度な文章生成能力、質問応答、翻訳、対話システムの構築などが可能
- テキストベースの処理を得意としており、GPT-4ではマルチモーダルにも対応
  - マルチモーダルとは、「テキスト」「画像」「音声」といった数種類の入力を同時に処理できること

Geminiは、Google DeepMindによって開発されたAIモデルで、自然言語処理をはじめとする様々なAIタスクに対応します。最新の技術を用いて、より人間に近い理解と生成能力が特徴です。

技術的特徴
- 強化学習やトランスフォーマーベースのアーキテクチャを使用し、高精度なタスク処理を実現
- マルチモーダルな情報を扱うことを前提に根本から設計されており、マルチモーダルによる複雑なタスクの処理が可能

Llama 3は、Meta によって開発されたAIモデルで、自然言語処理タスクに特化しています。Llama 3はオープンソース化されており、企業・研究機関・個人の開発者など、誰でもダウンロードして利用できる点が特徴です。

技術的特徴
- 分散処理と効率的なトレーニング手法を採用し、より迅速かつ正確な応答が可能
- 特に推論やプログラミング、複雑な指示の理解など、高度な知的タスクにおいて優れている
- モデルの学習結果を非商用であれば利用できる点が他のメジャーな大規模言語モデルと違う
  - モデルの学習結果は、ほとんどの大規模言語モデルAPIを通じて限定されたアクセスしかできない

Phi-3は、Microsoftが開発した無料で使える高性能なSLMです。特に構造化データの理解と生成に優れており、専門的なデータ解析や特定分野での利用できる点が特徴です。

SLM (Small Language Models) とは、上3つの大規模言語モデルとは異なり、少ない学習データで計算リソースの消費を抑えつつ、高いパフォーマンスを発揮することが可能です。用途に合わせてカスタマイズしやすく、オンプレミス環境での運用に適した言語モデルです。

技術的特徴
- スマートフォンでローカルに実行でき、オフライン環境でも利用可能
- データ構造の理解に強みを持ち、特定の業界向けにカスタマイズされたソリューションを提供