Breeze 2: 繁体字中国語に特化した次世代マルチモーダルAIモデル
今回は、MediaTek Researchが開発した最先端の研究成果「Breeze 2」をご紹介します。このモデルは、繁体字中国語における表現力を向上させるだけでなく、視覚情報を統合したマルチモーダル処理や関数呼び出し機能を備えています。台湾や香港、マカオといった繁体字文化圏での商業的・社会的応用に革新をもたらすこの研究を深く掘り下げます。
論文情報
- タイトル: The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities
- リンク: arXiv:2501.13921v1
- 発表日: 2025年1月23日
- 著者: Chan-Jan Hsu, Chia-Sheng Liu, Meng-Hsi Chen, Muxi Chen, Po-Chun Hsu, Yi-Chang Chen, Da-Shan Shiu
背景と目的
繁体字中国語の課題
繁体字中国語は台湾、香港、マカオなどで広く使用される言語であり、その文字体系は文化的な深みを持っています。しかし、現行のLLM(例: GPT-4v, Claude 3, Llama 3)では以下の課題が存在します:
- コーパスの不足: 繁体字中国語の高品質データが他言語に比べて少なく、モデルの訓練に十分な多様性を持たせるのが困難。
- ニュアンスの欠如: 繁体字独特の文法構造や文化的ニュアンスを捉えきれない。
- 視覚的要素の非対応: 繁体字を含む画像や図表など、マルチモーダルタスクへの適応が限定的。
Breeze 2の開発意義
Breeze 2は、繁体字中国語をより正確に処理するために設計されたモデルであり、以下の目標を掲げています:
- 繁体字独自の文法と語彙を理解し、文化的背景を反映したテキスト生成。
- 視覚情報とテキスト情報を統合し、OCRや図表理解を伴う高度なタスクに対応。
- 商業アプリケーション(例: 自動カスタマーサポート)で必要な関数呼び出し能力を実装。
モデルアーキテクチャと技術的特徴
アーキテクチャ概要
Breeze 2は、以下の3つのコンポーネントで構成される「ViT-MLP-LLM」アーキテクチャを採用しています:
-
Llama 3:
- 言語モデルの中核として、繁体字中国語の高度な言語処理を実現。
-
InternViT-300M-448px:
- 視覚的特徴を捉えるためのエンコーダ。中国語文字や画像内の文脈を高精度で解析。
-
MLPプロジェクタ:
- 視覚特徴と言語特徴を効果的に統合し、マルチモーダル処理を実現。
訓練プロセスの詳細
Breeze 2の訓練プロセスは以下の3段階に分かれています:
-
テキスト前学習:
- Llama 3を基盤とし、繁体字中国語コーパス(898GB)で再学習。
- 最大シーケンス長8,192トークン、学習率$1 \times 10^{-5}$。
-
視覚アライメント学習:
- MLP層を先行学習し、続いて全体の視覚言語統合を行う2段階プロセス。
- 視覚データセット(10.89Mデータポイント)を使用。
-
ポストトレーニング:
- 指示追従、視覚指示追従、関数呼び出しの3つのタスクに特化。
データセットとリソース
テキストデータセット
- Web Crawl: CommonCrawlやFineWeb-ZHTWなど(421GB)。
- 学術データ: 論文や研究計画書(94GB)。
- コードデータ: The Stack(110GB)。
- ニュース・対話・法的文書: 各ジャンルに特化。
視覚データセット
- キャプションデータ: LAIONやCOYOの繁体字版。
- OCRデータ: ArTやSynthDoGの繁体字版。
実験結果と比較
ベンチマーク
-
TMMLU+(台湾知識):
- Breeze 2 8Bは46.4スコアで他モデルを凌駕。
-
長文文脈処理:
- 最大128kトークン範囲で、Breeze 2 8Bは100%の精度を達成。
-
視覚認識(TMMBench):
- 台湾固有の視覚タスクでBreeze 2 8Bが45.9スコア。
比較
GPT-4vやClaude 3と比較して、台湾文化に特化したタスクで顕著な優位性を示しました。
ケーススタディ
1. 台湾夜市に関する知識生成
Breeze 2 3Bは台湾各地の12の夜市を正確に列挙。Shilin(士林)やFengjia(逢甲)など具体的な地名を含め、文化的詳細を的確に反映。
2. フォーマルなメール生成
敬語やフォーマル表現を適切に使用し、自然なビジネス文章を生成。
課題と今後の展望
現在の課題
- リソース消費が多く、モバイルデバイスへの展開には制約。
- 視覚タスクでは、さらに大規模なモデルに及ばない部分も。
今後の方向性
- モバイル向け最適化(量子化技術の導入)。
- モデル規模の拡大(16Bや30B)。
- 商業・教育アプリケーションへの応用。
この記事が、研究や実務における参考になれば幸いです。ご質問やフィードバックをお待ちしております。