本記事は下記の続きです。
経営、方針など
Googleは2018年に「AI Principles(AI原則)」を発表して以降、その進捗と実践について2021年に詳細なレポートを公開した1。この中でGoogleは、OECDやGPAI(Global Partnership on AI)といった国際的なAI政策枠組みに参加し、安全で公平なAIの設計・運用に関する標準化と規制提言を行った2。
MUM
2021年5月、Google AIは「複雑で多段階な質問」を少ない検索で解決するために設計されたマルチタスク・マルチモーダルモデルであるMUM(Multitask Unified Model)を発表した。
MUMに関しての技術的な詳細情報は公開されていないが、T5のフレームワークが用いられ、BERTの1000倍の性能を持つとされる3。
Evolved Transformer / Meena / LaMDA
Evolved Transformer
Google Brainは2019年に、Evolved Transformerを開発し、翻訳性能で最高性能(BLEU 29.8)を達成したことを発表した45。
Evolved Transformerは、Transformerの構造からSwishと呼ばれる滑らかな活性化関数を用いる点、Depthwise Separable Convolution を一部ブロックに導入する点、さらに並列ブランチ構造(multi-branch structure)の採用などが変更されており、より効率的かつ表現力豊かなニューラルネットワークアーキテクチャとなっている。
Neural Architecture Search(NAS) が用いられ、Transformerを初期母集団に含めた進化的探索を通じて、より優れた構造が自動的に発見された。
特に Progressive Dynamic Hurdles(PDH) と呼ばれる手法により、有望な候補モデルに対して計算リソースを優先的に割り当てることで、探索効率を大幅に向上させている。
その結果、同等の翻訳性能を、標準的なTransformerに比べて約37%少ないパラメータ数で達成できるなど、性能と効率の両立に成功したモデルとして高く評価された。
Google BrainはGoogle ResearchのBrain Teamと呼ばれることもある。Google ResearchにはLanguage Teamなどの別チームもあった。
Meena
Google Brainは2020年1月に、多くの既存チャットボットが直面している「意味不明・曖昧な応答」や「文脈に即していない返答」といった課題に対して自然かつ具体的な会話を目指すオープン対話型チャットボットであるMeenaを発表した6。
Meenaには、Evolved Transformerベースの seq‑to‑seq アーキテクチャを採用。1つのエンコーダーブロックと13のデコーダーブロックから構成されており、すべてのブロックでSwish活性化関数やDepthwise Separable Convolutionなど、Evolved Transformer固有の構造的工夫が活かされている。
学習目標は、会話中の次のトークンを予測する際の不確実性(Perplexity)を最小化することであり、これにより一貫性のある応答生成を実現している。
Meenaは2.6B(26億)パラメータを持ち、公開ソーシャルメディア上の会話から抽出・フィルタリングされた341GB(約40億語)のテキストデータで学習されている。これは、当時最先端だったGPT-2(1.5Bパラメータ)と比較してモデル容量で1.7倍、学習データ量で8.5倍に相当する。
従来のチャットボット評価には、主観性が高く評価者間のばらつきが大きいという課題が存在していた。そこでGoogleは、人間の対話における自然さと具体性という二つの観点を統合的に測定するSSA(Sensibleness and Specificity Average)という新たな評価指標を提案した。
SSAとは、ある対話応答が「意味的に破綻していないか(sensibleness)」、および「文脈に対して十分に具体的か(specificity)」を人間評価により定量化し、その平均スコアを用いる指標である。SSAを導入することで、モデル出力の品質を従来よりも明確かつ一貫した基準で評価できるようになり、Perplexityとの高い相関も確認された。これにより、生成モデルの自動評価指標と人間評価とのギャップを埋める手がかりが得られた7。
人間に近い一貫性と応答の具体性を実現した一方、信頼性(groundedness)や安全性(safety)への対応は不十分だった。すなわち、「意味の通る具体的な応答」を生成できる一方で、「その応答が事実に基づいているか」や「社会的に受容可能か」といった側面を保証する機構を持たなかった。
Example of Meena encoding a 7-turn conversation context and generating a response, “The Next Generation”.
LaMDA
Google Brainは2022年1月に、Meenaの後継となる対話アプリケーション向けの大規模言語モデルである LaMDA(Language Models for Dialog Applications)を発表した。LaMDA は「ダイアログに特化した Transformer ベースのニューラル言語モデル群」であり、最大で 137B パラメータ規模を持ち、事前学習データには合計 1.56 兆語 の公開対話データおよびウェブドキュメントを使用したとされる8。
LaMDAは、OpenAIのGPT(Generative Pre-trained Transformer)シリーズが急速に注目され、Decoder-only(自己回帰型)構造の有効性が広く知られるようになったことなどを受け、DecoderのみのTransformerを用いている。トークナイザーはSentencePiece、モデルサイズは最大137Bで開発された8。
OpenAIのGPTシリーズのような大規模生成モデルとは異なり、LaMDAは対話特有の品質基準と制御機構を組み込んだ設計思想が特徴である。
Meenaにおいては、信頼性(groundedness)や安全性(safety)への対応が不十分であるという課題が残されていたが、LaMDAではこれを踏まえ、「SSI(Sensibleness・Specificity・Interestingness)」と呼ばれる対話品質評価基準に加えて、安全性評価およびファクトグラウンディングの仕組みをモデル設計に統合している。
たとえば、LaMDAは安全性分類器により不適切な応答候補を生成後に除外し、外部検索システムと連携して事実情報に基づく応答を優先するよう調整されている。
また、Meenaでは「Perplexity(次単語予測の困難さ)」を最小化することで会話の自然さを追求していたが、LaMDAでは人間評価に基づく多面的なメトリクス(quality, safety, groundedness)を導入することで、モデルの目的関数がより実用的な対話能力へと近づいている8。
EfficientNetV2
Google Brainは2021年5月に、画像認識モデルとして非常に強力だったEfficientNet9の新世代としてEfficientNetV2を発表した。EfficientNetV2は、2019年に提案されたEfficientNetの後継であり、精度と学習速度の両面での最適化を目指した設計が特徴である10。
GPT-3はFew-Shot学習において優れた性能を発揮するが、数千のGPUを用いた数週間の学習が必要であり、再学習や改善が困難となるため、より小規模で高速でありながら、より高精度なニューラルネットワークを設計するという思想のもと、開発が進められた。
アーキテクチャの設計には、ニューラルアーキテクチャ探索(Neural Architecture Search, NAS)を活用しつつ、訓練効率と推論性能のバランスを重視した。
EfficientNetV2では、前世代に比べて学習速度を最大で11倍高速化しつつ、精度を大幅に向上させることに成功している。たとえば、ImageNet上でのEfficientNetV2-Sは、84.6%のTop-1精度を達成しながら、同等精度のモデルより訓練が5~11倍高速であることが報告された11。
構造的には、EfficientNetV2では主に以下の点が改良されている:
- Fused-MBConvの導入:標準のMBConvブロックにおけるDepthwise ConvolutionとExpansion操作を結合し、初期段階での学習効率を改善
- プログレッシブ学習戦略(Progressive Learning Strategy):初期段階で小さな画像サイズ・データ拡張を用い、学習後半でより大きなサイズ・強い拡張へと段階的に移行することで、過学習を抑制しつつ高速学習を実現
- パラメータと計算量を抑えながらも、高速・高精度な学習を可能にする正則化設計の強化
また、EfficientNetV2は、パラメータ効率の高さとモバイル向け展開のしやすさも特徴であり、Edge向けモデル(EfficientNetV2-S)からクラウド用の大規模モデル(EfficientNetV2-L)まで、幅広いスケーリングが可能である。