1. はじめに
この記事では、2024年7月ごろに作成されたモデルの"Gemma 2: Improving Open Language Models
at a Practical Size" の要点を説明します。
この論文は、Gemma Team, Google DeepMindによって執筆され、Creative Commons Attribution 4.0 International (CC BY 4.0)のライセンスの下で公開されています。論文の内容の概要を説明します。
ライセンスの注意点:
この記事は論文を基にしており、著者に適切なクレジットを与え、変更が加えられた部分がある場合にはその旨を明記しています。また、元の著者や論文が本記事を推奨しているわけではありません。
2. 論文を読むに至った背景
この論文に興味を持った理由は、私が参加したデータ分析コンペの第一位の方がこちらのモデルも使用されていていたためです。
私自身、自然言語について詳細に勉強した背景はLDA (latent dirichlet allocation) 程度しかないため乏しいのですが、せっかく参加したコンペが自然言語の内容であったこともあり、こちらの論文を読もうと考えました。
(上記の内容は私が論文を読み始めたきっかけを説明する内容であるため、論文内では記載されていないです。)
3. 論文の概要
このセクションでは、論文の主な目的や背景、方法論について説明します。
- 目的: 論文の目的は、Gemma familyというモデル郡に軽量なモデルを追加することです。
- 背景: 今までの軽量型のモデルは、訓練時間を増やすことで性能の改善を図っていましたが、改善は僅かなものでした。ただ、これは訓練が足りていない状況を示唆していたため学習方法について改善を行えばよいと考えました。
- 方法: 各トークンでの1ホットベクトルを、大規模モデルによって計算された次のトークンの分布に置き換え、利用可能なトークン数を超えたトレーニングをシミュレートするために、大量のトークンを使用して 蒸留 を行います。具体的には、大規模言語モデルを教師として使用し、2Bおよび9Bモデルといった小規模モデルを、理論上計算最適とされる量の50倍以上のトークンで学習をさせます。また、トランスフォーマーに対するいくつかの既知の修正を活用しています。具体的には、グローバルおよびローカルアテンション層の交互配置や、Grouped-Query Attention(GQA)メカニズムを採用しています。
- 本論文の概要: Gemma 2のモデルについて、アーキテクチャやトレーニングの方法、トレーニング前後のレシピを含む概要を提供します。また、定量的および定性的な幅広いベンチマーク、標準的な学術ベンチマーク、そして人間の好みに基づく評価を詳細に評価しています。最後に、安全で責任ある導入に対するアプローチについて議論し、Gemma 2のより広い意味での影響、限界、および利点を概説します。
4. 主要な発見と結論
ここでは、論文で得られた主要な発見や結論について触れます。
- 発見1:事前学習において、小さなモデルサイズにしては最も良い性能を出しました。
- 発見2:Gemma 2のInstruction Tuned modelは最前線を押し進め、特にLMSYS Chatbot Arenaで最先端のパフォーマンスを達成しました。
- 注意点: 論文では、安全性とセキュリティが最重要事項として説明があり、著者らはGemmaモデルを使用する際のリスクを最小限に抑えるとともに、開発者が安全で責任あるAIアプリケーションを構築できるよう支援しています。
5. 個人的に面白いと思った点
最後に、この論文を読む上で特に私が注目したポイントを紹介します。
- アーキテクチャ:2章や3章で記載されている内容は、SentencePiecesやGrouped-Query Attentionの内容が含まれており、実際にモデルアーキテクチャを考える上で非常に参考になると感じました。特に3.2の内容は論文のメインでもある蒸留に関するロジックであるため参考になると感じます。一方で、他の箇所については先行研究を理解しないと、理解できない内容がほぼ全てであったため、今後そちらも合わせて勉強できたらと思いました。
- カーボンフットプリント:3.4章ではこちらについて定量的に評価をしていて、今まで自分がLLMの論文を読んでいないこともありますが、考えられていて良いなと感じました。
- 安全性:8章では、Gemma 2でできないことを様々な観点から検証されていて素晴らしいと感じました。モデルに対して実験をして安全性について評価する姿勢は見習いたいと感じました。
(上記の内容は個人的な感想であるため、論文内で言及されているわけではありません)
6. 参考文献
全て2024/10/14アクセスをしました。
- google/gemma-2-27b-it · Hugging Face
- Gemma Team and Morgane Riviere and Shreya Pathak and Pier Giuseppe Sessa and Cassidy Hardin and Surya Bhupatiraju and Léonard Hussenot and Thomas Mesnard and Bobak Shahriari and Alexandre Ramé and Johan Ferret and Peter Liu and Pouya Tafti and Abe Friesen and Michelle Casbon and Sabela Ramos and Ravin Kumar and Charline Le Lan and Sammy Jerome and Anton Tsitsulin and Nino Vieillard and Piotr Stanczyk and Sertan Girgin and Nikola Momchev and Matt Hoffman and Shantanu Thakoor and Jean-Bastien Grill and Behnam Neyshabur and Olivier Bachem and Alanna Walton and Aliaksei Severyn and Alicia Parrish and Aliya Ahmad and Allen Hutchison and Alvin Abdagic and Amanda Carl and Amy Shen and Andy Brock and Andy Coenen and Anthony Laforge and Antonia Paterson and Ben Bastian and Bilal Piot and Bo Wu and Brandon Royal and Charlie Chen and Chintu Kumar and Chris Perry and Chris Welty and Christopher A. Choquette-Choo and Danila Sinopalnikov and David Weinberger and Dimple Vijaykumar and Dominika Rogozińska and Dustin Herbison and Elisa Bandy and Emma Wang and Eric Noland and Erica Moreira and Evan Senter and Evgenii Eltyshev and Francesco Visin and Gabriel Rasskin and Gary Wei and Glenn Cameron and Gus Martins and Hadi Hashemi and Hanna Klimczak-Plucińska and Harleen Batra and Harsh Dhand and Ivan Nardini and Jacinda Mein and Jack Zhou and James Svensson and Jeff Stanway and Jetha Chan and Jin Peng Zhou and Joana Carrasqueira and Joana Iljazi and Jocelyn Becker and Joe Fernandez and Joost van Amersfoort and Josh Gordon and Josh Lipschultz and Josh Newlan and Ju-yeong Ji and Kareem Mohamed and Kartikeya Badola and Kat Black and Katie Millican and Keelin McDonell and Kelvin Nguyen and Kiranbir Sodhia and Kish Greene and Lars Lowe Sjoesund and Lauren Usui and Laurent Sifre and Lena Heuermann and Leticia Lago and Lilly McNealus and Livio Baldini Soares and Logan Kilpatrick and Lucas Dixon and Luciano Martins and Machel Reid and Manvinder Singh and Mark Iverson and Martin Görner and Mat Velloso and Mateo Wirth and Matt Davidow and Matt Miller and Matthew Rahtz and Matthew Watson and Meg Risdal and Mehran Kazemi and Michael Moynihan and Ming Zhang and Minsuk Kahng and Minwoo Park and Mofi Rahman and Mohit Khatwani and Natalie Dao and Nenshad Bardoliwalla and Nesh Devanathan and Neta Dumai and Nilay Chauhan and Oscar Wahltinez and Pankil Botarda and Parker Barnes and Paul Barham and Paul Michel and Pengchong Jin and Petko Georgiev and Phil Culliton and Pradeep Kuppala and Ramona Comanescu and Ramona Merhej and Reena Jana and Reza Ardeshir Rokni and Rishabh Agarwal and Ryan Mullins and Samaneh Saadat and Sara Mc Carthy and Sarah Cogan and Sarah Perrin and Sébastien M. R. Arnold and Sebastian Krause and Shengyang Dai and Shruti Garg and Shruti Sheth and Sue Ronstrom and Susan Chan and Timothy Jordan and Ting Yu and Tom Eccles and Tom Hennigan and Tomas Kocisky and Tulsee Doshi and Vihan Jain and Vikas Yadav and Vilobh Meshram and Vishal Dharmadhikari and Warren Barkley and Wei Wei and Wenming Ye and Woohyun Han and Woosuk Kwon and Xiang Xu and Zhe Shen and Zhitao Gong and Zichuan Wei and Victor Cotruta and Phoebe Kirk and Anand Rao and Minh Giang and Ludovic Peran and Tris Warkentin and Eli Collins and Joelle Barral and Zoubin Ghahramani and Raia Hadsell and D. Sculley and Jeanine Banks and Anca Dragan and Slav Petrov and Oriol Vinyals and Jeff Dean and Demis Hassabis and Koray Kavukcuoglu and Clement Farabet and Elena Buchatskaya and Sebastian Borgeaud and Noah Fiedel and Armand Joulin and Kathleen Kenealy and Robert Dadashi and Alek Andreev. (2024). Gemma 2: Improving Open Language Models at a Practical Size. https://arxiv.org/abs/2408.00118.