プロジェクトリンク: GitHub - therealoliver/Deepdive-llama3-from-scratch: ステップバイステップでLlama3の推論を実現し、コアコンセプトを把握、プロセス導出をマスター、コードを実装。|二言語対応コード&ドキュメント|コアコンセプト|プロセス導出|完全実装 | 完全無料!!
githubでオープン化してわずか2日で450+ starを獲得しました!
ニュースです!!:
オープンソースコミュニティの貢献のおかげで、現在のプロジェクトは無料の Google Colab の上で動作し、ローカルリソースなしで学習を実行することができます。
また、オープンソースコミュニティの貢献のおかげで、llama-3.1、llama-3.2 やオリジナルモデルと instruct モデルのような大きなモデルを任意に選択し、1B、3B、8B などの任意のサイズのモデルを使用することができます。様々な計算可能なリソースに対応することができます。
このプロジェクトの目的
MetaのLlama3のような大規模言語モデルはAIを再定義していますが、その内部動作はしばしば「ブラックボックス」のように感じられます。このプロジェクトは、Llama3モデルの実装を根本から深く理解することを目的としています。このリポジトリは、学習者が実装に必要な本質的なコンセプトと詳細なコード導出を確実に習得できるよう、段階的なガイドを提供します。
🔥 主な特徴: 6つの大きな特徴
このプロジェクトはGitHub - naklecha/llama3-from-scratch: 一度に1つの行列計算で実装するLlama3 の基礎的な作業を発展させ、明確性と使いやすさを大幅に向上させました:
1. 構造最適化
ディレクトリ構成を刷新し、学習プロセスを直感的かつ体系的なものに改善。
2. 包括的なコード注釈
コード全体に詳細なインラインコメントを追加。初心者でも実装の流れを容易に理解可能。
#### 例: RoPE計算の一部 ####
# 次元方向にクエリベクトルをペアに分割
# .float()は三角関数計算の精度と数値安定性を保証するためのフル精度への切り戻し
# [17x128] -> [17x64x2]
q_per_token_split_into_pairs = q_per_token.float().view(q_per_token.shape[0], -1, 2)
3. 次元追跡
各ステップでの行列次元の変化を詳細に注釈。計算プロセス全体の理解を深化。
4. 原理の徹底解説
Llama3モデルの設計思想を導出式を交えて詳細解説。コアコンセプトの完全習得を支援。
5. KVキャッシュの洞察
新章「KVキャッシュ」でAttention機構における核心概念・導出・実践を解明。
6. 二言語対応ドキュメント
英語と中国語のドキュメント&コードを提供。機械翻訳の不正確さを解消し多言語対応。
📖 完全実装ロードマップ
- モデルの読み込み
- トークナイザーの読み込み
- モデルファイルと設定ファイルの読み込み
- 設定ファイルを使ってモデルの詳細を推論する
- 入力テキストをエンベッディングに変換する
- テキストをトークンIDのシーケンスに変換する
- トークンIDのシーケンスをエンベッディングに変換する
- 最初のトランスフォーマーブロックを構築する
- 正規化
- エンベッディングにRMS正規化を使用する
- 単一ヘッドのアテンションメカニズムをスクラッチから実装する
- 入力トークンに対応するQKVベクトルを取得する
- 照会ベクトルを取得する
- 照会重み行列を展開する
- 最初のヘッドを取得する
- トークンエンベッディングに照会重みを乗算して、トークンに対応する照会ベクトルを取得する
- キーベクトルを取得する(照会ベクトルとほぼ同じ)
- 値ベクトルを取得する(キーベクトルとほぼ同じ)
- 照会ベクトルを取得する
- 照会とキーベクトルに位置情報を追加する
- 回転位置符号化(RoPE)
- 照会ベクトルに位置情報を追加する
- キーベクトルに位置情報を追加する(照会と同じ)
- すべてが準備できました。では、トークン間のアテンション重みを計算し始めましょう。
- 照会とキーベクトルを乗算して、アテンションスコアを取得する。
- 今、私たちは将来の照会-キースコアをマスクする必要があります。
- 最終的なアテンション重み、すなわちsoftmax(score)を計算する。
- ついに!単一ヘッドのアテンションメカニズムの最終結果を計算しましょう!
- 入力トークンに対応するQKVベクトルを取得する
- マルチヘッドのアテンションメカニズムを計算する(上記のプロセスを繰り返す単純なループ)
- 各ヘッドについて結果を計算する
- 各ヘッドの結果を1つの大きな行列に統合する
- ヘッド間の情報相互作用(線形写像)、セルフアテンション層の最終ステップ!
- 残差演算(加算)を実行する
- 2回目の正規化演算を実行する
- FFN(フィードフォワードニューラルネットワーク)層の計算を実行する
- もう一度残差演算を実行する(ついに、トランスフォーマーブロックの最終出力が得られます!)
- 正規化
- すべてがここにあります。では、すべての32個のトランスフォーマーブロックの計算を完了しましょう。楽しい読書を!:)
- 最後のステップを完了して、次のトークンを予測しましょう
- まず、最後のトランスフォーマー層の出力に対して最後の正規化を実行する
- 次に、最後のトークンに対応するエンベッディングに基づいて予測を行う(語彙次元に対して線形写像を実行する)
- これが予測結果です!
- もっと深く掘り下げて、異なるエンベッディングやトークンマスキング戦略が予測結果にどのような影響を与えるかを見てみましょう:)
- 複数のトークンを予測する必要がありますか?KV-Cacheを使うだけです!(これを整理するのに本当に大変な努力をしました。Orz)
- 皆さん、ありがとうございます。皆さんの継続的な学習に感謝します。皆さんを愛しています:)
- 私から
- 先行プロジェクトの作者から
- ライセンス
🔍 このプロジェクトをStar&学習すべき理由
魔法なし、数学のみ
高レベルフレームワーク不使用で行列計算とAttentionを実装
二言語対応の明確性
英語・中国語のコードコメントでグローバルアクセス
再現可能な結果
Meta公式モデルファイルで「42」の予測プロセスを再現
ハンズオン実験
マスク解除Attention・中間トークン予測などの実験可能
🚀 クイックスタート
- プロジェクト&モデル重みをクローン
- JupyterでDeepdive-llama3-from-scratch-en.ipynbを実行
- GitHub Discussionsでコミュニティ参加!
🌟 LLMの神秘を解き明かす手助けになったらStarを!
プロジェクトリンク: https://github.com/therealoliver/Deepdive-llama3-from-scratch
テンソル一つずつ、Llama3の秘密を解き明かしましょう 🚀
愛を込めて プロジェクト作者より