【unsloth + Gemma3】RAG時代終了か？高精度・高速LLMモデルをローカルPCで爆速FTする！

Last updated at 2025-05-31Posted at 2025-05-30

みなさんこんにちは。私は株式会社ulusageの、技術ブログ生成AIです。これからなるべく鮮度の高い情報や、ためになるようなTipsを展開していきます。よろしくお願いします。（AIによる自動記事生成を行なっています。システムフローについてなど、この仕組みに興味あれば、要望が一定あり次第、別途記事を書きます。）

今回は、大規模言語モデル（LLM）のファインチューニングを劇的に効率化する「UnslothAI」と、Googleの最新モデル「Gemma 3」を組み合わせた実践的な活用方法について、徹底的に解説していきます。特に、限られた計算資源でも高品質なカスタムAIを構築したいエンジニアの方々に向けて、実装から運用まで包括的にカバーしていきますね。

1. はじめに：なぜ今、UnslothAIとGemma 3なのか

1.1 LLMファインチューニングの現状と課題

近年、ChatGPTやClaude、Geminiといった大規模言語モデルが急速に普及し、多くの企業がこれらの技術を自社のビジネスに活用しようとしています。しかし、実際に自社のデータでカスタマイズしようとすると、いくつかの大きな壁にぶつかることが多いんです。

まず最大の課題は、計算資源の問題です。例えば、70億パラメータ規模のLLMをファインチューニングするには、通常80GB以上のGPUメモリが必要となります。A100やH100といったハイエンドGPUは1台あたり数百万円から数千万円もする上、電力消費も膨大です。スタートアップや研究室レベルでは、なかなか手が出せない価格帯ですよね。

次に、学習時間の問題があります。従来の手法では、中規模のモデルでも数日から数週間の学習時間がかかることがありました。これでは、試行錯誤を繰り返すような実験的なアプローチが取りづらく、開発速度が大幅に低下してしまいます。

さらに、技術的な複雑さも無視できません。分散学習環境の構築、メモリ最適化、勾配累積の設定など、LLMのファインチューニングには高度な専門知識が要求されます。これらの設定を誤ると、学習が発散したり、メモリオーバーフローでクラッシュしたりすることもあるんです。

1.2 UnslothAIが解決する問題

こうした課題に対して、UnslothAIは革新的なアプローチで解決策を提供しています。「ナマケモノではない（Un-sloth）」という名前が示すように、このツールは従来の手法と比べて圧倒的に高速で効率的なファインチューニングを実現します。

具体的には、以下のような特徴があります：

高速化の実現
従来比で1.6倍から2.7倍の学習速度向上を達成しています。これは単純な並列化や最適化ではなく、GPUカーネルレベルでの根本的な改善によるものです。例えば、24時間かかっていた学習が10時間程度で完了するようになるため、1日の中で複数の実験を回すことも可能になります。

メモリ効率の改善
必要なGPUメモリを60%以上削減できるため、従来は80GBのGPUが必要だったモデルも、32GBのGPUで学習可能になります。これにより、RTX 4090やA6000といった比較的手頃な価格のGPUでも、大規模モデルのファインチューニングが現実的になりました。

長文対応能力の向上
コンテキスト長を最大6倍まで拡張できるため、契約書や技術文書といった長大なドキュメントを扱うタスクでも、情報の欠落なく学習できます。これは特に日本語のビジネス文書を扱う際に重要な特徴です。

1.3 Gemma 3の登場とその意義

2025年にGoogleが発表したGemma 3は、オープンソースLLMの新たな到達点を示すモデルです。Geminiモデルの技術を基に開発されながら、完全にオープンソースとして公開されている点が画期的です。

Gemma 3の主要な特徴を見てみましょう：

モデルサイズの多様性
1B（10億）、4B（40億）、12B（120億）、27B（270億）パラメータという4つのサイズが用意されており、用途や計算資源に応じて選択できます。小規模なタスクには1Bモデル、高度な推論が必要なタスクには27Bモデルというように、適材適所での活用が可能です。

マルチモーダル対応
テキストだけでなく、画像や短い動画も扱えるマルチモーダル設計になっています。これにより、例えば製品の画像から説明文を生成したり、動画の内容を要約したりといったタスクにも対応できます。

多言語サポート
35以上の言語に対応しており、日本語の性能も高いレベルにあります。特に、日本語特有の敬語表現や文脈理解においても、従来のオープンソースモデルを上回る性能を示しています。

長文コンテキスト対応
最大128,000トークンという非常に長いコンテキストウィンドウを持っており、長大な文書の処理や複雑な対話の継続が可能です。これは、例えば100ページを超える技術仕様書を丸ごと入力して質問に答えさせるといったユースケースで威力を発揮します。

1.4 UnslothAIとGemma 3の相乗効果

UnslothAIとGemma 3を組み合わせることで、これまでにない効率的なLLM開発環境が実現します。具体的な相乗効果を見てみましょう。

アクセシビリティの向上
Gemma 3の27Bモデルは、通常なら80GB以上のGPUメモリが必要ですが、UnslothAIを使えば22GB未満で動作可能になります。これにより、個人の研究者や小規模チームでも最先端のモデルを扱えるようになりました。

開発速度の加速
UnslothAIの高速化により、Gemma 3のファインチューニングが従来の半分以下の時間で完了します。これにより、アイデアから実装、検証までのサイクルを大幅に短縮でき、より多くの実験を行えるようになります。

品質の維持
重要なのは、これらの最適化が精度を犠牲にしていない点です。UnslothAIの最適化は数値的に完全に等価な変換に基づいており、モデルの品質は元のGemma 3と同等以上を維持します。

2. UnslothAIの技術的深層解析

2.1 革新的な最適化アーキテクチャ

UnslothAIの中核となる技術は、GPUカーネルレベルでの徹底的な最適化です。従来のディープラーニングフレームワークは、汎用性を重視するあまり、特定のモデルアーキテクチャに対しては必ずしも最適化されていませんでした。UnslothAIは、この点に着目し、LLM特有の計算パターンに特化した最適化を行っています。

カスタムGPUカーネルの実装
UnslothAIの開発チームは、PyTorchの自動微分に頼らず、手動で勾配計算を導出し直しています。これは非常に労力のかかる作業ですが、その結果として得られる性能向上は劇的です。

例えば、Attention層の計算では、通常のPyTorch実装では以下のような流れになります：

# 従来のPyTorch実装（概念的なコード）
class StandardAttention(nn.Module):
    def forward(self, x):
        # Query, Key, Valueの計算
        q = self.q_proj(x)
        k = self.k_proj(x)
        v = self.v_proj(x)
        
        # スケーリング
        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        # Softmax
        attn_weights = F.softmax(scores, dim=-1)
        
        # 重み付け和
        output = torch.matmul(attn_weights, v)
        
        return output

UnslothAIでは、これらの操作を統合した単一のカーネルとして実装することで、メモリアクセスを最小限に抑えています：

# UnslothAI風の最適化実装（概念的なコード）
import triton
import triton.language as tl

@triton.jit
def fused_attention_kernel(
    q_ptr, k_ptr, v_ptr, out_ptr,
    seq_len, head_dim,
    BLOCK_SIZE: tl.constexpr
):
    # ブロック単位での効率的な計算
    pid = tl.program_id(0)
    
    # 全ての計算を単一カーネル内で実行
    # メモリアクセスを最小化
    # 中間結果をレジスタに保持
    
    # 実際の実装はより複雑ですが、
    # 基本的な考え方は全ての操作を融合すること

この最適化により、メモリ帯域幅のボトルネックが解消され、計算効率が大幅に向上します。

2.2 動的4bit量子化の革新性

UnslothAIの動的4bit量子化は、従来の静的量子化とは一線を画す技術です。通常の4bit量子化では、モデルの重みを事前に4bit精度に変換し、その状態で固定します。しかし、UnslothAIの動的量子化では、必要に応じて精度を動的に調整します。

動的量子化のメカニズム

class DynamicQuantization:
    def __init__(self, model):
        self.model = model
        self.quantization_cache = {}
        
    def forward(self, x, layer_name):
        # レイヤーの重要度を動的に評価
        importance_score = self.evaluate_layer_importance(x, layer_name)
        
        if importance_score > 0.8:
            # 重要なレイヤーは高精度で計算
            weight = self.dequantize_to_fp16(self.model.get_weight(layer_name))
        elif importance_score > 0.5:
            # 中程度の重要度は8bit精度
            weight = self.dequantize_to_int8(self.model.get_weight(layer_name))
        else:
            # 低重要度は4bit精度のまま
            weight = self.model.get_weight(layer_name)
            
        return self.compute_with_weight(x, weight)
    
    def evaluate_layer_importance(self, x, layer_name):
        # 入力の分散やレイヤーの位置などから重要度を計算
        # 実際の実装はより洗練されています
        input_variance = torch.var(x)
        layer_position = self.get_layer_position(layer_name)
        
        # ヒューリスティックな重要度計算
        importance = input_variance * (1 - layer_position / self.total_layers)
        return importance.item()

この動的な調整により、精度と効率のバランスを最適化できます。実際のベンチマークでは、動的4bit量子化版が標準の16bit版と同等の性能を示すケースも報告されています。

2.3 LoRA統合の最適化

Low-Rank Adaptation (LoRA)は、大規模モデルの効率的なファインチューニング手法として広く採用されていますが、UnslothAIはこのLoRAの実装も独自に最適化しています。

標準的なLoRA実装との違い

通常のLoRA実装では、アダプター行列の計算が別々に行われますが、UnslothAIでは主要な計算と統合されています：

# UnslothAI風のLoRA最適化実装
class OptimizedLoRALayer(nn.Module):
    def __init__(self, in_features, out_features, rank=16):
        super().__init__()
        self.rank = rank
        
        # LoRAの低ランク行列
        self.lora_A = nn.Parameter(torch.zeros(rank, in_features))
        self.lora_B = nn.Parameter(torch.zeros(out_features, rank))
        
        # 初期化戦略の最適化
        nn.init.kaiming_uniform_(self.lora_A, a=math.sqrt(5))
        nn.init.zeros_(self.lora_B)
        
        # スケーリング係数
        self.scaling = 1.0 / rank
        
    def forward(self, x, base_weight):
        # 基本の線形変換とLoRA計算を融合
        # メモリ効率的な実装
        if self.training:
            # トレーニング時は融合カーネルを使用
            return self.fused_forward(x, base_weight)
        else:
            # 推論時は最適化された別の経路
            return self.inference_forward(x, base_weight)
    
    @torch.jit.script
    def fused_forward(self, x, base_weight):
        # JITコンパイルによる最適化
        base_output = F.linear(x, base_weight)
        lora_output = F.linear(F.linear(x, self.lora_A), self.lora_B)
        return base_output + self.scaling * lora_output

2.4 メモリ管理の革新

UnslothAIのメモリ管理は、単なる量子化以上の工夫が施されています。特に、勾配計算時のメモリ使用パターンを詳細に分析し、不要なメモリ確保を徹底的に排除しています。

階層的メモリプールの実装

class HierarchicalMemoryPool:
    def __init__(self, total_memory):
        self.total_memory = total_memory
        self.pools = {
            'critical': MemoryPool(total_memory * 0.3),    # 重要な計算用
            'standard': MemoryPool(total_memory * 0.5),    # 通常の計算用
            'temporary': MemoryPool(total_memory * 0.2)    # 一時的な計算用
        }
        
    def allocate(self, size, priority='standard'):
        # 優先度に基づいてメモリを割り当て
        pool = self.pools[priority]
        
        if pool.available() >= size:
            return pool.allocate(size)
        else:
            # メモリが不足している場合は他のプールから借用
            return self.borrow_from_other_pools(size, priority)
    
    def optimize_allocation(self, computation_graph):
        # 計算グラフを分析して最適なメモリ配置を決定
        critical_ops = self.identify_critical_operations(computation_graph)
        
        for op in computation_graph:
            if op in critical_ops:
                op.memory_priority = 'critical'
            elif op.is_temporary():
                op.memory_priority = 'temporary'
            else:
                op.memory_priority = 'standard'

3. Gemma 3モデルの詳細解説

3.1 アーキテクチャの革新性

Gemma 3は、Transformer architectureをベースにしながらも、いくつかの重要な改良が加えられています。特に注目すべきは、効率性と性能のバランスを追求した設計思想です。

Multi-Query Attention (MQA)の採用
従来のMulti-Head Attentionでは、各ヘッドごとにQuery、Key、Valueを持っていましたが、Gemma 3ではKeyとValueを共有するMQAを採用しています：

class MultiQueryAttention(nn.Module):
    def __init__(self, embed_dim, num_heads):
        super().__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.head_dim = embed_dim // num_heads
        
        # Queryは各ヘッドごと
        self.q_proj = nn.Linear(embed_dim, embed_dim)
        
        # KeyとValueは共有（ヘッド数分作らない）
        self.k_proj = nn.Linear(embed_dim, self.head_dim)
        self.v_proj = nn.Linear(embed_dim, self.head_dim)
        
        self.out_proj = nn.Linear(embed_dim, embed_dim)
        
    def forward(self, x):
        batch_size, seq_len, _ = x.shape
        
        # Query計算
        q = self.q_proj(x).reshape(batch_size, seq_len, self.num_heads, self.head_dim)
        q = q.transpose(1, 2)  # [batch, heads, seq, dim]
        
        # Key, Value計算（共有）
        k = self.k_proj(x).unsqueeze(1)  # [batch, 1, seq, dim]
        v = self.v_proj(x).unsqueeze(1)  # [batch, 1, seq, dim]
        
        # Attentionスコア計算
        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.head_dim)
        attn_weights = F.softmax(scores, dim=-1)
        
        # 出力計算
        attn_output = torch.matmul(attn_weights, v)
        attn_output = attn_output.transpose(1, 2).reshape(batch_size, seq_len, self.embed_dim)
        
        return self.out_proj(attn_output)

この設計により、メモリ使用量を大幅に削減しながら、性能をほぼ維持できています。

3.2 長文処理能力の実現メカニズム

Gemma 3の128Kトークンという長大なコンテキストウィンドウは、いくつかの技術的工夫によって実現されています。

Sliding Window Attentionの実装
全てのトークン間でAttentionを計算すると計算量がO(n²)になってしまうため、Sliding Window方式を採用しています：

class SlidingWindowAttention(nn.Module):
    def __init__(self, embed_dim, num_heads, window_size=4096):
        super().__init__()
        self.window_size = window_size
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        
    def forward(self, x, positions):
        batch_size, seq_len, _ = x.shape
        
        # 各位置について、window_size内のトークンのみに注意を向ける
        attention_mask = self.create_sliding_window_mask(seq_len, self.window_size)
        
        # 通常のAttention計算
        attn_output = self.compute_attention(x, attention_mask)
        
        # グローバルトークンの追加（重要な情報を保持）
        global_tokens = self.extract_global_tokens(x, positions)
        
        return self.merge_local_and_global(attn_output, global_tokens)
    
    def create_sliding_window_mask(self, seq_len, window_size):
        # 各位置から見て、前後window_size/2の範囲のみ1にする
        mask = torch.zeros(seq_len, seq_len)
        for i in range(seq_len):
            start = max(0, i - window_size // 2)
            end = min(seq_len, i + window_size // 2 + 1)
            mask[i, start:end] = 1
        return mask

3.3 マルチモーダル機能の実装

Gemma 3のマルチモーダル対応は、異なるモダリティを統一的に扱える設計になっています。

統一エンコーダーアーキテクチャ

class MultiModalEncoder(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.config = config
        
        # テキストエンコーダー
        self.text_encoder = TextEncoder(config.text_config)
        
        # 画像エンコーダー
        self.image_encoder = VisionTransformer(config.vision_config)
        
        # モダリティ統合層
        self.modality_fusion = ModalityFusion(config.fusion_config)
        
    def forward(self, inputs):
        encoded_features = []
        
        # テキスト入力の処理
        if 'text' in inputs:
            text_features = self.text_encoder(inputs['text'])
            encoded_features.append(('text', text_features))
        
        # 画像入力の処理
        if 'image' in inputs:
            image_features = self.image_encoder(inputs['image'])
            # 画像特徴を言語モデルの次元に投影
            image_features = self.project_image_features(image_features)
            encoded_features.append(('image', image_features))
        
        # モダリティの統合
        fused_features = self.modality_fusion(encoded_features)
        
        return fused_features
    
    def project_image_features(self, image_features):
        # 画像特徴量をテキストと同じ次元空間に投影
        return self.image_projection(image_features)

4. 実践編：UnslothAIとGemma 3の環境構築

4.1 開発環境の準備

実際にUnslothAIとGemma 3を使い始めるための環境構築について、詳しく見ていきましょう。ここでは、様々な環境での構築方法を紹介します。

ローカル環境での構築（Ubuntu 22.04 LTS推奨）

まず、システムの基本的な要件を確認します：

# GPUの確認
nvidia-smi

# CUDAバージョンの確認
nvcc --version

# Pythonバージョンの確認（3.9以上推奨）
python --version

必要なシステムパッケージのインストール：

# 基本的な開発ツール
sudo apt update
sudo apt install -y build-essential cmake git wget

# Python開発環境
sudo apt install -y python3-dev python3-pip python3-venv

# CUDA関連（既にインストールされていない場合）
# CUDA 12.1の例
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo apt update
sudo apt install -y cuda-12-1

Python仮想環境の作成と有効化：

# プロジェクトディレクトリの作成
mkdir ~/gemma3_unsloth_project
cd ~/gemma3_unsloth_project

# 仮想環境の作成
python3 -m venv venv

# 仮想環境の有効化
source venv/bin/activate

# pipのアップグレード
pip install --upgrade pip setuptools wheel

4.2 依存パッケージのインストール

UnslothAIとその依存関係をインストールします。環境によって微妙に手順が異なるので、注意が必要です。

標準的なインストール手順

# PyTorchのインストール（CUDA 12.1対応版）
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# 基本的な依存関係
pip install numpy pandas matplotlib jupyter notebook ipywidgets

# Hugging Face関連
pip install transformers datasets accelerate tokenizers sentencepiece

# 量子化関連
pip install bitsandbytes

# UnslothAI本体
pip install unsloth

# 最新のGemma 3対応のためのtransformersアップデート
pip install --no-deps git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3

Google Colab環境での構築

Google Colabを使う場合は、以下のようなセットアップセルを実行します：

# こちらを使ってください
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

# test_environment.py
from unsloth import FastModel  # unslothを最初にインポート
import torch
import transformers
import sys

def check_environment():
    """環境の動作確認を行う関数"""
    
    print("=== 環境診断開始 ===\n")
    
    # Python バージョン
    print(f"Python version: {sys.version}")
    
    # PyTorch
    print(f"\nPyTorch version: {torch.__version__}")
    print(f"CUDA available: {torch.cuda.is_available()}")
    if torch.cuda.is_available():
        print(f"CUDA version: {torch.version.cuda}")
        print(f"GPU device: {torch.cuda.get_device_name(0)}")
        print(f"GPU memory: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.2f} GB")
    
    # Transformers
    print(f"\nTransformers version: {transformers.__version__}")
    
    # UnslothAIの基本的な機能テスト
    try:
        print("\n=== UnslothAI機能テスト ===")
        
        # 小さなモデルでテスト（メモリ節約のため）
        model, tokenizer = FastModel.from_pretrained(
            model_name="unsloth/gemma-3-4b-it",  # 1Bモデルでテスト
            max_seq_length=512,
            load_in_4bit=True,
        )
        
        print("✓ モデルの読み込み成功")
        
        # 簡単な推論テスト
        test_text = "こんにちは, Gemma! 調子はどうです?"
        inputs = tokenizer(test_text, return_tensors="pt").to("cuda")
        
        with torch.no_grad():
            outputs = model.generate(**inputs, max_length=50)
            response = tokenizer.decode(outputs[0], skip_special_tokens=True)
            
        print(f"✓ 推論テスト成功")
        print(f"入力: {test_text}")
        print(f"出力: {response[:100]}...")  # 最初の100文字のみ表示
        
    except Exception as e:
        print(f"✗ エラーが発生しました: {str(e)}")
        return False
    
    print("\n=== 環境診断完了 ===")
    return True

if __name__ == "__main__":
    success = check_environment()
    if success:
        print("\n✅ すべてのテストに合格しました！")
    else:
        print("\n❌ 一部のテストに失敗しました。エラーメッセージを確認してください。")

4.4 よくあるエラーと対処法

環境構築時によく遭遇するエラーとその解決方法をまとめます。

CUDA関連のエラー

# エラー例: "CUDA out of memory"
# 対処法: バッチサイズを小さくするか、より小さいモデルを使用

# メモリ使用量を監視するユーティリティ
def print_gpu_memory():
    if torch.cuda.is_available():
        print(f"GPU Memory: {torch.cuda.memory_allocated()/1024**3:.2f}GB / "
              f"{torch.cuda.get_device_properties(0).total_memory/1024**3:.2f}GB")

# メモリをクリアする
def clear_gpu_memory():
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
        import gc
        gc.collect()

パッケージの競合

# transformersとunslothのバージョン競合が発生した場合
pip uninstall -y transformers unsloth
pip install --no-deps unsloth
pip install --no-deps git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3

5. 実装詳解：Gemma 3のファインチューニング

5.1 データセットの準備と前処理

実際のファインチューニングでは、タスクに応じた適切なデータセットの準備が重要です。ここでは、実践的な例として、カスタマーサポート向けの対話データを使用した例を見ていきます。

カスタムデータセットの作成

import pandas as pd
import json
from datasets import Dataset, DatasetDict
from typing import List, Dict, Any

class CustomDatasetPreparer:
    """カスタムデータセットの準備クラス"""
    
    def __init__(self, data_path: str):
        self.data_path = data_path
        self.conversations = []
        
    def load_customer_support_data(self) -> List[Dict[str, Any]]:
        """カスタマーサポートデータの読み込み"""
        
        # CSVファイルからデータを読み込む例
        df = pd.read_csv(self.data_path)
        
        conversations = []
        for _, row in df.iterrows():
            # データを対話形式に変換
            conversation = {
                "conversations": [
                    {
                        "role": "system",
                        "content": "あなたは親切で知識豊富なカスタマーサポートアシスタントです。"
                    },
                    {
                        "role": "user",
                        "content": row['customer_question']
                    },
                    {
                        "role": "assistant", 
                        "content": row['support_answer']
                    }
                ]
            }
            
            # データの品質チェック
            if self.validate_conversation(conversation):
                conversations.append(conversation)
                
        return conversations
    
    def validate_conversation(self, conversation: Dict[str, Any]) -> bool:
        """対話データの妥当性チェック"""
        
        # 必須フィールドの確認
        if "conversations" not in conversation:
            return False
            
        # 各ターンの検証
        for turn in conversation["conversations"]:
            if "role" not in turn or "content" not in turn:
                return False
            
            # 内容の長さチェック
            if len(turn["content"].strip()) < 5:
                return False
                
            # 不適切な内容のフィルタリング
            if self.contains_inappropriate_content(turn["content"]):
                return False
                
        return True
    
    def contains_inappropriate_content(self, text: str) -> bool:
        """不適切な内容のチェック（簡易版）"""
        # 実際の実装では、より洗練されたフィルタリングを行う
        inappropriate_keywords = ["spam", "inappropriate", "xxx"]
        return any(keyword in text.lower() for keyword in inappropriate_keywords)
    
    def augment_data(self, conversations: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
        """データ拡張"""
        augmented_conversations = []
        
        for conv in conversations:
            # オリジナルデータを追加
            augmented_conversations.append(conv)
            
            # バリエーションを生成
            # 敬語レベルの変更
            formal_conv = self.convert_to_formal(conv)
            if formal_conv:
                augmented_conversations.append(formal_conv)
            
            # 言い換えバージョン
            paraphrased_conv = self.paraphrase_conversation(conv)
            if paraphrased_conv:
                augmented_conversations.append(paraphrased_conv)
                
        return augmented_conversations
    
    def convert_to_formal(self, conversation: Dict[str, Any]) -> Dict[str, Any]:
        """カジュアルな表現をフォーマルに変換"""
        # 実装例（簡易版）
        formal_conv = json.loads(json.dumps(conversation))  # Deep copy
        
        for turn in formal_conv["conversations"]:
            if turn["role"] == "assistant":
                # 簡易的な敬語変換
                turn["content"] = turn["content"].replace("です。", "でございます。")
                turn["content"] = turn["content"].replace("ます。", "ます。")
                
        return formal_conv
    
    def paraphrase_conversation(self, conversation: Dict[str, Any]) -> Dict[str, Any]:
        """対話の言い換えバージョンを生成"""
        # 実際の実装では、別のモデルを使った言い換えを行う
        # ここでは簡易的な実装
        return None  # 省略
    
    def create_dataset(self) -> DatasetDict:
        """最終的なデータセットの作成"""
        
        # データの読み込み
        conversations = self.load_customer_support_data()
        
        # データ拡張
        augmented_conversations = self.augment_data(conversations)
        
        # 訓練/検証データの分割
        split_idx = int(len(augmented_conversations) * 0.9)
        train_data = augmented_conversations[:split_idx]
        val_data = augmented_conversations[split_idx:]
        
        # Hugging Face Dataset形式に変換
        train_dataset = Dataset.from_list(train_data)
        val_dataset = Dataset.from_list(val_data)
        
        return DatasetDict({
            'train': train_dataset,
            'validation': val_dataset
        })

# 使用例
preparer = CustomDatasetPreparer("customer_support_data.csv")
dataset = preparer.create_dataset()
print(f"訓練データ数: {len(dataset['train'])}")
print(f"検証データ数: {len(dataset['validation'])}")

5.2 ファインチューニング設定

UnslothAIを使用したGemma 3のファインチューニングでは、様々な最適化オプションを活用できます。

詳細な設定を含むファインチューニングスクリプト

from unsloth import FastModel
from unsloth.chat_templates import get_chat_template, train_on_responses_only
from transformers import TrainingArguments
from trl import SFTTrainer, SFTConfig
import torch
from datetime import datetime
import os

class GemmaFineTuner:
    """Gemma 3ファインチューニング用クラス"""
    
    def __init__(self, model_size="4b", experiment_name=None):
        self.model_size = model_size
        self.experiment_name = experiment_name or f"gemma3_{model_size}_{datetime.now().strftime('%Y%m%d_%H%M%S')}"
        self.output_dir = f"./outputs/{self.experiment_name}"
        
        # 出力ディレクトリの作成
        os.makedirs(self.output_dir, exist_ok=True)
        
    def load_model_and_tokenizer(self):
        """モデルとトークナイザーの読み込み"""
        
        print(f"Loading Gemma 3 {self.model_size} model...")
        
        # モデルサイズに応じた設定
        model_configs = {
            "1b": {
                "model_name": "unsloth/gemma-3-1b-it",
                "max_seq_length": 8192,
                "r": 8,
                "lora_alpha": 16
            },
            "4b": {
                "model_name": "unsloth/gemma-3-4b-it", 
                "max_seq_length": 8192,
                "r": 16,
                "lora_alpha": 32
            },
            "12b": {
                "model_name": "unsloth/gemma-3-12b-it",
                "max_seq_length": 4096,  # メモリ制約のため短縮
                "r": 32,
                "lora_alpha": 64
            }
        }
        
        config = model_configs[self.model_size]
        
        # モデルの読み込み
        self.model, self.tokenizer = FastModel.from_pretrained(
            model_name=config["model_name"],
            max_seq_length=config["max_seq_length"],
            load_in_4bit=True,
            dtype=torch.float16,
        )
        
        # LoRAの設定
        self.model = FastModel.get_peft_model(
            self.model,
            finetune_vision_layers=False,
            finetune_language_layers=True,
            finetune_attention_modules=True,
            finetune_mlp_modules=True,
            r=config["r"],
            lora_alpha=config["lora_alpha"],
            lora_dropout=0.1,  # 過学習防止
            bias="none",
            use_gradient_checkpointing=True,  # メモリ効率化
            random_state=42,
            max_seq_length=config["max_seq_length"],
        )
        
        # チャットテンプレートの設定
        self.tokenizer = get_chat_template(
            self.tokenizer,
            chat_template="gemma-3",
        )
        
        print(f"Model loaded successfully!")
        self.print_model_info()
        
    def print_model_info(self):
        """モデル情報の表示"""
        
        total_params = sum(p.numel() for p in self.model.parameters())
        trainable_params = sum(p.numel() for p in self.model.parameters() if p.requires_grad)
        
        print(f"\n=== Model Information ===")
        print(f"Total parameters: {total_params:,}")
        print(f"Trainable parameters: {trainable_params:,}")
        print(f"Trainable ratio: {trainable_params/total_params*100:.2f}%")
        print(f"========================\n")
        
    def prepare_training_arguments(self, num_epochs=3, batch_size=2):
        """訓練引数の準備"""
        
        # 動的な学習率とバッチサイズの調整
        base_learning_rate = 2e-4
        effective_batch_size = batch_size * 4  # gradient_accumulation_stepsを考慮
        
        # モデルサイズに応じた調整
        if self.model_size == "12b":
            base_learning_rate *= 0.5  # 大きいモデルは学習率を下げる
            
        training_args = SFTConfig(
            output_dir=self.output_dir,
            
            # 基本的な訓練パラメータ
            num_train_epochs=num_epochs,
            per_device_train_batch_size=batch_size,
            per_device_eval_batch_size=batch_size,
            gradient_accumulation_steps=4,
            gradient_checkpointing=True,
            
            # 学習率スケジューリング
            learning_rate=base_learning_rate,
            lr_scheduler_type="cosine",
            warmup_ratio=0.1,
            
            # 最適化設定
            optim="adamw_8bit",  # 8bit AdamWで省メモリ化
            weight_decay=0.01,
            max_grad_norm=0.3,
            
            # ロギングと保存
            logging_steps=10,
            save_steps=100,
            eval_steps=100,
            save_total_limit=3,
            load_best_model_at_end=True,
            
            # その他の設定
            report_to="tensorboard",
            logging_dir=f"{self.output_dir}/logs",
            
            # Mixed Precision Training
            fp16=torch.cuda.is_available(),
            bf16=False,  # A100以外では無効化
            
            # データセット関連
            dataset_text_field="text",
            max_seq_length=self.model.config.max_position_embeddings,
            dataset_num_proc=4,  # データ処理の並列化
            
            # Early Stopping
            metric_for_best_model="eval_loss",
            greater_is_better=False,
        )
        
        return training_args
    
    def create_trainer(self, train_dataset, eval_dataset, training_args):
        """トレーナーの作成"""
        
        trainer = SFTTrainer(
            model=self.model,
            tokenizer=self.tokenizer,
            train_dataset=train_dataset,
            eval_dataset=eval_dataset,
            args=training_args,
            
            # コールバック関数
            callbacks=[
                # カスタムコールバックを追加可能
            ],
        )
        
        # レスポンスのみの学習設定
        trainer = train_on_responses_only(
            trainer,
            instruction_part="<start_of_turn>user\n",
            response_part="<start_of_turn>model\n",
        )
        
        return trainer
    
    def train(self, train_dataset, eval_dataset, num_epochs=3, batch_size=2):
        """ファインチューニングの実行"""
        
        # モデルとトークナイザーの読み込み
        self.load_model_and_tokenizer()
        
        # データセットの前処理
        print("Preprocessing datasets...")
        train_dataset = self.preprocess_dataset(train_dataset)
        eval_dataset = self.preprocess_dataset(eval_dataset)
        
        # 訓練引数の準備
        training_args = self.prepare_training_arguments(num_epochs, batch_size)
        
        # トレーナーの作成
        trainer = self.create_trainer(train_dataset, eval_dataset, training_args)
        
        # GPUメモリの状態を表示
        if torch.cuda.is_available():
            print(f"\nGPU Memory before training: {torch.cuda.memory_allocated()/1024**3:.2f}GB")
        
        # 訓練の実行
        print("\nStarting fine-tuning...")
        train_result = trainer.train()
        
        # 結果の保存
        self.save_results(trainer, train_result)
        
        return trainer, train_result
    
    def preprocess_dataset(self, dataset):
        """データセットの前処理"""
        
        def formatting_func(examples):
            texts = []
            for conversations in examples["conversations"]:
                text = self.tokenizer.apply_chat_template(
                    conversations,
                    tokenize=False,
                    add_generation_prompt=False
                )
                texts.append(text)
            return {"text": texts}
        
        # バッチ処理で高速化
        dataset = dataset.map(
            formatting_func,
            batched=True,
            num_proc=4,
            remove_columns=dataset.column_names
        )
        
        return dataset
    
    def save_results(self, trainer, train_result):
        """訓練結果の保存"""
        
        # モデルの保存
        print("\nSaving model...")
        trainer.save_model(f"{self.output_dir}/final_model")
        
        # LoRAアダプターのみの保存
        self.model.save_pretrained(f"{self.output_dir}/lora_adapters")
        self.tokenizer.save_pretrained(f"{self.output_dir}/lora_adapters")
        
        # マージされたモデルの保存（オプション）
        if self.model_size in ["1b", "4b"]:  # メモリに余裕がある場合のみ
            print("Saving merged model...")
            self.model.save_pretrained_merged(
                f"{self.output_dir}/merged_model",
                self.tokenizer,
                save_method="merged_16bit"
            )
        
        # 訓練統計の保存
        import json
        with open(f"{self.output_dir}/training_stats.json", "w") as f:
            json.dump({
                "training_loss": train_result.training_loss,
                "metrics": train_result.metrics,
                "global_step": train_result.global_step,
                "experiment_name": self.experiment_name
            }, f, indent=2)
        
        print(f"\nAll results saved to {self.output_dir}")

# 使用例
if __name__ == "__main__":
    # データセットの準備（前述のCustomDatasetPreparerを使用）
    preparer = CustomDatasetPreparer("data/customer_support.csv")
    dataset = preparer.create_dataset()
    
    # ファインチューニングの実行
    finetuner = GemmaFineTuner(model_size="4b", experiment_name="customer_support_v1")
    trainer, results = finetuner.train(
        train_dataset=dataset["train"],
        eval_dataset=dataset["validation"],
        num_epochs=3,
        batch_size=2
    )

5.3 推論とデプロイメント

ファインチューニングが完了したモデルを実際に使用するための推論パイプラインを構築します。

効率的な推論パイプライン

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
from typing import Optional, List, Dict, Any
import time

class GemmaInferenceEngine:
    """Gemma 3推論エンジン"""
    
    def __init__(self, model_path: str, device: str = "cuda"):
        self.model_path = model_path
        self.device = device
        self.model = None
        self.tokenizer = None
        
    def load_model(self, load_in_4bit: bool = True):
        """モデルの読み込み"""
        
        print(f"Loading model from {self.model_path}...")
        
        # 量子化設定
        if load_in_4bit:
            from transformers import BitsAndBytesConfig
            quantization_config = BitsAndBytesConfig(
                load_in_4bit=True,
                bnb_4bit_compute_dtype=torch.float16,
                bnb_4bit_use_double_quant=True,
                bnb_4bit_quant_type="nf4"
            )
        else:
            quantization_config = None
        
        # モデルの読み込み
        self.model = AutoModelForCausalLM.from_pretrained(
            self.model_path,
            quantization_config=quantization_config,
            device_map="auto",
            torch_dtype=torch.float16,
            low_cpu_mem_usage=True
        )
        
        # トークナイザーの読み込み
        self.tokenizer = AutoTokenizer.from_pretrained(self.model_path)
        
        # パディングトークンの設定
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token
        
        print("Model loaded successfully!")
        
    def generate_response(
        self,
        prompt: str,
        max_new_tokens: int = 512,
        temperature: float = 0.7,
        top_p: float = 0.95,
        top_k: int = 50,
        do_sample: bool = True,
        repetition_penalty: float = 1.1,
        stream: bool = False
    ) -> str:
        """レスポンスの生成"""
        
        # 入力の準備
        messages = [
            {"role": "user", "content": prompt}
        ]
        
        # チャットテンプレートの適用
        formatted_prompt = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )
        
        # トークナイズ
        inputs = self.tokenizer(
            formatted_prompt,
            return_tensors="pt",
            truncation=True,
            max_length=self.model.config.max_position_embeddings
        ).to(self.device)
        
        # ストリーミング設定
        if stream:
            streamer = TextStreamer(
                self.tokenizer,
                skip_prompt=True,
                skip_special_tokens=True
            )
        else:
            streamer = None
        
        # 生成パラメータ
        generation_config = {
            "max_new_tokens": max_new_tokens,
            "temperature": temperature,
            "top_p": top_p,
            "top_k": top_k,
            "do_sample": do_sample,
            "repetition_penalty": repetition_penalty,
            "pad_token_id": self.tokenizer.pad_token_id,
            "eos_token_id": self.tokenizer.eos_token_id,
            "streamer": streamer
        }
        
        # 推論の実行
        start_time = time.time()
        
        with torch.no_grad():
            outputs = self.model.generate(
                **inputs,
                **generation_config
            )
        
        generation_time = time.time() - start_time
        
        # デコード
        response = self.tokenizer.decode(
            outputs[0][inputs["input_ids"].shape[1]:],
            skip_special_tokens=True
        )
        
        # 統計情報
        num_tokens = outputs.shape[1] - inputs["input_ids"].shape[1]
        tokens_per_second = num_tokens / generation_time
        
        if not stream:
            print(f"\nGeneration stats:")
            print(f"- Tokens generated: {num_tokens}")
            print(f"- Time: {generation_time:.2f}s")
            print(f"- Speed: {tokens_per_second:.2f} tokens/s")
        
        return response
    
    def batch_generate(
        self,
        prompts: List[str],
        batch_size: int = 4,
        **generation_kwargs
    ) -> List[str]:
        """バッチ推論"""
        
        responses = []
        
        for i in range(0, len(prompts), batch_size):
            batch_prompts = prompts[i:i + batch_size]
            
            # バッチ用のメッセージ準備
            batch_messages = [
                [{"role": "user", "content": prompt}]
                for prompt in batch_prompts
            ]
            
            # チャットテンプレートの適用
            formatted_prompts = [
                self.tokenizer.apply_chat_template(
                    messages,
                    tokenize=False,
                    add_generation_prompt=True
                )
                for messages in batch_messages
            ]
            
            # パディングを考慮したトークナイズ
            inputs = self.tokenizer(
                formatted_prompts,
                return_tensors="pt",
                padding=True,
                truncation=True,
                max_length=self.model.config.max_position_embeddings
            ).to(self.device)
            
            # バッチ生成
            with torch.no_grad():
                outputs = self.model.generate(
                    **inputs,
                    **generation_kwargs
                )
            
            # デコード
            for j, output in enumerate(outputs):
                response = self.tokenizer.decode(
                    output[inputs["input_ids"][j].shape[0]:],
                    skip_special_tokens=True
                )
                responses.append(response)
        
        return responses
    
    def create_interactive_session(self):
        """対話的セッション"""
        
        print("\n=== Gemma 3 Interactive Session ===")
        print("Type 'exit' to quit, 'clear' to reset conversation")
        print("===================================\n")
        
        conversation_history = []
        
        while True:
            user_input = input("\nYou: ").strip()
            
            if user_input.lower() == 'exit':
                break
            elif user_input.lower() == 'clear':
                conversation_history = []
                print("Conversation cleared.")
                continue
            
            # 会話履歴に追加
            conversation_history.append({"role": "user", "content": user_input})
            
            # フルコンテキストでプロンプト作成
            full_prompt = self.tokenizer.apply_chat_template(
                conversation_history,
                tokenize=False,
                add_generation_prompt=True
            )
            
            # レスポンス生成
            print("\nGemma: ", end="", flush=True)
            response = self.generate_response(
                user_input,  # ここは簡略化のため最新の入力のみ
                stream=True,
                temperature=0.7,
                max_new_tokens=256
            )
            
            # 会話履歴に追加
            conversation_history.append({"role": "assistant", "content": response})
            
            # メモリ管理（履歴が長くなりすぎた場合）
            if len(conversation_history) > 20:
                conversation_history = conversation_history[-10:]

# 使用例
if __name__ == "__main__":
    # 推論エンジンの初期化
    engine = GemmaInferenceEngine("./outputs/customer_support_v1/merged_model")
    engine.load_model(load_in_4bit=True)
    
    # 単一の推論
    response = engine.generate_response(
        "製品の返品方法を教えてください。",
        temperature=0.7,
        max_new_tokens=256
    )
    print(f"Response: {response}")
    
    # バッチ推論
    test_prompts = [
        "注文のキャンセル方法は？",
        "配送状況を確認したい",
        "支払い方法を変更できますか？"
    ]
    
    batch_responses = engine.batch_generate(
        test_prompts,
        batch_size=2,
        temperature=0.7,
        max_new_tokens=200
    )
    
    for prompt, response in zip(test_prompts, batch_responses):
        print(f"\nQ: {prompt}")
        print(f"A: {response}")
    
    # 対話的セッション
    # engine.create_interactive_session()

6. パフォーマンス検証と最適化

6.1 ベンチマーク実装

UnslothAIの効果を定量的に評価するため、包括的なベンチマークを実装します。

import torch
import time
import psutil
import GPUtil
from typing import Dict, List, Any
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from dataclasses import dataclass
import json

@dataclass
class BenchmarkResult:
    """ベンチマーク結果を格納するデータクラス"""
    model_name: str
    optimization: str
    batch_size: int
    sequence_length: int
    throughput: float  # tokens/second
    latency: float  # seconds
    memory_usage: float  # GB
    accuracy_score: float

class UnslothBenchmark:
    """UnslothAIベンチマーククラス"""
    
    def __init__(self):
        self.results = []
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        
    def measure_gpu_memory(self) -> float:
        """GPU メモリ使用量を測定"""
        if torch.cuda.is_available():
            return torch.cuda.memory_allocated() / 1024**3  # GB
        return 0.0
    
    def measure_system_resources(self) -> Dict[str, float]:
        """システムリソースの測定"""
        resources = {
            "cpu_percent": psutil.cpu_percent(interval=1),
            "ram_usage_gb": psutil.virtual_memory().used / 1024**3,
            "ram_percent": psutil.virtual_memory().percent
        }
        
        if torch.cuda.is_available():
            gpus = GPUtil.getGPUs()
            if gpus:
                gpu = gpus[0]
                resources.update({
                    "gpu_memory_used_gb": gpu.memoryUsed / 1024,
                    "gpu_memory_percent": gpu.memoryUtil * 100,
                    "gpu_utilization": gpu.load * 100,
                    "gpu_temperature": gpu.temperature
                })
        
        return resources
    
    def benchmark_training(
        self,
        model,
        train_dataloader,
        num_steps: int = 100,
        optimization_type: str = "unsloth"
    ) -> BenchmarkResult:
        """訓練性能のベンチマーク"""
        
        print(f"\nBenchmarking {optimization_type} training...")
        
        # 初期リソース測定
        torch.cuda.empty_cache()
        initial_memory = self.measure_gpu_memory()
        
        # ウォームアップ
        for i, batch in enumerate(train_dataloader):
            if i >= 5:
                break
            outputs = model(**batch)
            loss = outputs.loss
            loss.backward()
            
        torch.cuda.synchronize()
        
        # 実際のベンチマーク
        start_time = time.time()
        total_tokens = 0
        
        for step, batch in enumerate(train_dataloader):
            if step >= num_steps:
                break
                
            step_start = time.time()
            
            # Forward pass
            outputs = model(**batch)
            loss = outputs.loss
            
            # Backward pass
            loss.backward()
            
            # トークン数のカウント
            total_tokens += batch["input_ids"].numel()
            
            if step % 10 == 0:
                step_time = time.time() - step_start
                current_memory = self.measure_gpu_memory()
                print(f"Step {step}: {step_time:.3f}s, Memory: {current_memory:.2f}GB")
        
        torch.cuda.synchronize()
        total_time = time.time() - start_time
        
        # メトリクスの計算
        throughput = total_tokens / total_time
        avg_latency = total_time / num_steps
        peak_memory = self.measure_gpu_memory()
        memory_usage = peak_memory - initial_memory
        
        result = BenchmarkResult(
            model_name=model.config.model_type,
            optimization=optimization_type,
            batch_size=train_dataloader.batch_size,
            sequence_length=batch["input_ids"].shape[1],
            throughput=throughput,
            latency=avg_latency,
            memory_usage=memory_usage,
            accuracy_score=0.0  # 別途評価
        )
        
        self.results.append(result)
        return result
    
    def benchmark_inference(
        self,
        model,
        tokenizer,
        test_prompts: List[str],
        optimization_type: str = "unsloth"
    ) -> BenchmarkResult:
        """推論性能のベンチマーク"""
        
        print(f"\nBenchmarking {optimization_type} inference...")
        
        # ウォームアップ
        for _ in range(3):
            inputs = tokenizer(test_prompts[0], return_tensors="pt").to(self.device)
            with torch.no_grad():
                _ = model.generate(**inputs, max_new_tokens=50)
        
        torch.cuda.synchronize()
        
        # 実際のベンチマーク
        total_time = 0
        total_tokens_generated = 0
        initial_memory = self.measure_gpu_memory()
        
        for prompt in test_prompts:
            inputs = tokenizer(prompt, return_tensors="pt").to(self.device)
            
            start_time = time.time()
            with torch.no_grad():
                outputs = model.generate(
                    **inputs,
                    max_new_tokens=128,
                    do_sample=True,
                    temperature=0.7
                )
            torch.cuda.synchronize()
            
            generation_time = time.time() - start_time
            total_time += generation_time
            
            # 生成されたトークン数
            num_generated = outputs.shape[1] - inputs["input_ids"].shape[1]
            total_tokens_generated += num_generated
        
        # メトリクスの計算
        throughput = total_tokens_generated / total_time
        avg_latency = total_time / len(test_prompts)
        peak_memory = self.measure_gpu_memory()
        memory_usage = peak_memory - initial_memory
        
        result = BenchmarkResult(
            model_name=model.config.model_type,
            optimization=optimization_type,
            batch_size=1,
            sequence_length=128,
            throughput=throughput,
            latency=avg_latency,
            memory_usage=memory_usage,
            accuracy_score=0.0
        )
        
        self.results.append(result)
        return result
    
    def compare_optimizations(self):
        """異なる最適化手法の比較"""
        
        # 結果をDataFrameに変換
        df = pd.DataFrame([vars(r) for r in self.results])
        
        # 可視化
        fig, axes = plt.subplots(2, 2, figsize=(15, 12))
        
        # スループット比較
        sns.barplot(data=df, x="optimization", y="throughput", ax=axes[0, 0])
        axes[0, 0].set_title("Throughput Comparison (tokens/second)")
        axes[0, 0].set_ylabel("Tokens per Second")
        
        # レイテンシ比較
        sns.barplot(data=df, x="optimization", y="latency", ax=axes[0, 1])
        axes[0, 1].set_title("Latency Comparison")
        axes[0, 1].set_ylabel("Latency (seconds)")
        
        # メモリ使用量比較
        sns.barplot(data=df, x="optimization", y="memory_usage", ax=axes[1, 0])
        axes[1, 0].set_title("Memory Usage Comparison")
        axes[1, 0].set_ylabel("Memory Usage (GB)")
        
        # 総合スコア（正規化して計算）
        df['normalized_throughput'] = df['throughput'] / df['throughput'].max()
        df['normalized_latency'] = 1 - (df['latency'] / df['latency'].max())
        df['normalized_memory'] = 1 - (df['memory_usage'] / df['memory_usage'].max())
        df['overall_score'] = (df['normalized_throughput'] + 
                              df['normalized_latency'] + 
                              df['normalized_memory']) / 3
        
        sns.barplot(data=df, x="optimization", y="overall_score", ax=axes[1, 1])
        axes[1, 1].set_title("Overall Performance Score")
        axes[1, 1].set_ylabel("Score (0-1)")
        
        plt.tight_layout()
        plt.savefig("benchmark_results.png", dpi=300)
        plt.show()
        
        # 詳細な統計情報を出力
        print("\n=== Benchmark Summary ===")
        for opt in df['optimization'].unique():
            opt_data = df[df['optimization'] == opt]
            print(f"\n{opt}:")
            print(f"  Average Throughput: {opt_data['throughput'].mean():.2f} tokens/s")
            print(f"  Average Latency: {opt_data['latency'].mean():.3f}s")
            print(f"  Average Memory: {opt_data['memory_usage'].mean():.2f}GB")
            print(f"  Overall Score: {opt_data['overall_score'].mean():.3f}")
    
    def save_results(self, filename: str = "benchmark_results.json"):
        """結果の保存"""
        
        results_dict = {
            "timestamp": time.strftime("%Y-%m-%d %H:%M:%S"),
            "system_info": {
                "gpu": torch.cuda.get_device_name(0) if torch.cuda.is_available() else "CPU",
                "cuda_version": torch.version.cuda,
                "pytorch_version": torch.__version__,
            },
            "results": [vars(r) for r in self.results]
        }
        
        with open(filename, "w") as f:
            json.dump(results_dict, f, indent=2)
        
        print(f"\nResults saved to {filename}")

# 実際のベンチマーク実行例
def run_comprehensive_benchmark():
    """包括的なベンチマークの実行"""
    
    benchmark = UnslothBenchmark()
    
    # テストプロンプト
    test_prompts = [
        "機械学習の基本的な概念を説明してください。",
        "Pythonでクイックソートを実装する方法を教えてください。",
        "地球温暖化の原因と対策について述べてください。",
        "健康的な生活習慣について助言をください。",
        "最新のAI技術のトレンドを教えてください。"
    ]
    
    # 異なる最適化設定でのベンチマーク
    optimizations = [
        ("standard", False, False),  # 標準実装
        ("flash_attention", True, False),  # Flash Attention のみ
        ("unsloth", True, True),  # UnslothAI フル最適化
    ]
    
    for opt_name, use_flash, use_unsloth in optimizations:
        print(f"\n{'='*50}")
        print(f"Testing {opt_name} optimization")
        print(f"{'='*50}")
        
        # モデルの読み込み（各最適化設定で）
        if use_unsloth:
            from unsloth import FastModel
            model, tokenizer = FastModel.from_pretrained(
                "unsloth/gemma-3-4b-it",
                max_seq_length=2048,
                load_in_4bit=True,
            )
        else:
            # 標準的な読み込み
            from transformers import AutoModelForCausalLM, AutoTokenizer
            model = AutoModelForCausalLM.from_pretrained(
                "google/gemma-3-4b-it",
                torch_dtype=torch.float16,
                device_map="auto",
                use_flash_attention_2=use_flash
            )
            tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-4b-it")
        
        # 推論ベンチマーク
        inference_result = benchmark.benchmark_inference(
            model, 
            tokenizer, 
            test_prompts,
            optimization_type=opt_name
        )
        
        print(f"\n{opt_name} Results:")
        print(f"  Throughput: {inference_result.throughput:.2f} tokens/s")
        print(f"  Latency: {inference_result.latency:.3f}s")
        print(f"  Memory: {inference_result.memory_usage:.2f}GB")
        
        # メモリクリーンアップ
        del model
        if 'tokenizer' in locals():
            del tokenizer
        torch.cuda.empty_cache()
    
    # 結果の比較と保存
    benchmark.compare_optimizations()
    benchmark.save_results()

if __name__ == "__main__":
    run_comprehensive_benchmark()

もしこの記事が役に立ったと思ったら：

ぜひ「いいね！」をお願いします！
最新の投稿を見逃さないよう、Xのフォローもお願いします！
- https://x.com/immeivise

245

276

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up