Apple GPU の新機能ってなんだ？〜Ray Tracing / Mesh Shading / Dynamic Caching〜

AppleSilicon

Posted at 2026-01-06

はじめに：「MacでAAAゲームは無理」という呪い

長年、Macはゲーミングにおいて「二流」扱いされてきた。

「DirectX対応してないし」
「NVIDIAのGPU使えないし」
「ゲーム会社がMac版出さないし」

まあ、事実だった。Intel Mac時代は、Boot CampでWindowsを入れるのが現実的な選択肢だった。

でも、Apple Silicon時代になって状況が変わりつつある。

M3チップ（2023年）で、AppleはGPUに3つの重要な新機能を追加した。Ray Tracing（レイトレーシング）、Mesh Shading（メッシュシェーディング）、Dynamic Caching（ダイナミックキャッシング）。

これ、ゲーミングGPUの「三種の神器」だ。

M4ではさらに強化され、レイトレーシング性能はM3の2倍になった。

今回は、これらの機能が何を意味するのか、開発者として何ができるようになるのかを解説する。

Apple GPUのアーキテクチャ：TBDRとは

新機能の話に入る前に、Apple GPUの基本設計を理解しておこう。

Apple GPUは「TBDR（Tile-Based Deferred Rendering）」というアーキテクチャを採用している。

従来のGPU（IMR：Immediate Mode Rendering）

NVIDIAやAMDのdiscrete GPUが採用している方式。

画面全体を一度に処理する。各ピクセルに対して、頂点シェーダー → フラグメントシェーダーと順番に処理していく。シンプルだが、メモリ帯域を大量に消費する。

Apple GPUのTBDR

画面を小さな「タイル」（通常32x32ピクセル）に分割。タイルごとに処理を完結させる。

メリット

オンチップメモリ（タイルメモリ）でレンダリングが完結
メインメモリへのアクセスが減り、省電力
見えないピクセル（他のオブジェクトに隠れている）を事前に除去できる

デメリット

ジオメトリ処理のオーバーヘッドがある
特殊な最適化が必要なケースがある

iPhoneやiPadで培ったこのアーキテクチャが、Apple Silicon Macにも受け継がれている。省電力と高性能の両立は、TBDRのおかげだ。

Ray Tracing：光を追いかける

何ができるようになったか

レイトレーシングは、光の物理的な振る舞いをシミュレートする技術だ。

光源から発せられた光線が、オブジェクトに反射・屈折・吸収されながら最終的にカメラに届くまでの経路を計算する。これにより、以下の表現が「本物っぽく」なる。

リアルな反射
金属や水面の映り込みが、周囲の環境を正確に反映。ラスタライズでは「環境マップ」という疑似表現を使っていたが、レイトレーシングなら本物の反射。

正確な影
ソフトシャドウ（柔らかい影）、アンビエントオクルージョン（接触部分の陰影）が自然に。

グローバルイルミネーション
間接光（壁に反射した光が別の物体を照らす）の表現。部屋全体の雰囲気がリアルに。

M3/M4での実装

Apple Silicon GPUのレイトレーシングは、ソフトウェアエミュレーションではなくハードウェアアクセラレーションだ。

専用のレイ・インターセクション（光線と物体の交差判定）ユニットが搭載されている。

Appleの公式発表によると、M4のレイトレーシング性能はM3の2倍。これは、単純にコア数が増えただけでなく、レイトレーシングエンジン自体が改良されたということ。

Metalでのレイトレーシング

Metal Performance Shaders（MPS）にはレイトレーシング用のAPIが用意されている。

import Metal
import MetalPerformanceShaders

// レイトレーシング用のアクセラレーション構造を構築
let accelerationStructureDescriptor = MTLPrimitiveAccelerationStructureDescriptor()

// ジオメトリの設定
let geometryDescriptor = MTLAccelerationStructureTriangleGeometryDescriptor()
geometryDescriptor.vertexBuffer = vertexBuffer
geometryDescriptor.vertexStride = MemoryLayout<Float>.size * 3
geometryDescriptor.triangleCount = triangleCount

accelerationStructureDescriptor.geometryDescriptors = [geometryDescriptor]

// アクセラレーション構造の構築
let sizes = device.accelerationStructureSizes(descriptor: accelerationStructureDescriptor)
let accelerationStructure = device.makeAccelerationStructure(size: sizes.accelerationStructureSize)!

let commandBuffer = commandQueue.makeCommandBuffer()!
let encoder = commandBuffer.makeAccelerationStructureCommandEncoder()!
encoder.build(
    accelerationStructure: accelerationStructure,
    descriptor: accelerationStructureDescriptor,
    scratchBuffer: scratchBuffer,
    scratchBufferOffset: 0
)
encoder.endEncoding()
commandBuffer.commit()

このコードで、BVH（Bounding Volume Hierarchy）というデータ構造が構築される。光線とオブジェクトの交差判定を高速に行うための「索引」のようなものだ。

Mesh Shading：ジオメトリ処理の革命

従来の頂点処理パイプライン

これまでのGPUでは、3Dモデルの処理は以下の流れだった。

頂点データ → 頂点シェーダー → テッセレーション → ジオメトリシェーダー → ラスタライズ

この方式には問題があった。

固定的なパイプライン：CPUが頂点データをすべて準備する必要がある
カリング（除去）の非効率：見えないジオメトリもGPUに送られる
LOD（Level of Detail）の硬直性：距離に応じた詳細度変更がCPU依存

Mesh Shadingとは

Mesh Shadingは、この従来パイプラインを刷新する技術だ。

オブジェクトシェーダー → メッシュシェーダー → ラスタライズ

オブジェクトシェーダー（Object Shader）
シーン全体を見て、どのメッシュを処理するか決定。見えないオブジェクトを早期にカリング。

メッシュシェーダー（Mesh Shader）
小さな「メッシュレット」単位でジオメトリを生成。GPUが自律的に頂点を生成・変形できる。

何が嬉しいのか

GPU駆動のジオメトリ生成
CPUに頼らず、GPUが直接メッシュを生成・最適化できる。CPUボトルネックが解消。

効率的なカリング
視錐台（カメラの視界）外のメッシュレットを早期に除去。GPU負荷を大幅削減。

柔軟なLOD
距離に応じてメッシュレットの詳細度を動的に変更。シームレスなLOD遷移。

プロシージャルな地形生成
地形やフォリッジ（草木）をGPU上で生成。メモリ使用量削減。

Metalでの実装例

// メッシュシェーダー用パイプライン
let pipelineDescriptor = MTLMeshRenderPipelineDescriptor()
pipelineDescriptor.objectFunction = library.makeFunction(name: "objectShader")
pipelineDescriptor.meshFunction = library.makeFunction(name: "meshShader")
pipelineDescriptor.fragmentFunction = library.makeFunction(name: "fragmentShader")

// MSLでのメッシュシェーダー例
/*
[[mesh]]
void meshShader(
    uint threadIndex [[thread_position_in_threadgroup]],
    uint meshletIndex [[threadgroup_position_in_grid]],
    object_data MeshletData& meshletData [[payload]],
    mesh<Vertex, PrimitiveData, 256, 512, topology::triangle> output
) {
    // メッシュレットのデータを取得
    Meshlet meshlet = meshlets[meshletIndex];
    
    // 頂点を出力
    if (threadIndex < meshlet.vertexCount) {
        output.set_vertex(threadIndex, transformVertex(meshlet, threadIndex));
    }
    
    // プリミティブ（三角形）を出力
    if (threadIndex < meshlet.primitiveCount) {
        output.set_primitive(threadIndex, meshlet.primitives[threadIndex]);
    }
    
    // 出力カウントを設定
    if (threadIndex == 0) {
        output.set_primitive_count(meshlet.primitiveCount);
    }
}
*/

Dynamic Caching：メモリ効率の革命

問題：レジスタの無駄遣い

GPUシェーダーは「レジスタ」という高速なメモリを使う。問題は、従来のGPUでは最悪ケースを想定してレジスタを確保していたこと。

例えば、シェーダーAが10個のレジスタを使い、シェーダーBが100個のレジスタを使うとする。従来は、両方に100個分のレジスタ領域を確保していた。シェーダーAの処理中、90個は無駄になる。

これが、複雑なシェーダーを使うと「VRAM不足」に陥る原因の一つだった。

Dynamic Cachingの解決策

M3以降のApple GPUは、シェーダーが実際に使う分だけのレジスタを動的に割り当てる。

従来：シェーダーごとに固定サイズのレジスタを確保
      → 無駄が多い、複雑なシェーダーでメモリ圧迫

Dynamic Caching：実行時に必要な分だけ確保
                → メモリ効率向上、複雑なシェーダーも快適

開発者へのメリット

より複雑なシェーダーが書ける
レジスタ制限を気にせず、リッチなシェーダーを実装可能。

同時実行スレッド数の増加
メモリ効率が上がった分、より多くのスレッドを並列実行できる。

統合メモリの有効活用
UMA（統合メモリアーキテクチャ）との相乗効果で、GPUとCPUのメモリ共有がさらに効率的に。

意識すべきこと

Dynamic Cachingは自動的に動作する。開発者が明示的に設定する必要はない。

ただし、シェーダーのコンパイル時に最適化が行われるため、以下を心がけると効果が高まる。

変数のスコープを限定する：必要な範囲でのみ変数を使う
分岐を減らす：条件分岐が多いと最適化が難しくなる
ローカル配列のサイズを必要最小限に：大きな配列はレジスタを圧迫

// 良い例：必要な範囲でのみ変数を使用
kernel void goodShader(/* ... */) {
    if (condition) {
        float4 tempValue = computeValue();
        // tempValueを使用
        output[id] = tempValue;
    }
    // ここではtempValueは解放されている
}

// 悪い例：変数のスコープが広すぎる
kernel void badShader(/* ... */) {
    float4 tempValue;  // 常にレジスタを確保
    if (condition) {
        tempValue = computeValue();
        output[id] = tempValue;
    }
}

ゲームへの影響：Game Porting Toolkit

これらの機能は、Macでのゲーミング体験を変えつつある。

Game Porting Toolkit 2

2024年のWWDCで発表されたGame Porting Toolkit 2は、Windows用ゲームをMac向けに移植する作業を大幅に簡略化する。

Direct3D 12のAPIをMetalに変換するレイヤーが含まれており、Windows向けに書かれたレイトレーシングコードが、M3/M4のハードウェアレイトレーシングで動作する。

実際に、以下のようなAAAタイトルがMacに移植された。

バイオハザードヴィレッジ
Death Stranding Director's Cut
Lies of P
Control Ultimate Edition

これらのゲームでは、M3/M4のレイトレーシングが活用されている。

現実的な期待値

とはいえ、まだ課題もある。

ゲームタイトル数
Windows向けの全タイトルがMacに来るわけではない。移植にはコストがかかる。

性能
同価格帯のWindows + discrete GPU環境には、まだ及ばないケースが多い。特に4K高設定では差が出る。

発熱・ファンノイズ
MacBook Proでハードなゲームを長時間プレイすると、ファンが全開になる。デスクトップ用GPUのような冷却能力はない。

M4世代の時点では「十分にゲームができる」レベル。「ゲーミングPC並み」にはまだ届いていない、というのが正直な評価だ。

グラフィックス開発者向け：Metalの実践

レイトレーシングシェーダーの例

簡単なレイトレーシングシェーダーのサンプル。

#include <metal_stdlib>
using namespace metal;

// レイの定義
struct Ray {
    float3 origin;
    float3 direction;
};

// ヒット情報
struct HitInfo {
    bool hit;
    float distance;
    float3 normal;
    float3 color;
};

// レイとアクセラレーション構造の交差判定
kernel void raytraceKernel(
    uint2 tid [[thread_position_in_grid]],
    constant Camera& camera [[buffer(0)]],
    instance_acceleration_structure accelerationStructure [[buffer(1)]],
    texture2d<float, access::write> outputTexture [[texture(0)]]
) {
    // カメラからレイを生成
    Ray ray = generateRay(camera, tid);
    
    // 交差判定
    intersector<triangle_data> intersector;
    intersection_result<triangle_data> result = intersector.intersect(
        ray,
        accelerationStructure,
        intersection_params()
    );
    
    float4 color;
    if (result.type != intersection_type::none) {
        // ヒットした場合、シェーディング計算
        float3 normal = result.triangle_data.normal;
        float3 lightDir = normalize(float3(1, 1, 1));
        float diffuse = max(dot(normal, lightDir), 0.0);
        color = float4(diffuse, diffuse, diffuse, 1.0);
    } else {
        // 背景色
        color = float4(0.2, 0.3, 0.5, 1.0);
    }
    
    outputTexture.write(color, tid);
}

パフォーマンス測定

レイトレーシングのパフォーマンスを測定するには、GPU Profiler（Xcode Instruments内）を使う。

// GPU負荷の計測ポイント
let captureScope = MTLCaptureManager.shared().makeCaptureScope(device: device)
captureScope.label = "Ray Tracing Pass"

captureScope.begin()
// レイトレーシングのコマンドをエンコード
commandEncoder.setComputePipelineState(raytracingPipeline)
commandEncoder.setAccelerationStructure(accelerationStructure, bufferIndex: 1)
commandEncoder.dispatchThreads(/* ... */)
captureScope.end()

Xcodeの「GPU Frame Capture」で、各パスの実行時間とボトルネックを可視化できる。

まとめ：Macグラフィックスの新時代

M3/M4世代で追加されたGPU新機能は、Apple Siliconの表現力を大きく拡張した。

Ray Tracing

ハードウェアアクセラレーションによるリアルタイムレイトレーシング
M4ではM3の2倍の性能
リアルな反射、影、グローバルイルミネーション

Mesh Shading

従来の頂点パイプラインを刷新
GPU駆動のジオメトリ生成
効率的なカリングとLOD

Dynamic Caching

シェーダーのレジスタを動的に割り当て
メモリ効率の大幅向上
より複雑なシェーダーが実行可能に

ゲームへの影響

Game Porting Toolkit 2でWindows→Mac移植が容易に
AAAタイトルのMac版が増加中
ただし、まだWindows + discrete GPU環境には及ばない

これらの機能は、TBDRアーキテクチャとUMA（統合メモリ）という Apple GPU の基盤の上に構築されている。省電力と高性能を両立しながら、最新のグラフィックス技術に追いついた形だ。

「MacでAAAゲームは無理」という時代は、ゆっくりと終わりつつある。

M5、M6と世代が進めば、さらに差は縮まるだろう。Apple Siliconのグラフィックス性能、今後も注目だ。

参考リンク

Apple Developer - Metal: https://developer.apple.com/metal/
Apple Developer - What's new in Metal (WWDC24): https://developer.apple.com/videos/play/wwdc2024/10218/
Apple Developer - Accelerate machine learning with Metal (WWDC24): https://developer.apple.com/videos/play/wwdc2024/10219/
Apple Newsroom - Apple introduces M4 chip: https://www.apple.com/newsroom/2024/05/apple-introduces-m4-chip/
Apple Developer - Metal Best Practices Guide: https://developer.apple.com/library/archive/documentation/3DDrawing/Conceptual/MTLBestPracticesGuide/
Apple Developer - Game Porting Toolkit 2: https://developer.apple.com/games/game-porting-toolkit/

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up