SkinTokens: A Learned Compact Representation for Unified Autoregressive Rigging ( Tsinghua University & VAST, 2026)
SkinTokens: A Learned Compact Representation for Unified Autoregressive Rigging
---
## TokenRig: 統一された自己回帰リギングによる革新
### 課題: 従来の自動リギングの限界
1. **スキニングの非効率性**: スキニングウェイト予測は高次元の回帰問題であり、本質的な「疎性」を扱えず、ノイズや不自然な変形が生じる。
2. **スケルトンとスキニングの分離**: 骨格生成とスキニングが独立しており、相互作用が学習されないため、リグ全体の品質が制限される。
### 提案手法: TokenRigフレームワーク
3Dモデルの高品質なリグ生成を可能にする、統一された生成フレームワーク。
**1. SkinTokens: スキニングウェイトの学習済みコンパクト離散表現**
* **本質**: スキニングウェイトの「疎性」に着目し、これを高次元の連続回帰から、扱いやすいコンパクトな「離散トークン」列予測に変換。
* **技術**: FSQ-CVAE (Finite Scalar Quantized Conditional Variational Autoencoder) を使用し、各ボーンのスキニングウェイトを数個のトークンに圧縮。Dice Lossで疎なデータに対応。
* **効果**: スキニング精度を従来比 **98%〜133%** 向上。
**2. TokenRig: 統一された自己回帰モデリング**
* **本質**: スケルトンとSkinTokensを結合した単一のシーケンスとしてリグ全体を表現。
* **技術**: Transformerベースの自己回帰モデルが、スケルトン生成後にSkinTokensを予測。スケルトンと変形の複雑な相互依存関係を学習。
* **効果**: スケルトンとスキニングの相互作用を捉え、全体としてより整合性の取れたリグを生成。
**3. RL精緻化: 強化学習による汎化能力向上**
* **本質**: 未知のデータへの適用力を強化。
* **技術**: GRPO (Group Relative Policy Optimization) を用いた強化学習でモデルをファインチューニング。ボーン-メッシュ整合性、変形滑らかさなど、リグ品質の**高レベルな基準**を報酬として組み込む。
* **効果**: 骨予測精度を **17%〜22%** 向上。複雑な「in-the-wild」アセットにも対応可能な、高忠実度で堅牢なリグ生成を実現。
### 成果
* 最先端のベースラインを上回るスケルトン生成とスキニング予測の精度。
* 特にスキニングにおいて、アーティファクトの少ないクリーンで局所性の高いウェイトマップを実現。
### 限界と今後の展望
* SkinTokensの連続潜在表現によるさらなる精度向上。
* ユーザーからのトポロジー指定やインタラクティブなガイド機能の実装。
* 物理ベースの報酬による動的変形のリアリズム追求。
---
3行要約
- 本研究は、3DアセットのRiggingにおける主要なボトルネックであるSkinningを解決するため、学習されたコンパクトで離散的な表現「SkinTokens」を提案します。
- このSkinTokensを活用することで、骨格パラメータとSkinning情報を単一のシーケンスとして生成する統合されたAutoregressiveフレームワーク「TokenRig」を構築し、両者の複雑な相互依存関係を学習します。
- さらに、Reinforcement Learningを用いたリファインメント段階を導入し、特に複雑なOutOf-Distributionアセットに対して、Skeleton生成とSkinning予測の質を大幅に向上させ、先行研究を上回る結果を達成しました。
Q:何が問題で、それをどのように解決したのか、わかりやすく説明してください
A:
この論文では、3Dモデルのキャラクターアニメーションにおいて不可欠な「リギング」における長年のボトルネックを解決することを目指しています。特に、自動リギングの既存手法が抱える問題は以下の通りです。
問題点:
-
スキニングの非効率性と非定形性(Ill-posedness)
- 「スキニング」とは、3Dモデルの各頂点がどのボーン(骨格)の影響を受けるかを定義する「スキニングウェイト」を割り当てる作業です。既存の自動手法は、このスキニングを「高次元の回帰タスク」として扱っており、最適化が非効率で、結果が不安定になりがちでした.
- スキニングウェイトの行列は本質的に疎(ほとんどの要素がゼロ)であるにも関わらず、標準的なMSE(平均二乗誤差)などの損失関数を用いた密な回帰は、ノイズの多いウェイトを生成し、視覚的に不自然なアーティファクトを引き起こしていました
-
スケルトン生成とスキニング予測のデカップリング
- 多くの先行研究では、スケルトン(骨格)の生成とスキニングウェイトの予測が別々の段階として扱われていました。これにより、両タスク間で相互の情報交換ができず、スケルトンは変形を考慮せずに生成され、スキニングは固定された骨格に対して行われるため、システム全体の性能が制限されていました。これは「表現の問題」であると論文は指摘しています。
解決策:
この論文では、これらの問題を解決するために、主に以下の3つの段階からなる統合的なアプローチ「TokenRig」を提案しています。
-
SkinTokens:スキニングウェイトの学習済みコンパクト離散表現
- 従来の高次元回帰の代わりに、スキニングウェイトを「SkinTokens」と呼ばれる学習済みのコンパクトな離散表現に変換します。
- これはFSQ-CVAE(Finite Scalar Quantized Conditional Variational Autoencoder)を用いて行われ、スキニングウェイトの固有の疎性を捉え、タスクをより扱いやすいトークンシーケンス予測問題として再構築します。
- Dice Lossなどの損失関数を導入することで、スキニングウェイト行列の極端な疎性によって引き起こされるクラス不均衡の問題に対処し、高精度な再構築を実現しています。
-
TokenRig:統一された自己回帰フレームワーク
- SkinTokensの導入により、リグ全体(スケルトンとスキニングの両方)を単一の「スケルトンパラメータとSkinTokensのシーケンス」としてモデル化する統一された自己回帰フレームワーク「TokenRig」を構築しました。
- これにより、スケルトンとスキニング変形の間の複雑な依存関係を学習することが可能になり、従来のデカップリングされたアプローチでは無視されていた重要な関係性を捉えます。
-
強化学習(RL)によるリグの洗練
- モデルの一般化能力を向上させるため、統一モデルはGRPO(Group Relative Policy Optimization)を用いた強化学習段階でさらに洗練されます。
- ボーンとメッシュの整合性、変形の滑らかさなど、リグ品質に関する明示的な幾何学的・意味的報酬関数を設計し、複雑な未知のデータに対しても頑健なリグ生成を可能にしています。
このアプローチにより、SkinTokensは最先端の手法と比較してスキニング精度を98%〜133%向上させ、GRPOで洗練されたTokenRigフレームワークは骨予測を17%〜22%向上させています。これにより、より高い忠実度と頑健性を持つリギングが実現され、3Dコンテンツ作成における長年の課題に対するスケーラブルな解決策が提供されています。
Q:関連手法との比較について詳しく説明してください
A:
TokenRigは、以下の主要な学習ベースのリギング手法と比較評価されています。
- RigNet [Xu et al. 2020]: Graph Neural Network (GNN) と測地線距離特徴を組み合わせて直接スキニングウェイトを回帰する手法です。
- MagicArticulate [Song et al. 2025b]: 拡散モデルを用いたスキニング残差予測アプローチを採っています。
- UniRig [Zhang et al. 2025b]: スケルトン生成の自己回帰モデルです。
- Puppeteer [Song et al. 2025a]: スケルトン生成に自己回帰アプローチを使用しています。
評価は、ModelsResourceとArticulation 2.0のテストデータセットで実施されました。
1. スケルトン生成の品質
評価指標:
スケルトン構造の精度は、RigNetで導入されたChamfer Distanceベースの以下の指標を用いて評価されます。低い値ほど性能が良いことを示します。
- J2J (Joint-to-Joint): 生成されたジョイントがグラウンドトゥルースジョイントにどれだけ近いか。
- J2B (Joint-to-Bone): 生成されたジョイントがグラウンドトゥルースのボーンにどれだけ近いか。
- B2B (Bone-to-Bone): 生成されたボーンがグラウンドトゥルースのボーンにどれだけ近いか。
定量的比較 (Table 3より):
TokenRigは、両データセットにおいて、すべてのChamfer Distance指標で一貫してすべてのベースラインを上回っています。特にJ2JとB2Bで最も低いエラーを達成しており、生成されたスケルトンがグラウンドトゥルースのジョイントにより近く、トポロジー的なアライメントも優れていることを示しています。
- 例えば、ModelsResourceデータセットのJ2Jでは、RigNetの3.901に対してTokenRigは2.857 (4 skin tokens) と大幅に改善しています。
- 強化学習(GRPO)による洗練は、骨予測を17%〜22%向上させています。
定性的比較 (Figure 6より):
ベースラインの手法は、顕著な構造的弱点を示します。
- RigNet: MSTベースの接続推論の限界により、不完全なスケルトンを生成することが多く、末端のチェーンが欠落している場合があります。
- UniRig: メッシュを過剰にセグメント化する傾向があり、不規則なトポロジーを持つ過剰な数のジョイントを生成するため、アニメーションが困難になります。
- Puppeteer や MagicArticulate: 新しい自己回帰モデルですが、細かなセマンティックな詳細を維持するのに苦労し、非人間キャラクターの耳や角などの解剖学的特徴を捉えられないことが多いです。
対照的に、TokenRigは構造的に一貫性があり、セマンティックに忠実なスケルトンを生成し、幾何学的なカバレッジとトポロジーの単純さのバランスを効果的に取っています。

2. スキニング予測の品質
評価指標:
スキニング予測の精度は、以下の5つの補完的な指標を用いて評価されます。ウェイト閾値 (\epsilon = 10^{-2}) を適用して評価されます。
- Precision (精度) と Recall (再現率): ジョイントの影響領域の正確さを定量化します。
- Motion Loss (モーション損失): 線形ブレンドスキニング (LBS) 下での変形忠実度を測定します。
- (L_1) Error: 予測ウェイトとグラウンドトゥルースウェイトの差の絶対値の平均です。
- (L_1) Variance: エラーの一貫性を反映します。
定量的比較 (Table 4より):
TokenRigは、すべてのスキニング指標で最先端の性能を達成しています。
- (L_1) Error: RigNetと比較して、(L_1) Errorが大幅に削減されており(ModelsResourceでRigNetの0.0573に対してTokenRigは0.0163)、これはSkinTokens表現によるスキニング精度の98%〜133%の向上に相当します。これは、TokenRigの離散トークン予測が、連続回帰タスクに典型的なノイズや「平均値に収束する」振る舞いを回避していることを裏付けています。
- (L_1) Variance: 低い(L_1) Varianceは、TokenRigが異なる頂点に対して一貫して高品質なウェイトを生成し、ベースラインでよく見られる局所的な失敗を回避していることを示します。
-
Motion Loss: 優れたMotion Lossスコアは、予測されたウェイトが実際の変形時に低い歪みをもたらすことを示しています。
定性的比較 (Figure 7より):
これらの改善は、よりクリーンで明確なセグメンテーションとして視覚的に現れます。
- ベースライン: UniRigやMagicArticulateのようなベースラインは、「出血(bleeding)」アーティファクト、つまりスキニングウェイトが非接続のメッシュコンポーネントに漏れ出す問題を抱えていることが多いです。
- TokenRig: FSQ-CVAEデコーダは厳密な局所性を強制し、アーティファクトのないウェイトマップを生成します。この精度は、複雑な関節において特に顕著です。例えば、Figure 7の3行目では、TokenRigだけが指の細かな空間的分化を正確に維持しており、ベースラインの手法は過度にスムーズなウェイトや出血ウェイトを予測する傾向があり、アニメーションの忠実度を低下させています。
TokenRigが優れている理由
TokenRigの優れた性能は、主に以下の革新的な要素に起因しています。
- 表現の問題への対処: スキニングウェイトを「SkinTokens」という学習済みのコンパクトな離散表現に変換することで、高次元の回帰という非定形な問題を、より扱いやすいトークンシーケンス予測に再構築しました。これにより、データに内在する疎性を効果的に活用できます。
- 統一されたモデリング: スケルトン生成とスキニング予測を単一の自己回帰フレームワーク内で統合することで、両者間の複雑な相互依存関係を学習できます。これは、従来のデカップリングされたアプローチでは不可能でした。
- 強化学習による汎化能力の向上: 幾何学的およびセマンティックな報酬関数を備えたGRPOベースの強化学習段階を導入することで、訓練データにない複雑な「in-the-wild」アセットに対しても、モデルの一般化能力と堅牢性が大幅に向上しました。
これらの要素の組み合わせにより、TokenRigは既存の自動リギング手法を大きく上回る高忠実度と頑健性を実現しています。
Q:提案手法の限界と今後の課題はなんですか?
A:
TokenRigは自動リギングにおいて顕著な進歩を遂げましたが、論文ではいくつかの限界と今後の課題が挙げられています。
-
SkinTokensの表現ギャップと連続トークン表現の可能性
- 限界: FSQ-CVAEによるSkinTokensは高い圧縮効率を提供しますが、論文の比較分析によると、極めて挑戦的なスキニングシナリオにおいては、連続潜在変数VAEと比較して性能ギャップが残る可能性が示唆されています。これは、離散トークン化が一部の情報損失を伴う可能性を示唆しています。
-
今後の課題: 最近開発されている連続トークン表現(例: Li et al. 2024; Sikder et al. 2025)は、このギャップを埋める可能性があり、シーケンスモデリングの利点を犠牲にすることなく予測精度を向上させる道筋となるかもしれません。
-
ユーザー制御とインタラクティブなガイダンスの欠如
- 限界: 現在のフレームワークは学習された事前知識に基づいてリグを自律的に生成しますが、プロの制作現場では特定のトポロジー標準への準拠や、アーティストによるインタラクティブな制御が頻繁に求められます。現状のTokenRigは、完全に自動生成に特化しており、このようなユーザーの介入やカスタマイズのニーズには直接対応していません。
-
今後の課題: 自己回帰モデルを拡張し、ユーザーが指定したトポロジーテンプレートを受け入れたり、インタラクティブなガイダンスを取り入れたりする方向性が考えられます。これにより、TokenRigは単なる自動生成ツールから、柔軟なアーティスト支援ツールへと進化できるでしょう。
-
物理ベースの報酬と動的リアリズムの追求
- 限界: 現在の強化学習ステージは、幾何学的な妥当性を向上させることに成功していますが、生成された変形の動的な「妥当性」や「リアリズム」については、まだ考慮の余地があります。例えば、アニメーション中の筋肉の膨張や皮膚のたるみといった、より複雑な物理的挙動を直接考慮する報酬は導入されていません。
- 今後の課題: 将来の研究では、生成された変形の動的な物理的妥当性をさらに保証するために、物理ベースの報酬を探索することが考えられます。これにより、単に見た目が正しいだけでなく、物理法則に則った、より説得力のあるアニメーションが期待できるようになるでしょう。
これらの課題に対処することで、TokenRigはさらに強力で汎用性の高いリギングソリューションへと発展し、プロの3Dコンテンツ制作パイプラインへの統合がより容易になる可能性があります。


