はじめに
Appleから公開されたOSSのAIツール SHARP (Sharp Monocular View Synthesis in Less Than a Second) をMacbook Air M2 8GB の環境で試してみました。
ローカル環境で、たった1枚の画像から高品質な3D Gaussian Splatting (3DGS) 表現を、1秒未満(これについては後述)という驚異的な速さで生成できるというものです。
公式サイト: Sharp Monocular View Synthesis in Less Than a Second
GitHub: apple/ml-sharp
環境構築
今回はGithubのリポジトリをクローンして、Poetryで環境を構築して実験しました。
検証スペック
- 機種: MacBook Air
- チップ: M2
- メモリ: 8 GB
推論の実行
スマホにあった自前の画像(愛してやまない、富士屋本店の鰯のり巻き)を使用して、3Dシーン(.plyファイル)を生成しました。
初回はモデル(4GB程度)のダウンロードが自動で走ります。
# 推論コマンドの実行
poetry run sharp predict -i {{画像ファイルのパス}} -o {{書き出しディレクトリのパス}}
実行ログ(抜粋):
2025-12-18 20:53:52,958 | INFO | Using device mps
2025-12-18 20:53:52,959 | INFO | No checkpoint provided. Downloading default model...
2025-12-18 20:55:26,636 | INFO | Running preprocessing.
2025-12-18 20:55:29,831 | INFO | Running inference.
結果
実行完了後、アウトプットのディレクトリに .ply ファイルが生成されました。
今回は、ブラウザで .ply ファイルを手軽にプレビューができる SuperSplat を使って確認しました。
出来上がったファイルをインポートするだけで、マウスで動かして好きな角度から眺めることができます。
@Apple が発表した SHARP (Sharp Monocular View Synthesis) は、たった1枚の画像から、わずか1秒以内に高精度な3D空間(3D Gaussian Splatting)を生成できる画期的な技術。
— yukinao (@_yukinao) December 18, 2025
ということで早速、愛してやまない富士屋本店の鰯のり巻きを3D化 pic.twitter.com/z6XMnPHci2
実行時間について
「1秒程度」という事前の触れ込みでしたが、これはあくまで高性能なGPU環境下での結果で、非力なMacbook Air M2のGPU(MPS)では、画像によりますが、だいたい5-10分で出力されました。
まとめ
3Dのクオリティは文句なし。
これを写真1枚から、しかも無料で数分あれば自前の非力なPCでも作れる時代。
数年前には考えられなかった進化のスピードですよね。
モバイルデバイスやリアルタイムアプリケーションへの応用が非常に楽しみな技術でした。
