More than 3 years have passed since last update.

WWDC 2021の機械学習、XR関係のトークまとめ

Posted at 2021-07-18

Appleの開発者向け動画のまとめ

前口上

2021年のApple Worldwide Developers Conference (WWDC)はオンライン形式で行われました。例年通り開発者向けの動画がオンデマンドで上がっていたので機械学習、XR関係のトークを観ていきます。

機械学習

Create image processing apps powered by Apple Silicon

M1 Macはユニファイドメモリアーキテクチャーを持ちシステムメモリーにNeural Engine、GPUがメモリーインターフェイスを通して直接アクセス。CPUからGPUへデータを渡す際にVRAMへの転送部分をスキップできる

NVIDIAのGPUもGPUメモリーで価格差がありますね。システムメモリーさえ十分にあればいいのならユニファイドメモリアーキテクチャーも一つの側面では悪くないのかもしれない。

Tune your Core ML models

Core MLのモデルの形式の解説

物体検出にMLMultiArrayが使える。

MLPackageはMetadataがJSON、InterfaceとArchitectureがProtobuf, 学習パラメータがバイナリ。Xcodeでメタデータが編集できる。新たにカスタムオペレーション相当のMLProgram、cpu/gpu実行の選択ができるようになった。

変換前後のモデルの出力をビジュアルで比較できるのはいいですね

Classify hand poses and actions with Create ML

Create MLの使い方のチュートリアル。手の位置を認識して指や手のひらから魔法を出す。

動画をフォルダの中に入れて手の動きの分類

movファイルのまま訓練してくれるのすごいですね

Build dynamic iOS apps with the Create ML framework

Create MLをiOSで動かす。iOSで機械学習の推論でなく訓練。

プライバシー面でのアドバンテージがある。

古いMacと比べるとチップの面でiPhoneが勝っている点はありそう

Detect people, faces, and poses using Vision

Face DetectionでMaskが考慮可能に、ヨー、ロールに追加でピッチが取得可能に

Human Detectionは上半身のみも可能。Person Segmentationは動画にも適用可能で詳細度の段階を選択可能

VTuber系のツールが自然になりそう

Discover built-in sound classification in SoundAnalysis

ビルトインの音声分類機。300種類ある。Windowの長さやコンフィデンスの閾値をカスタマイズ可能。

YOLO 9000の音声版といった趣

Explore ShazamKit

Shazamのカタログだけでなく独自のカタログに対してもマッチできる。

曲のどこでマッチしたかのmatchOffsetも取れるんですね

XR

Explore ARKit 5

GPSサポートのデバイスでロケーションアンカーがアメリカの一部、ロンドンで使える。

App Clip Codeのアンカーとしての使い方。アンカーからの相対位置でAR表示。

iPad Proで超広角カメラが使える。モーションキャプチャーも使える。

App Clip CodeはARマーカーとしても使えるんですね。

Immerse your app in spatial audio

3D音響に関するトーク。AVAudioSessionを使う。
iOS15ではWebkit Media Source Extensionsも対応

Apple Glassの準備といった感じですね。
VRヘッドセットではマイクや音声出力ついていることが多いですが、音声部分はAirPods Proに切り分けてGlassのハードウェア価格を下げたいのでしょうか。

Create 3D workflows with USD

3Dパイプラインの規格Universal Scene Descriptionの解説。
gltf, fbx比で複雑なシーンやコラボレーションに対応しているのが.usd。
そのコレクションが.usdz

Create 3D models with Object Capture

画像から3Dデータを作るObject Captureの紹介。

RealityKitでセッションをセットアップ後、プレビューをリクエストしてモデルを処理。

AR Quick Look, meet Object Capture

ReducedとMediumの設定を見直し、二つの写真は70%以上オーバーラップするようにすると綺麗に3Dデータができる。

所感

以前ARヘッドセットを組み立てた際も思いましたが真にARを実現させるためには現実の認識が必要で機械学習が不可欠のように感じます。

3D音響や画像からの3Dデータ生成、機械学習の自動訓練、ビルトインの画像や音声認識の拡充などARグラスを成立させるための要素技術の土台を固めている印象です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up