この記事はエイチーム引越し侍 / エイチームコネクトの社員による、Ateam Hikkoshi samurai Inc.× Ateam Connect Inc. Advent Calendar 2021 7日目の記事です。
7日目の今日は、エンジニアから企画・マネジメントにジョブチェンして久しい@nakagawa_shotaがお送りします。
最近は弊社がリリースしたばかりの国産初バトロワゲームであるFINAL FANTASY VII THE FIRST SOLDIERにはまってます。
#はじめに
さて。コロナでリモートワークが加速してしばらく経ちますが、zoom他リモート会議システムで今や当たり前に使われている「バーチャル背景」の技術、あれ改めて凄いですよね。
弊社もリモートワークを機にzoomを導入しましたが、導入当初はみんなころころ背景を変えては遊んでいました笑
思い出してみてほしいのですが、ほんの数年前まで、動画の背景をリアルタイムで切り抜く処理って、ここまで一般的でしたっけ...?
ゲーム実況の配信者のようにグリーンバックを使って背景を消して合成するのがあたり前だった気が。
しかも、zoomに搭載されている人の識別ってかなり優秀だと思います。
たまにはうまく抜けないこともありますが、ほとんどの会議十分な精度が出ているのでは。
というわけで、zoomのバーチャル背景はどこまで優秀なのか、この機会に徹底検証してみます。
#実験環境
ソフトウェア
- zoom:5.8.9(記事執筆時点の最新版)
- OBS Studio:21.1.3(記事執筆時点の最新版)
- カメラの代わりとして使用
- 「仮想カメラ」機能で老若男女、部屋などを差し替えます
- OS:MacOS
素材
こちらのサイトの有料プランを契約し、ダウンロードしました。
商用・編集可能ということなので、zoomでバーチャル背景に切り替わった画像を公開しても問題ないはず
https://www.photo-ac.com/
今回実験に参加していただく皆さんはこちら笑
Aさん | Bさん | Cさん | Dさん |
---|---|---|---|
実験方法
- OBS Studioで、実際のカメラに模した様々な映像をzoomに送ります
- zoom側では、みなさんご存知、謎センスのデフォルト画像達のうち、「かなり”寄り”の草」を設定してあります
- 見事画像認識に成功すると、「切り抜かれた人」が「草」の前に出現します
いざ実験!
【実験1】静止画に対応しているか
簡単なバーチャル背景の実装方法としてまず思いつくのが「時間軸で差分のないところ=背景」としてしまうのがラク説。
精度の高い画像処理をしなくてもいけそうですよね。
なのでまず、完全な静止画をZoomに見せて正しくバーチャル背景がつくのか検証します。
結果
人 | 結果 | 判定 |
---|---|---|
Aさん | OK | |
Bさん | OK | |
Cさん | OK | |
Dさん | OK |
素晴らしいですね。
4人ともほぼ問題なく切り取りができています。
強いて言えばAさんの「オッケー」の手が若干切れています。
このあたりはみなさんもご経験あるところかと思います。
動画ではなく静止画でも、いつものzoomクオリティで切り抜きしてくれることがわかりました。
考察
どうやらzoomは、「時間軸の差分があるところ=人」という方法では、画像認識をしていないようです。
(AIのパラメータの中に含まれている可能性はありますが)
会社内で歩きながらバーチャル背景を起動しても問題なさそうです。
【実験2】顔が見切れるとどうなる?
人を切り抜く、それも用途がビデオ会議システムとなれば、人の顔に着目するのは自然かと思います。
顔が見えない状況下では認識精度はどう変わるでしょうか
結果
人 | 結果 | 判定 |
---|---|---|
Aさん | OK | |
Bさん | OK | |
Cさん | OK | |
Dさん | OK |
全く問題なく識別できています。
考察
人の顔という、一番重要そうな要素を削っても、全く問題ありませんでした。
もう少し意地悪してみましょう。
【実験3】どこまで見切れても認識できるのか?
実験2では顔がなくても問題なく認識できることがわかりました。
それなら、どこまで下に見切れていっても認識できるか、境界線を探ります。
結果
人 | 境界 | 結果 |
---|---|---|
Aさん | 首の肌が見えなくなるまで | |
Bさん | 首の肌が見えなくなるまで | |
Cさん | 肩の下辺り | |
Dさん | 肩 |
あまり上に移動しすぎると、画像の端が来てしまい、黒い背景になってしまうので
あまり良い実験とは言えませんが、上記のような結果を得ました。
考察
顔に加えて首が見えなくなると、「人がそこに居ること」のジャッジが難しくなるようです。
ただ、胴体のほとんどが消えても手と、服の袖が見えていることから、肌は人の認識に重要な要素なのかもしれません。
【実験4】仮に肌が重要というなら・・・
項目 | 結果 | 判定 |
---|---|---|
忍者 | 余裕 | |
忍者の限界 | 指が見えるときまで識別可能 | |
忍者の限界 | 指が見えないとどろん | |
水着の男性 | もちろんOK | |
水着の男性の限界 | お腹でも行けた! | |
服だけ | OK | |
服だけ(別ver) | OK |
考察
まず、肌を隠している忍者。
全部隠れていれば違ったかもしれませんが、指が見えている限り、認識されてしまいました。
続いて露出の多い、男性の水着。
なんとお腹の一部でも人と認識されています。
最後に、服だけ。
これは正直どうだろうと思っていましたが、それなりの精度で識別してくれました。
結局AIなので、肌とか服とかではなく、全体的な人っぽさ、ということなんでしょうね。
でもそれではつまらないので、敢えてzoomならではの苦手ポイントを攻めていきたいと思います笑
【実験5】zoomが苦手そうなシチュエーション
恐らく、zoomの人識別AIはweb会議をする人間のデータを学習データとして多く採用しているはず!
「このシチュエーションは苦手でしょう」という意地悪をしてみます。
回転してみる
対象 | 結果 | 判定 |
---|---|---|
Aさん180°回転 | 首から下が切れてしまった | |
Aさん90°回転 | ソファを腕の一部と誤認 | |
Cさん180°回転 | 身体を識別できない | |
Cさん90°回転 | 机を身体と誤認? |
考察
これは面白い結果に。
web会議(というか日常生活)ではありえない角度で人が生えていると全く同じ画像でも認識が変わってきます。
特に上から2番目のAさん90°回転では、ソファの一部を無理やりAさんの腕と解釈したような切り取りになっており、
ちょうどCさんのように、身体の前で腕を曲げている学習データに引っ張られていそうです。
複数人
人 | 結果 | 判定 |
---|---|---|
2人 | 女性の身体が認識できていない | |
2人 | こちらも女性が若干怪しい | |
2人 | 問題なし | |
3人 | 厳しい | |
3人 | 厳しい |
考察
この状態は経験ある人多いかもしれません。
やはり1人を前提として最適化していると思われます。
【実験6】zoomの最適化を逆手に取って...
実験5までで、zoomのバーチャル背景切り抜きの得意・不得意がわかってきたので、
これらの特徴を踏まえてzoomを混乱させにいきます。
結果
人 | 結果 | 判定 |
---|---|---|
ペットボトル | 人扱い! | |
熊のぬいぐるみ | 広めに取りすぎている。ちゃんと騙せてはいない? | |
トイレのマーク | それなり | |
引越し侍くん | それなり |
#まとめ
- zoomのバーチャル背景の切り抜き処理は、身体が起きている一人であればかなりの精度
- 部屋を絶対に見せたくないときはできる限り首を見せ、手を画角内に置くと良い
- 横や上から顔を出したり、複数人などWEB会議での利用で想定されないシチュエーションでは、顔と体がはっきり画角に入っていても識別精度が大きく下がる
TikTokなどでもグリーンバックを使わない背景合成が流行ってますし、
そのうち、グリーンバックなんて要らなくなるかもしれませんね!
#明日
Ateam Hikkoshi samurai Inc.× Ateam Connect Inc. Advent Calendar 2021 7日目の記事は、いかがでしたでか。
明日は @sugoto911 が「SREの実践、SLI/SLO策定までの道のり」について書きます。
お楽しみに!