#はじめに
2019年10月24日、25日に中国の北京で開催されたRTC Conference 2019というビデオ通話やライブ配信に関わる開発者向けのカンファレンスに参加してきました。カンファレンスの概要については、agora.io RTC カンファレンス 2019 レポート #1に記載しています。
今回は私が参加したセッションについてのレポートです。業界トレンドの変遷やAI × RTC をテーマとしたセッションが中心となっています。
#Webにおけるリアルタイムコミュニケーションの起源と未来
このセッションでは、W3Cのテクノロジープロジェクト ジェネラルマネージャーPhilippe Le Hégaret氏がWebにおけるリアルタイムコミュニケーション技術の変遷について話しました。まずHégaret氏は、Webの中心的な技術として、以下10の要素を挙げました。
そして、これらの主要技術のなかでも成長し、影響力が大きくなっている技術として、WebRTC、Web Assembly 、Web Payments、WebAuthnを挙げました。WebRTCは今回のカンファレンスのメインテーマでもあるので、ここに挙げられるのは当たり前といえば、当たり前なのですが、中国に来てみるとWeb Paymentsは日本より普及していると感じました。飲食店での支払いからタクシー、レンタルサイクルまで広範囲に渡りオンライン決済が利用されていました。また、Web技術の進化に伴いプロトコルが複雑化していることについても言及していました。
#リアルタイムビデオテクノロジーの現状と未来
このセッションでは、agora.ioのチーフサイエンティストのShawn Zhong氏がリアルタイムビデオテクノロジーの変遷について話しました。Zhong氏によると2021年には、インターネット上を流れる情報の87%がビデオになり、ビデオの存在感、没入感が高まり、より日々の生活にとって身近な存在になってきているとのことです。
こうした状況のもと、agora.ioのサービスにおいて今後追加される特徴として、80%のパケットロスに耐えること、ディープラーニングを利用したビットレートの調整、AIを利用したエコーキャンセラーなどを挙げていました。この後のセッションでもagora.ioの登壇者からはそういった話が色々とありました。なお、今のところ2019年11月末にリリース予定のVideo SDK version 3.0.0では、70%のパケットロスに耐えられるようになる予定です。
その後、今後のリアルタイムビデオテクノロジーにおいて、5Gが多くの新しいビジネスモデルを生み出す一方、いくつかの問題を抱えていることについて話しました。5Gにより、より高速で大容量の通信が可能になります (KDDIのこちらの5Gについての記事は、5Gの特徴がわかりやすく記載してあります。)。しかしながら、全ての地域が5Gを利用できるようになるわけではありません。現時点でも3Gしか利用できない地域もあり、5Gインフラの整備には多くの費用がかかります。また、5Gによって大量にデータが送信されるようになりますが、そのデータを受信するデバイスもそれに耐えうる必要があります。そのため、CPUやGPU、ビデオコーデックといった5Gに関連する技術の性能向上も5Gがもたらすメリットを活かすうえで、重要となってきます。
そして、最後にドイツの数学者でフィット・ヒルベルトの「我々は知らねばならない、我々は知るであろう (We must know, We will kmow) 」という言葉を紹介して、日々知識を深めていくことは大切だと言っていました。この言葉について、少し調べてみたのですが、「我々は知らない、知ることはないだろう」という言葉に対するアンチテーゼのようです。頑張ろうという気持ちになれるいい言葉ですね。
#モバイルRTCの超解像 (SR : Super Resolution) におけるディープラーニング [AI and RTC]
このセッションでは、agora.ioのAIアルゴリズムエンジニアであるShifu Zhou氏がモバイルRTCの超解像 (以後、SRとします) におけるディープラーニングの活用について話しました。
まず、Zhou氏はRTCの映像表示における従来からある問題点について話しました。RTCでは、低解像度、低ビットレートの映像が送信されます。そして、送信された映像 (画像) を拡大するとぼやけて見えてしまい、より詳細な部分を確認することができないません。
こうした問題の解決方法として、画像を拡大した際に解像度を上げる技術であるBicubic補完 (Bicubic Interpolation) と呼ばれる画像の補完法が従来用いられてきました。しかしながら、近年ではディープラーニングの発達により、それを用いてより精度の高い補完法、高解像度 (HR : High Resolution) 化を図るSR技術についての研究が盛んにおこなわれているようです。ただ、SRの効果と計算量・計算速度の関係はトレードオフであるという側面もあります。そのため、agora.ioのモバイルRTCではそれらの点を考慮した設計がなされているようです。
#RTC × Audio × AIの現在と未来 [AI and RTC]
このセッションでは、agora.ioのオーディオエクスペリエンス兼エンジニアリング ディレクターであるRuofei Chen氏がRTCと音声、AIの変遷について話しました。Chen氏は、これら3つの要素を通して実現できることとして、6つの点を話しました。
1つ目は高音質化、2つ目はエコーキャンセリングです。3つ目はAIによるノイズキャンセリング、4つ目はAIによるPLC (Programmable Logic Contoroller)です。5つ目は効果音 (ボイスエフェクト)、6つ目はAIによる音声認識です。 agora.ioにもこうした技術は活用されています。
#リアルタイムコミュニケーションにおけるビデオコーディングアルゴリズム [Codec Now and Then]
このセッションでは、agora.ioのビデオアルゴリズムエンジニアであるJiali Li氏がAgora-PVC (Agora-Perceptual Video Coding) というビデオコーディングアルゴリズムについて話しました。
Agora-PVCでは、CNN (Convolutional Neural Network) というディープラーニングの技術を利用して、ビットレートを調整します。現在はまだ研究段階ですが、将来的には、agora.ioにも取り入れられる予定です。
#まとめ
今回は私が参加したセッションについて記載しました。参加したセッションの中でまだ記載しきれていないセッションもあるので、それについては次回のレポートで記載します。また、次回のレポートでは、セッション会場の外のRTCに関する展示についても記載しようと思います。実際に自分で試すことができるものもあったので、面白かったです。
#参照
5Gとは? 5Gの特徴と今後の役割 | KDDI IoTポータル
我々は知らない、知ることはないだろう - Wikipedia
Hilbert, David (1930) “Naturekennen und Logik” 講演原稿