一月以上も経ってしまいましたが、お盆休みに入り時間も空いていたので共有ができたらと思います。
この投稿で繋がりが増えていったらと考え投稿します。
まず、CCSEとは「企業研究に特化したカンファレンス」といったお題目のもと、所属企業の枠を超えて議論する場としてサイバーエージェント様が用意した場となります。
参加企業様の最新のソフトウェア面、ハードウェア面での取り組みについて発表する場となりました。
著者は、ソフトウェア畑なため、聴講したセッションはソフトウェア面に偏っていますが....
では、聴講したセッションについて簡潔にまとめていけたらと思います。そして、さらに議論したいセッションについては軽く感想を追記しています。この考えには共感できる〜であったり、こんな意見もあるぞ〜という方がいらっしゃったらコメントいただけたらと思います。
ディープラーニング時代の性能評価(サイバーエージェント)
映像要約手法の性能評価に関して、昨今のニューラルネットを使った手法ではデータセットTVSun(YouTube動画+2秒ごとの重要度)に対して人間の平均値を超え始めている。今回、評価値の検証に着目している。「偶然」達成可能なスコアとの比較により、きちんと作成された要約>ランダムになることは自明。しかし、データセットによってはランダムと大差ない結果のものもあった。改めて、データセットはどのようなデータを抽出しているのか、ランダムよりも性能はいいのか、評価指標は機能しているのかといった点に照らし合わせて評価するとよいと述べられていた。
機械学習を定量的な評価をするための評価指標はたくさんある。ここ数年でディープラーニングが台等してきて、数値の更新が目覚しいですが改めて過去の評価指標も見直すいい機会になればいいと思いました。
ゲームバランス調整補助のための強化学習の効率化(GREE)
テキストゲームの強化学習効率化。学習方法としては、DQN(行動を一括評価)、DRRN(行動を個別に評価)の2種類。テキストゲームの特徴として、状態と行動の入力が必要であり、状態と行動をそれぞれ埋め込む。今回、DRRNに着目して、強化学習中に埋め込みを獲得するDRRNと埋め込まれた行動を入力する提案手法の比較をしていた。比較手法として、(行動の一括・個別評価)×(埋め込み表現あり・なし)の組み合わせの4通りの手法から比較をした。行動の個別評価の値が高く、埋め込み表現ありは早い段階で勝率50%を超えたが、最終的には埋め込み表現なしのほうが勝率は高くなったそうで、時と場合によると思われる。
機械学習における教師データ作成とその効率化について(ABEJA)
機械学習プロダクトの開発・運用のツラミから始まりました。データ収集&アノテーションは機械学習における上流プロセスである。このプロセスを失敗すると下流プロセスはほぼ失敗に終わる。重要度の比較をするためにデータの量と品質どちらが重要なのかの実験をした。データ量の多さは一定量までは影響がある。しかし、データ品質(アノテーションの失敗など)は間違ったアノテーションを一定の割合で混ぜていくと比例して正答率が落ちていく。したがって、データは多いほど精度は向上する傾向にある。そして、アノテーションノイズは少ないほどよい。そこで、アノテーション作成に役立つアプリケーションを開発しているABEJAのAPI紹介になった。
- 弱いつながりは転職に有効なのか?
結論からあるコミュニティ内のつながりは強いほうが転職には有利である。理由として、コミュニティ関係の強さが情報伝達の速度に影響するために、ポストが空いたといった情報を手に入れやすいためである。
交通システムの最適化を実現する機械学習システムの開発
タクシー 運転手の売り上げを比較すると明らかに売り上げが違う層がいる。そこで、道路レベルの需要供給予測、道路コストの推定、自動運用、経路探索の効率化、複数車両の協調、基板設計に取り掛かっている。流し需要の分析、GPS情報に対してマップマッチングを行い、道路別に乗車数を集計する。そして、機械学習により直近の乗車数・周辺の乗車数、各種統計量から予測モデルを生成し、直後30分後に発生する乗車数の需要供給の予測をする。ここで、売り上げのみを最適化しようとすると周り道などが増えタクシー乗務員のUXはひどいものとなったらしい。熟練した技術を持ったタクシードライバーからの不平不満はなかったとのこと。
名刺ネットワークから「営業ホットリード」をリコメンドする仕組み
営業活動において、リードの獲得は営業効率を大きく左右する課題。さらに、名刺交換の傾向の分析より、営業担当者が過去出会った人の中で、営業訪問先としてふさわしい人(ホットリード)をリコメンドする仕組みが作れないかの検証。自社の名刺を記録するアプリケーションから営業との名刺交換割合が高い人ほどホットリードであると判断する。それは、業種によってもさまざまである。このシステムの社内評価はよかったとのこと。
経営者が考える企業の研究
サイバーエージェント
広告の関連分野を、研究分野として取り扱っている。広告を作る「Creative Research」は、自然言語処理・コンピュータビジョン・グラフィックス・機械学習・スキャニング・モデリング。広告を分析・評価する「Advertising Economics」は、因果推論・計量経済学・機械学習・最適化。広告を開拓する「接客対話エージェント」は、自然言語処理・HAI・HCI・仮想エージェント・社会心理学・機械学習が含まれる。取り組んでいる具体的な課題として、広告の自動生成、広告テキストの自動生成、フォトグラメトリー技術、3Dモデルの研究をしている。産学連携や外部発表は積極的に行っている。
Sansan
名刺のデータ化をするためにオペレータを抱えて、人の管理にかかるコストが大きかった。これでは、スケールできないだろうという危機感があり自動化する必要があった。それにあたって、ディープラーニングの技術などの必要性を感じ始めた。
エクサウィザーズ
機械学習に特化してシステムを作成している。インドのナンバープレートが規格化されていないため、車種検出+トラッキング→ナンバープレート検出→読み取りなども行い、大学とも共同研究を積極的に行っている。
この3社の紹介の後、取締役の方々への質問に移行しました。
質疑応答
- Q:研究チームを立ち上げるきっかけ
CA:広告事業について、仕事がなくなるという危機感。ユーザ数が今から倍になるということはない。配信面やフリークエンシーの操作による効果向上も上限がある。利益を出すためクリエイティブ作成などを自動化して効率化しようと思った。
Sansan:上記の説明通り、人的コストが大きかったためにそれを軽減するために機械学習に積極的に取り掛かった
- Q:研究者に技術以外で持ってもらいたい視点
Sansan:アイデアだけでは「イノベーション」とは呼べない、社会に実装されて始めてそう呼べる。「社会のためになっているか」ということは「これのために誰がいくらお金を出すか」ということで測る、その意識をもってもらいたい。
エクサウィザーズ:新しい研究分野を創ること。海外だとプロダクトにのせる前にペーパー出したりする。それが面白いと人が集まって共同研究が始まる。日本だとプロダクトにのせてから効果を測りましたという論文が多い。
- Q:研究発表、会社の情報を守ることとのジレンマ
CA:実装が早ければ=一番最初に社会に出せれば、研究内容を外に見せても困ることはない。
Sansan:すべてを出せているわけではないができるだけ出している。
エクサウィザーズ:修士時代に論文18本出した。研究者としてはタピオカミルクティーをインスタグラムに投稿するくらいのテンションで論文を出したほうがいい。あとは知財部門にがんばってもらう。
- Q:研究と事業部の摩擦
CA:物理的に離れることで起こりにくくなる?
Sansan:摩擦はある。研究者もストーリーを語ることは大事。
エクサウィザーズ:摩擦もサイエンスしていく。誰かと対立したらゲーム理論でパレート最適解を見つけよう。
- Q:研究を辞める時の判断基準は
CA:定期的に進捗を聞く。そういうタイミングを設ける。
Sansan:プロダクトに乗るか乗らないか
エクサウィザーズ:研究者がギブアップというまで
やはり、ディープラーニングの最新の研究を積極的に導入し、事業へ発展させていくには先見の明が重要と感じました。自論になってしまいますが、研究に関しては「投入する金額」よりも「人」を重視した方が企業は発展していくと思いました。
画像センシング技術を活用した人物属性・行動予測システムの検討
防犯・見守りカメラ映像からの画像センシングから、グループ属性推定技術と行動予測技術に関すること。自律型モビリティの課題は、遠方の状況が分からない、飛び出してくる人と衝突する可能性。グループ属性推定は、時系列情報として得られる人物の位置情報を用いて、人物をグループごとにクラスタリングして、「知人」「家族」といったグループ属性を推定、LSTMを利用。人物動線情報から抽出した距離、速度差、移動ベクトルのなす角、Hall’s proxemic theory,Granger causality,Shape similarityに加え、属性情報(年齢、性別)を入力。「他人」、「知人」、「家族」の正答率平均95.1%の精度である。行動予については、①マップ生成ステップ②マップ統合、予測ステップが必要。①マップ生成ステップは、人物運動コスト、静的障害物コスト、動的障害物コスト、人物コスト。②マップ統合、予測ステップは、上記①で生成したマップを統合した尤度マップを生成し、最大値を取得。結果、通常の歩行経路の予測や、属性ごとの立ち止まりやすい展示物の予測などに成功。しかし、展示物前に一旦立ち止まり、動き出すタイミングの予測で失敗が目立つとのこと。
最近の論文になりますが、人混みからの人物追跡に関する論文(https://arxiv.org/pdf/1906.10313.pdf )も投稿されています。この2つの技術を組み合わせることでより精度が向上し、レストランやファミレスの応対の自動化にも繋がる可能性がありますね。
グループウェアにおけるもったいなさの解消に向けた試み
成果物やコミュニケーションでしか蓄積されていかない。そこで、新たな知的資源損失防止のために、すべての情報を整理可視化していきたいというスタンス。使わないと思って削除してしまった文字についての研究。思いついたこと記述することを断片化しておいて出力先に断片化した情報を挿入して出力することができる。まだ開発段階であり、新たに生成した情報で古い情報が埋もれてしまうといった問題点が存在する。
このブレインストーミングのためのネタを集めたり整理したりといったものに著者は既視感を感じましたが、確かに簡単にdeleteキーを押して記述した文章(情報)を削除してしまうのは大変もったいないと思います。しかし、保存できるよ"容量"も確かに限界があるため、さらに繰り返し表現に対して圧縮し、その圧縮情報を補完してくれるシステムであれば、さらに大助かりになる気がします。
名刺とニュースを紐づける-深層学習を用いた記事文章からの企業名抽出
企業名といった固有表現抽出タスクとなる。Bidirectional LSTM-CNNs-CRFを利用。エラー分析としては、正解例:「{会社名}、・・・」、「{会社名}〔大学、銀行、省〕+助詞」、失敗例:「{会社名}〔大学、銀行、省〕+関連のある名詞列」、「{英語会社名、英語頭文字}」。目的として、一枚の名刺の先にあるニュースを正確にユーザに届けたい、深層学習を用いた固有表現抽出。今後の発展として、固有表現抽出自体の精度向上、企業名の語義曖昧性を解消するためのEntity Linkingとの連携。
メルカリの写真検索を支えるバックエンド
Kubernetesとは、オープンソースのコンテナ・オーケストレーションシステムである。これに独自のリソースを定義できる機能があり、開発者はその機能を介して上記の機能の拡張ができる。ML Platform Lykeionという内製のML Platformに写真検索が構築されている。以下の機能を有している。Training/Serving CRD&カスタムコントローラ、コンテナベース・パイプライン、Training/Serving コンテナイメージ・ビルダー、モデル・レポジトリ。Training custom resourceをCronJobが作成。カスタム・コントローラがCRD・リソースで設定されたコンテナベース・パイプラインを実行。実行するバッチ単位としてはHourly,Daily,Monthlyが存在。画像のダウンロードは、S3上に存在するメルカリ・イメージストアから商品画像をダウンロード、パイプライン上もっとも時間のかかる工程(画像数が膨大なため)。そこで、PVに一定期間キャッシュすることによって再インデックスが必要な時には素早くパイプラインを回せるようにしている。他にも、写真検索のバックエンド、インフラについての解説あり。
この発表に関しては、メルカリ社独自の機構に関する発表が大部分を占めていたので、感想は省略させていただきます。
Convolutional Neural Network ProcessorをChiselで開発する
極小量子化実用化のためにアクセラレータ(専用プロセッサ)の開発をしている。主に、HW(プロセッサ)開発の概要、Chiselを使った事例が紹介された。HW(プロセッサ)開発の概要については知識が不足しているため省略させていただきます。
Chiselについては、UCBが開発したHardware Construction Languateです。
- ScalaベースのDSL
- RTLを表現
- Flip-flopベースの同期設計をサポート
- VerilogよりもConstructionにフォーカス
- ScalaでRTLの回路のDAGを生成できる
- Verilogのモジュールを取り込み可能
- VerilogのRTLを出力
- 利用例
- UCBのRISC-V CPU
- Google Edge TPU
Hardware Description Languageのと違い
- Verilog HDL、VHDL
- 1980年代後半ぐらい
- もともと論理シミュレータでHWの振舞い、論理回路を記述するための言語
- SynopsysがRTLの論理合成の入力用途に流用
RTL:Register Transfer Level
- Register(記憶素子)と組合せ論理回路の抽象度で論理回路を表現
深層学習を用いた広告クリエイティブ評価予測について
広告の見出しからのアクセス度合いの評価の発表をしていた。入力されるデータとしてニュース記事のタイトルおよび説明文章である。そして、読者のGender、Genreを入力した。出力として、CV、ClickのMulti-task Learningであり、Conditional attention、Attention highlightingを重要なキーワードとしている。その後、Gunosy様独自のデータセットを利用して、男性、女性、男女問わずの3種に分けてどのワードに過剰に反応したかの評価が示されました。
インターン生(おそらく)の発表であったために企業のデータセットを利用して、どのような評価を出すことができたという発表だけで終わったと思われる。インターン生にも積極的に企業のデータに触れさせてやりたいことをさせる企業は、個人的に大賛成です。大企業になりすぎると、やることが決まりすぎていて面接とかでは個性とかを問うわりには型にハマったことをここからやらせてしまうかといった印象があります。
人型AIエージェント(VHA)によるコミュニケーション創出と行動誘発に関する実証実験報告
ユーザインタフェースの進化として昨今ではスマートスピーカが導入されていますが、数年後では人型のアンドロイドが導入されるだろうと推測されていました。すでに導入されている人型インタフェースの例として、大垣共立銀行(日本)、JR案内AIプロジェクト(日本)、AIニュースキャスター(中国)、人型AIアシスタント(アメリカ)があります。関連研究として、人型インタフェースの方が内容理解や反応が優れていた研究報告や10代ASD患者に対するコミュニケーションスキル向上に寄与したというものが挙げられていた。そして、以下の仮説を証明するために実験をしたようである。
- 人間に近い姿や振舞いを持つことで、能動的に話しかけても受け入れることができ、ユーザの行動を変えるきっかけを生む
- 会話の中でユーザに自然に有用な情報を与える。例えば街の魅力を伝え、地元愛の向上に寄与する
そして、検証項目は
- コミュニケーションの創出数
- コミュニケーションの成立可否や内容評価
- コミュニケーションによるユーザの行動変容数
- VHAの社会受容性や利便性、印象の評価
(*VHAの評価は、視覚や聴覚、感情、知能などの感覚を持つ仮想的なキャラクターで、人間が思うように考えコミュニケーションする)
実証実験に最適な対象場所を選定するために、エスノグラフィーを実施。そして、エスノグラフィーの結果を踏まえつつ、仮説検証に最適なコミュニケーションデザイン実施。それぞれのStepとして、
[Step1]人間固有のノンバーバルコミュニケーションや呼びかけで会話のきっかけを作る
[Step2]自然に会話をリードし、楽しく情報提供ができる手段としてクイズ形式の会話を提案
[Step3]ユーザに対して、対価となるインセンティブ情報と共に行動変容を伝える
検証結果
VHAが顔を認識し挨拶した数:287回
コミュニケーション創出数 挨拶への応答:144回(50.2%)
コミュニケーション成立数 クイズの参加率:104回(36.2%)
(記念撮影の参加率:57回(19.9%))
行動変容数 得点を受け取り 67組(23.34%)
アンケートによる考察は、男女比は半々、年齢は10代未満・10代と30代が多い。そして、第一印象は「面白い」、「楽しい」、「かわいい」とポジティブな印象。「怖い」という印象もあった。
まとめとして、実証を通して、現状の技術課題も抽出することができた。
(1)コミュニケーションの柔軟性
今回、実証実験中に人とのコミュニケーションの様子を見て、会話のスピードやセリフを最適化
人間であれば、会話が成立しなかった場合に自発的に対応するが、AIでは裏で人手による支援が必要
(2)音声認識
バックグラウンドの騒音レベル、ユーザのマイクへの距離、発音(子供など)等により認識ができなかったことが多かった。
今後に向けて、好みの容姿、性格をした専用の人型AIエージェントがスマホに欲しいと意見が集まったそうです。
最後のアンケートの結果を見ると、著者の好きな「イヴの時間」といった映画が世に望まれているのではといった印象を受けてしまいますが、ありうる未来なんでしょうね。しかし、あそこまでの感情を持たせるとなると対人間の感情極性分析の技術の発展を望むしかないのでしょうかね。
AIによるアニメ生成の挑戦
構造的生成学習をすることで、従来課題を解決し、多様なキャラクター・アニメ生成、中割生成を実現。今回、2つの課題に取り組んでいる。
- アニメ生成・・・全身のような複雑な構造の画像生成が困難だった
- アニメ中割・・・構造変化の大きい画像間の中割(補完生成)が困難だった
この2つの課題を解決するためにGANを利用した構造的生成学習を行った。
まず、アニメ生成に関してはゲーム内で着せ替えなどができるアバターの体全体の自動生成を目的としている。提案手法として、PSGAN(Progressive Structure-conditional GANs: https://arxiv.org/abs/1809.01890 )を使用し、構造と画像生成を同時に学習させることで複雑な構造の生成学習を安定化することがなった。これにより、4*4レベルの低解像度の構造・画像生成により、大きな全体構造を踏まえた生成を学習することができるそうである。
アニメ中割の入力に関してはゲーム内で着せ替えなどができるアバターの中間部分の生成を目的とした。こちらの提案手法はSPGAN(Structure-consistent Prediction GANs)により、Optical Flowに加え、構造情報も利用したマルチタスク学習モデルとなった。Local DiscriminatorとTemporal Discriminatorで詳細生成・画像系列としての生成品質を向上させた。定量評価として、Deep Voxel Flowと比較しており、PSNR(24.27)、SSIM(0.9407)と共に向上していることを示していた。
昨今のGANの発展はめざましいですね。このまま発展が続いていけばインスタ映えな写真も自動生成することができてしまい、現在問題視されているタピオカのゴミ問題とかも間接的に解決してくれるかもですね。
VTuber向け特殊表情コントローラの可能性と機械学習的アプローチ
アバターとボイチェンのプログラミング系e-Learning講義への利用と評価手法やVTuberと触覚エンタテインメントの紹介あり。そして、REALITY(https://le.wrightflyer.net/reality/ )の紹介、そしてフランスEISKO社Startup"Polywink"機械学習と人力によりアップロード後24時間でiPhoneX用 52Blendshapesを生成してくれるサービスの紹介から特殊表情に関してPKSHA Technology社とのコラボレーション研究として、一人の演者に15表情の演技をしてもらう(8テイク/表情)、録画データをPKSHA表情認識モジュールで学習・評価した。機械学習を使った分類機の評価として、Frame by Frame Prediction と Multi-Frame Predictionの2つを用いた。
- Frame by Frame Prediction
- フレーム単位で学習する
- 誤差逆伝播法でMobileNetのパラメータを更新していく
- Multi-Frame Prediction
- 隣接複数フレームを用いて推論する
- 一般表情認識モデルを用いて特徴量を抽出した後、全ての特徴量を結合して最終出力を得る
- MobileNetのパラメータはfreezeさせる(学習させない)
評価方法
- 収録データ8テイク使用
- 各テイクの特徴
- Take6:遠距離で撮影
- Take7:通常(Take1-5と同様の向きと距離で撮影)
- Take8:斜めから撮影
- 以下の3パターンで評価
- Take6を推論・それ以外を学習
- Take7を推論・それ以外を学習
- Take8を推論・それ以外を学習
- 各テイクの特徴
類似クラスの統合も行っている。
評価結果
- メトリックはF-measure(precisionとrecallの調和平均)
- frame by frame で62.83%の精度を達成
- 分類クラスを削減すると精度が向上する
- 撮影条件が変わると精度が大きく下がる
- multi-frameによる予測は精度が出なかった
他にも、音声を組み合わせた学習、クラスの統合、ルールベースの組み合わせといった手法も検討したようである。
また、このカンファレンスに関する投稿が著作権等でアウトな場合はお教えください、すぐに記事を削除致します。
発表した方で伝えたかったことが書かれていないといった場合でも教えていただけたら追記・修正致します。