DeepMind は どこに向かっているのか ? 〜 2017年の公開論文 を トピック別 に 並べて 俯瞰してみた

  • 110
    いいね
  • 0
    コメント

DeepMind社 が 公開した論文 の 技術的達成ポイント を 俯瞰 してみました。

同社 が 汎用人工知能の実現 に 向けて どこまで 歩みを進めているのか を 考える際 の 一助 となれば、幸い です。


それぞれの論文は、互いに異なるアルゴリズム(アーキテクチャ)で動くモデルであり、これらを統合して1つのモデルを作る事は容易ではないと思われます が

全体として、DeepMind社 は、以下の要求を満たす自律的 な エージェント を 実現させるため の 要素技術 を 実現しつつあることを見て取ること が できます。

( ただしあくまでも、個々のアルゴリズムを1つのエージェントのうちに統合する方法は、別途、考えなければなりません。 )


  • 周囲の物理環境 で 生じる 物事 の 因果関係(法則性) を 自ら理解し、
  • 周囲の物体の重さ や 色や形 の 相対関係を論理的 に 思考し、
  • 視覚イメージ と 対応付けられた 物の概念 を、人間の言葉と対応付けて 学び、
  • 手にした概念どうし を 関連付けて、センサで捉えたことがない新しい概念 を 抽象的な論理思考 で 想像(創造)できて、
  • 人間の身のこなし(身体動作) を チラ見するだけで(小量データだけで)見よう見まね で 模倣し、人間並みの自然な身体動作で 障害物を乗り越えたり、跳躍したりすること が でき、
  • 多様な状況に対応した柔軟な行動 を とること が でき、
  • 人間の言葉による 指示 を 理解して、言葉で指示された 目標 を 達成するため に、
  • 長期計画 を 立てて、息の長い 将来目標 を 追求できる

なお、


  • エージェントどうしの協調学習(コミュニケーションによって 知識 を 伝播する 意思疎通力) 
  • 複数の目標 を 同時に 追求する 能力

に ついては、DeepMind以外の企業や大学研究室 から、興味深い研究成果 が 公開されています。

DeepMindが公開した上記の機能を実現しうるアルゴリズム とあわせて、DeepMind社外で行われた 上記のトピックを追求する 研究成果 を 理解すること で、

私たちの目の前には、

より優れた汎用人工知能エージェント

を 設計・実装する方法( --- いかにこれらを統合するか? ) を 考える 地平(Frontier) が、開けています。


( トピック別 ) DeepMind社の研究成果

1. 単一モデルで複数のタスクを学習できる 汎用知性エージェント への第一歩


2. 概念形成能力 及び 概念間連結・想像能力


3. 人間の言葉による指示 を 理解して、指示された目標 を 実現させるよう 行動する 深層強化学習モデル


4. 観測データから、力学的因果関係を含む物体間の関係 を 読み取り、環境に働きかける能力

( 論文1 )

( 論文2 )

5. 観測データ から、物の重さ や 物理的状態(物の個数など) を 認識する 能力


6. 人間のような自然で柔軟な身のこなし(身体運動) を 行う 能力

( 論文1 )

深層強化学習モデル に、文脈(状況)の異なる 多様な環境 を 与えること で、障害物 を よけて走る、ジャンプする など、複雑な運動行動 を 深層強化学習モデル は 学びうること を 示した 論文。

以下の3つの手法 の 強み を 組み合わせた 「分散TRPOモデル」(distributed implementation of PPO) を 構築して、「文脈(状況)の異なる 多様な環境」 を 学ばせている。

  • trust region policy optimization (TRPO)
  • proximal policy optimization (PPO)
  • A3C

( 論文2 )

人間が身体を動かしている(わずかな量の)データ件数 を 模倣して、人間らしい身のこなし を 獲得する モデル

限られた少数のデータ から、人間味のある自然な身体動作(振る舞い) を 獲得できる 手法 として、

  • 逆強化学習と教科学習を組み合わせた模倣学習 を GANモデル と 関連する 方法 で 高速化した generative adversarial imitation learning モデル を、

  • 「生成的ニューラル行動価値関数」 generic neural network policies を 学習できるよう に 拡張した モデル

を 提案 している。

( 論文3 )

提案モデル は、

  • 少量データ から 広範で多様な振る舞い を 模倣学習

できる 強み を 持つ。


7. 長期の将来目標 を 長期計画 を 立てて 追求できる 強化学習モデル


DeepMind社以外の関連動向

University of Warsaw

複数の目標を同時 に、 適度な優先比率 で 追求する 強化学習モデル

Vicarious社

Imperial college (英国)

University of British Columbia & National University of Singapore

Duke Univ & Brown Univ.