Edited at

JDLA Deep Learning for GENRAL 2017(G検定)推薦図書まとめ

More than 1 year has passed since last update.


この記事について

2017年12月に、日本ディープラーニング協会によって 「JDLA Deep Learning for GENRAL 2017」(G検定)が開催されました。

G検定についてはこちらの記事にわかりやすくまとまっています。

:paperclip: ディープラーニング検定 for GENRALを受けた。受験の勧めと、勉強法

この記事は、その学習にあたって推薦図書3冊から重要と思われるポイントを抜き出して要約したものです。

以下のセクションは試験のシラバスに沿って構成しています。

出題に関わる内容全てを網羅しているわけではありませんが、次回開催に向けて学習の手引になれば幸いです。

※補足

日本ディープラーニング協会よりG検定の結果が発表されています。

合格率は56.8%で、私も合格できました。なのでこのまとめもある程度は参考になるはず…たぶん!


人工知能(AI)とは(人工知能の定義)

「人工的につくられた人間のような知能、ないしはそれをつくる技術」(松尾豊)

人工知能という言葉が初めて登場したのは1956年に米国東部のダートマスで開催されたワークショップ。

ジョン・マッカーシー、マービン・ミンスキー、アレン・ニューウェル、ハーバート・サイモンらも参加し、世界初の人工知能プログラムといわれる「ロジック・セオリスト」のデモンストレーションが行われた。

:white_check_mark: ELIZA

1964年に開発された、コンピュータと人がテキストデータをやりとりして、あたかも「対話」しているように見えるシステム。

:white_check_mark: SHRDLU

1970年にスタンフォード大学のテリー・ウィノグラードが開発したシステムで、「積み木の世界」に存在するさまざまな物体を、英語で指示して動かすことができた。

「積み木の世界」の中だけとはいえ、言葉を正しく理解することができるシステムであり、人工知能の大きな成功例とされた。


人工知能をめぐる動向


探索・推論

:white_check_mark: 探索

探索木を使って問題(例として迷路やハノイの塔など)を解く方法。

主に「深さ優先探索」「幅優先探索」といった方法がある。

:white_check_mark: 推論

人間の思考過程を記号で表現し実行するもの。

単純な探索・推論だけでなく、よりよい特徴量が発見された機械学習の適用や、スコアの評価にモンテカルロ法が導入されたことにより、コンピュータがチェスや将棋で人間に勝利を飾ることとなった。

時期
主な出来事

1997年
IBM「DeepBlue」がチェスの世界チャンピオンに勝利

2012年
「ボンクラーズ」が永世棋聖に勝利

2013年
「ponanza」が現役プロ棋士に勝利


知識表現

人間なら誰でも知っているような知識をどのように表現すれば、コンピュータが処理しやすい形になるのか、という研究テーマ。

:white_check_mark: 意味ネットワーク

人間が意味を記憶するときの構造を表すためのモデル(の研究)。

概念をノードで表し、ノード同士をリンクで結び、ネットワーク化して表現する。

:white_check_mark: オントロジー

「概念化の明示的な仕様」と定義される。


  • ヘビーウェイト・オントロジー

    「人間がきちんと考えて知識を記述していくにはどうしたらよいか」を考える研究。

  • ライトウェイト・オントロジー

    「コンピュータにデータを読み込ませて自動で概念間の関係を見つけよう」という研究。

ライトウェイト・オントロジーの代表的なものがIBM「Watson」である。

Wikipediaの記述をもとにライトウェイト・オントロジーを生成して、それを回答に使っている。

2011年にクイズ番組に出演し、歴代のチャンピオンと対戦して勝利した。

:white_check_mark: エキスパートシステム

ある専門分野の知識を取り込み、推論を行うことで、その分野のエキスパート(専門家)のように振る舞うシステム。

1970年代初めにスタンフォード大学で開発されたMYCINが有名


機械学習

機械学習は「教師あり学習」、「教師なし学習」、「強化学習」の枠組みで捉えられる。

強化学習の課題と最近の動向

:white_check_mark: 学習時間

やさしいタスクからの学習(Learning from Easy Missions; LEM)を設定することで、探索時間を圧縮可能である。

:white_check_mark: 状態行動空間

理想的な状態行動空間は実世界ではほとんどありえず、「クレジット割り当て問題」と呼ばれている。

状態行動空間を再帰的に定義する、連続の状態行動空間を線形関数近似により分割する、ベイズ推定の応用などが問題解消のための手法として提案されている。

:white_check_mark: スケールアップ

より複雑なタスクへの対応に向けて、階層構造化とマルチエージェント化が課題である。

逆強化学習、群強化学習、教科学習の関数近似にディープラーニングの技術を適用したDQN(Deep Q-Network)などが利用され始めている。


深層学習

多層のニューラルネットワーク。

「人工知能研究における50年来のブレークスルー」(松尾豊)と評されている。

:white_check_mark: 表現学習

データの特徴表現の学習方法。

機械学習の性能は、データの表現に大きく依存しており、従来は人間の知識や職人技により構築することが広く行われてきた。

:white_check_mark: IRSVRC

世界的な画像認識のコンペティション。

2012年に、ディープラーニングを用いたSuperVisonという手法が圧倒的な勝利を飾った。

開催年
代表的なネットワーク

2012年
トロント大学「AlexNet」(SuperVisionのネットワーク)

2014年
Google「GoogLeNet」
Inceptionモジュールというユニットの組を利用した。

2014年
オックスフォード大学「VGG」

2015年
Microsoft Research「ResNet」
残差学習という仕組みを取り入れ、人間の認識率を超えた。


人工知能分野の問題


トイプロブレム

迷路、パズル、チェスや将棋など、明確に定義されたルールの中で解を求める問題。

第一次AIブームにおいての人工知能は、非常に限定された状況でしか問題が解けなかった。

⇔リアルワールドプロブレム

現実世界の問題であり、実用的に社会で発生する問題。


フレーム問題

あるタスクを実行するのに「関係ある知識だけを取り出してそれを使う」という、人間ならごく当たり前にやっている作業がコンピュータにとっていかに難しいかを表している。

もともとは人工知能の大家の一人、ジョン・マッカーシーの議論から。


弱いAI、強いAI

もともとは哲学者のジョン・サールが言ったもの。

:white_check_mark: 強いAI

「正しい入力と出力を備え、適切にプログラムされたコンピュータは、人間が心を持つのとまったく同じ意味で、心を持つ」とする立場。

:white_check_mark: 弱いAI

「心を持つ必要はなく、限定された知能によって一見知的な問題解決が行えればよい」とする立場。

:white_check_mark: 汎用AI(AGI)

人間のように十分に広範な適用範囲と強力な汎化能力を持ち、多種多様な問題を解決することが可能なAI。


  • 単に特化型AIの寄せ集めではない

  • 最初から何でもできる知能ではない

  • タブラ・ラサ(白紙)から学習するのではない

  • 意識の有無は考慮しない(評価が困難)

AIの基本課題としては、汎用性、現実的な時間内での問題解決、少数データへの対応、演繹推論が着目されている。

:white_check_mark: 中国語の部屋

中国語がわからない人が膨大なマニュアルに従って入力された文字を確認し、決められた返答を出力することによって会話が成立したように見えても、その人は中国語を理解していないではないかという議論。

弱いAIの引き合いと出される。


身体性

「行動体と環境との相互作用を身体が規定すること、及びその内容。環境相互作用に構造を与え、認知や行動を形成する基盤となる」

不可分性・学習可能性・発達可能性といった性質をもたらす。

要するに、「外界と相互作用できる身体がないと概念はとらえきれない」というアプローチ。


シンボルグラウンディング問題

認知科学者のスティーブン・ハルナッドにより議論されたもの。

記号(文字列、言葉)をそれが意味するものと結びつけられるかどうか、コンピュータは記号の意味がわかっていないので結びつけることができないという問題。


特徴量設計

従来の機械学習では、何を特徴(あるいは素性)とするかは人間が決める必要があった。

=特徴量設計、フィーチャーエンジニアリング(Feature engineering)

コンピュータが与えられたデータから注目すべき特徴を見つけ、その特徴の程度を表す「特徴量」を得ることができればこの問題を解消できる。

ディープラーニングによって、コンピュータが「特徴量」を生成する方法ができつつある。


チューリングテスト

1950年にアラン・チューリングの論文の中で書かれた、ある機械が知的かどうか(人工知能であるか)を判定するためのテスト。

人間とコンピュータが同時にテスターと会話し、テストをする人がどちらが人間でどちらがコンピュータか分からなければ知的であるとする。

これを知能とみなすかについて議論の種となっている。


シンギュラリティ

今世紀半ば頃には、AIは人間個人の知能全般を凌駕し、我々の生活を支える生産者とその管理者の役割をおおむね担うと予測されている。

一度人間レベルのAIが作られれば、それ自身を使って新たなAIを設計・製造(再帰的自己改修)することが可能になる。

その際には生物の進化とは比較にならない速度で自己再帰的に発展し、人類がこれまで行ってきたペースに比べると格段に早い速度で、知を蓄積することができる。

この大きな変化は、しばしば「技術的特異点」(Technological Singularity)と呼ばれる。


機械学習の具体的手法


代表的な手法

:white_check_mark: 教師あり学習

正しい入出力の組み合わせを与えられて行う学習。

:white_check_mark: 教師なし学習

入力パターンを分類したり、抽象化したりする学習。主成分分析、次元圧縮など。

:white_check_mark: 強化学習

最終結果もしくは途中経過に対してどの程度良かったかを示す「報酬信号」に基づき、これらの報酬をなるべく大きくするように探索する学習。

:white_check_mark: 半教師あり学習

正解ラベルが一部のサンプルにのみ与えられている学習データを用いることで、教師なし学習における分類の精度を上げる手法。


データの扱い

:white_check_mark: 問題の種類

種類
概要

回帰
主に連続値をとる関数を対象に、訓練データをよく再現するような関数を定める問題。

二値分類
入力を内容に応じて2種類に区別する問題。

多クラス分類
入力を内容に応じて有限個のクラスに分類する問題。

:white_check_mark: 分類問題の性能指標

サンプルを陽性(Positive)と陰性(Negative)の2クラスに分ける2値分類を考える時、関連する指標は次の通り。

指標
概要

正答率
サンプル全体のうち、予測が正解したサンプル数の比。

再現率(真陽性率)
陽性のみでみた正答率。

特異度(真陰性率)
陰性のみでみた正答率。

適合率
陽性と分類された中で、実際に陽性である確率。

偽陽性率
陰性に対して陽性と分類される確率。⇔適合率

偽陰性率
陽性に対して陰性と分類される確率。⇔再現率

F値
再現率と適合率の調和平均。


応用

代表的な分類方法

:white_check_mark: 最近傍法

一番近いデータのカテゴリが当てはまる確率が高いはずだという仮設に基づき、「一番近い隣を使う」方法。

:white_check_mark: ナイーブベイズ法

「ベイズの定理」を使って分ける方法。スパムフィルタなどで実用化されている。

:white_check_mark: 決定木

分類条件のツリーを自動的につくる方法。

:white_check_mark: サポートベクターマシン

カテゴリ間のマージン(余白)を最大にするように分ける方法。

:white_check_mark: ニューラルネットワーク

人間の脳神経回路をまねすることによって分けようという方法。


ディープラーニングの概要


ニューラルネットワークとディープラーニング

ニューラルネットワークの研究は1940年代に開始された。

80年代半ばから90年代前半にかけて、誤差逆伝播法の発明をきっかけとして研究は大きな広がりを見せた。

しかし、勾配消失問題により多層ネットワークの学習が困難であったこと、学習のためのパラメータをどのように決めたらよいかの理論がなかったことから90年代後半にはブームは収束した。

ただしこの時代においてもCNN(畳み込みニューラルネット)は5層からなるネットワークの学習に成功していた。

その後、2006年にトロント大学のヒントンらがDBN(ディープビリーフネットワーク)の研究論文でRBM(制約ボルツマンマシン)による事前学習(目的とするネットワークの学習前、層ごとに学習を行う手法)により多層ネットワークの学習がうまく行えることを実証して見せたことがブレークスルーとなり、深層学習(ディープラーニング)の有効性が広く認知されるようになった。


既存のニューラルネットワークにおける問題

:white_check_mark: 勾配消失問題

誤差逆伝播法における誤差勾配の計算を繰り返すことで、各層の重みが大きいとパラメータが急速に発散する(大きくなる)、また重みが小さいと急速に消失する(0に近づく)事象を勾配消失問題と呼ぶ。

いずれの場合も重みの更新がうまくできなくなり、ネットワークが学習データのみに最適化される過学習(過適合)が起こりやすくなるなど、学習が困難になる。

:white_check_mark: 計算能力の問題

現実の問題は複雑であり、これを解くにはその複雑さに見合う規模のニューラルネットワークが必要であった。そして、大きなネットワークが過学習を起こさず学習できるためには、一定以上の規模のデータを要する。

現代ではウェブを始めとするインフラが整っており、十分な量のデータを集めることができる。同様に、GPUやマルチコア化されたCPU、さらにその集合体であるPCクラスタに見られるように、計算機の計算能力は飛躍的に向上している。


ディープラーニングのアプローチ

:white_check_mark: 確率的勾配降下法

ニューラルネットワークの学習とは、誤差が最小となる誤差関数を求めることである。その計算のために誤差関数の傾き(勾配)を用いる方法。

勾配降下法(バッチ学習)がデータを一括で学習するのに対し、確率的勾配降下法ではデータを個別に逐次学習する。(計算量の問題から、少数のデータをまとめた「ミニバッチ」を利用するのが一般的)

確率的勾配降下法には、比較的過学習が起こりにくい他、学習の途中経過をより細かく監視できる点や、データ収集と学習を並行で行える点などのメリットがあり、深層学習ではより一般的である。

:white_check_mark: 誤差逆伝播法(バックプロパゲーション)

勾配計算は複雑であり、そのままでは計算量が問題となる。そこで考えられたのが、入力層から出力層への順方向と逆の向きでパラメータを求める誤差逆伝播法である。

順伝播と逆伝播によって、勾配降下法のアルゴリズムは完成した。

:white_check_mark: ボルツマンマシン

ボルツマンマシンは、ユニット間結合が双方向性を持つニューラルネットワークであり、一般にデータの生成モデルとして利用される。

ユニットを可視ユニット、隠れユニットとし、可視ユニット同士や隠れユニット同士での結合をもたないようにしたものがRBM(制約ボルツマンマシン)である。RBMは自己符号化器とよく似た働きをすることが知られている。

:white_check_mark: 自己符号化器

自己符号化器は、入力に対し計算される出力が、入力になるべく近くなるように学習されるニューラルネットワークである。

教師なし学習により、データをよく表す特徴を獲得し、ひいてはデータのよい表現方法を得ることができる。

RBMとよく似た働きをするが、より単純であることから一般的に多層ネットワークの事前学習には自己符号化器が用いられる。


CPU と GPU

機械学習では、大量のデータをメモリにロードし、反復しながら精度を高めていく計算が必要であるため、計算性能が重要視される。

ディープラーニングの計算には、現状ではGPUを利用することが一般的である。

GPUはCPUと比して複雑な分岐処理などの性能には劣るが、大量のデータに対して同一の演算を行う並列性の高い処理については、同時代のCPUの5〜10倍の性能を示す。

しかしながら、いくつかのメーカーがディープラーニングに向いた、あるいはディープラーニングに特化したクラウドスーパーコンピュータ向けの大規模チップを研究開発している。

これらにより、GPUの寡占状態が改まり、競争によって更なる技術革新が起こることが期待されている。


ディープラーニングにおけるデータ量

ウェブの普及と拡大、SNSやIoTの登場によりデータ/知識量は増大しつつあり、ビッグデータ時代となった。

一方で、ディープラーニングの使用に際して実用面から注意すべき点としては、

(1) 高性能は達成できるが学習に従来以上の大量訓練データが必要になること。

(2) 判定の過程がブラックボックス的で人間には理解できず、修正が必要になる場合にどこを修正すればよいか分からないことが多い(訓練データを追加して修正しなければならない)

といった点が指摘されている。

:white_check_mark: inked Open Data(LOD)

セマンティックウェブ研究でつくられた技術をデータの表現に利用したもの。

グローバルに知識(データセット)を共有する仕組み。


ディープラーニングの手法


活性化関数

ニューラルネットワークのユニットにおいて、出力をどのように活性化するかを表す関数を活性化関数と呼ぶ。

様々なものがあるが、概ね問題の種類によって適当なものが選ばれる。

また、ネットワークが表す関数と学習データの近さを評価するための関数を誤差関数と呼び、同じく問題の種類によって選ばれる。

問題の種類
活性化関数
誤差関数

回帰
恒等写像
二乗誤差

二値分類
ロジスティック関数
最尤推定をベースとした誤差関数

多クラス分類 
ソフトマックス関数
交差エントロピー


学習率の最適化

過学習の緩和

:white_check_mark: 重みの制約

重みとは、ニューラルネットワークのユニットにおいて、入力の増幅や減衰を行う係数である。

ニューラルネットワークの自由度(主に重みの数)が高いほど、過学習が起こる確率が大きくなるといえる。

そこで、学習時に重みの自由度を制約することによって、過学習を緩和しようとする方法が提案されている。

重みを自身の大きさに比例した速さで常に減衰させる方法を重み減衰、重みの大きさの上限を制約する方法を重み上限と呼ぶ。

:white_check_mark: ドロップアウト

多層ネットワークのユニットを確率的に選別して学習する方法。

RBMや自己符号化器の学習にも効果があり、自動的にスパースな特徴が学習されるようになる。

パラメータの決め方

:white_check_mark: AdaGrad

パラメータの更新量に大きさに影響する学習係数を自動的に定める方法。その有効性から一般的になりつつある。

:white_check_mark: モメンタム

重みの修正量に、前回の重みの修正量のいくばくかを加算し、収束性能を向上する方法。

:white_check_mark: サンプルの順序

ミニバッチを使う場合に、学習を効率的に進めるため、いまだよく学習されていないサンプルから順に与える方法。

ただし、多層ネットワークを対象とするケースでは、サンプルが偏らないようにミニバッチを作り、それを決まった順序で繰り返しネットワークに与えることがが多い。


更なるテクニック

:white_check_mark: データの正則化

学習データが偏りを含む場合、それが学習の妨げになることを防ぐための前処理。

同様の前処理に、学習データの相関をなくす白色化がある。

:white_check_mark: データ拡張

学習データが不足している場合に、データに何らかの加工を施し、量を水増しする方法。

画像データでは、画像を反転、回転や色相の変更などを行う。

:white_check_mark: 複数ネットの平均

複数複数の異なるニューラルネットワークを組み合わせて解(モデル平均)を求める方法。

一般に推定精度を向上できるとされる。


CNN

CNN(畳込みニューラルネット)は、主に画像認識に応用されるネットワークであり、畳み込み層で畳み込み処理を行うことにより、画像全体に対して、一定範囲ごとに入力の特徴量が抽出されることが特長である。

1980年代に福島邦彦によって提唱されたモデル「ネオコグニトロン」を基礎とし、ニューヨーク大学のヤン・ルカンらが学習手法として誤差逆伝播法を用いたモデルが現在のCNNの基本となっている。

2012年トロント大学「AlexNet」や、2014年「VGG」も、これらのアーキテクチャを踏襲している。


RNN

RNN(再帰型ニューラルネット)は、音声や言語、動画といった系列データを扱うネットワークであり、隠れ層で過去の情報を保持し、文字の並びから意味を抽出できることが特長である。

:white_check_mark: LSTM

RNNでは勾配消失問題と同じ原因により長い系列を扱えず、出力に反映できるのは過去の10時刻分程度であるといわれている。この問題を踏まえ、長期にわたる記憶を実現するためのモデルがLSTM(Long Short-Term Memory)である。

LSTMは基本的なRNNに対し、中間層の各ユニットを入力・出力ゲートおよびメモリセル、忘却ゲートを備えたメモリユニットで置き換えた構造を持つ。


深層強化学習

ディープラーニングと強化学習を組み合わせた手法で、Google DeepMindが開発したAlphaGoなどに利用されている技術。

現在の状態から次の行動を決める方策(Policy)、状態や行動の価値を予測する価値関数(V-function、Q-function)をニューラルネットで表現してパラメータを学習する手法。


深層生成モデル

未知のデータを分類するにあたって、それを識別するためのモデルを識別モデルと呼ぶ。

一方、データが生成される確率分布を推定するモデルを生成モデルと呼ぶ。

特に多層ニューラルネットワークを用いた生成モデルを深層生成モデルという。

深層生成モデルではVAE(変分自己符号化器)GAN(生成敵対ネットワーク)という手法が注目を集めており、この手法を用いれば、未知の画像を生成することができる。


ディープラーニングの研究分野


画像認識

ディープラーニングが最も成果を挙げている取組の一つが画像認識である。

:white_check_mark: クラス分類

物体クラス分類課題を含む、ILSVRC2015の様々な部門において、「ResNet」がトップの成績を獲得した。

ResNetは、出力と入力を入力からの差分の和でモデル化したネットワークである。この構造によって、かなり深い構造でも適切に学習が可能となった。

:white_check_mark: 物体検出

画像内の物体を取り囲むボックスを推定するタスク。

ディープラーニングを利用した物体検出の例として「R-CNN」がある。R-CNNでは、選択的検索法から得られる物体領域候補内の画像を、事前に学習しておいたCNNに入力し、この領域の画像特徴を抽出する。

:white_check_mark: 物体セグメンテーション

画像内の物体を取り囲むボックスではなく、対象物体と背景を境界まで詳細に切り分けるタスク。

ディープラーニングを利用した代表的な手法として、「FCN」がある。

:white_check_mark: 画像キャプション生成

画像から自然言語で記述されたキャプションを生成するタスク。

基本的なキャプション生成の流れは、画像をCNNに入力し、CNNから得られた画像特徴を、LSTMに入力する。LSTMは事前に生成した単語を考慮しながら単語を次々と生成していき、最終的な文章を作り出す。

:white_check_mark: 画像生成

いま最も利用されている画像生成手法はGANを利用している。

2015年以降、Googleが「Deep Dream」「Deep Style」といったシステムを開発し、大きな話題となった。


自然言語処理

自然言語処理でもAIの他分野と同様にディープラーニングを利用する研究が目立ち、これまではSVN(Support Vector Machine)やCRF(Conditional Random Field)を用いるのがスタンダートであったものが、FFNN(フィードフォワードニューラルネットワーク)やRNNに置き換わりつつある。

ただし、ディープラーニングを利用することによる成果は、今のところ様々である。

機械翻訳や画像キャプション生成のように大幅な性能向上が達成されているもの、構文解析や意味解析のように精度向上は見られるものの基本的な手法はあまり変わらないもの、文脈解析や常識推論など現在のアプローチでは実用的な精度は見込めないものなどがある。

自然言語処理における分散表現に関する研究では、Googleのトマス・ミコロフによって提案された「Word2Vec」により、大規模コーパスから単語の表現学習が効果的に行えることが示された。

Googleが2016年に発表した機械翻訳システム「GNMT」(Google Neural Machine Translation)は、RNNLM (再帰型ニューラルネットワーク言語モデル)およびエンコーダ・デコーダモデルを応用したものである。


音声処理

音声認識においてニューラルネットワークを用いる研究は1990年代初頭に活発に行われたが、その後は混合正規分布(Gaussian Mixture Model; GMM)に基づく隠れマルコフモデル(Hidden Markov Model; HMM)が一般的となった。

これに対して、2010年頃にヒントンらがディープラーニングにより一般的な音素認識タスクで驚くべき性能を挙げた。

その後MicrosoftやIBM、Googleなどの研究者らにより、種々の大語彙連続音声認識でも大きな改善が得られることが示された。

音声認識は、ディープラーニングが最初に成功を収めたタスクの一つである。


ロボティクス (強化学習)

ディープラーニングは、階層的な特徴量の学習により、「ほとんど同様の枠組みで多様なモダリティ(感覚)を扱える」という特長をもち、ロボット学習への応用が盛んに行われている。

:white_check_mark: ロボットビジョン

ロボットビジョンはディープラーニングが最初に導入された応用分野である。

ジェヨン・スンらは、ディープラーニングにより対象物の距離画像から把持ベクトルを出力させる手法を提案している。

ジョセフ・レドモンらは、三次元画像からCNNを利用し把持ベクトルの予測を行っている。

:white_check_mark: 動作学習(End to End Learning)

ディープラーニングの重要な方法論の一つに、入力から出力までを一つのネットワークとして表現し、全体を学習してしまう「End to End Learnning」がある。

ロボットの動作学習の場合には、入手可能な高次の入力データ(画像や映像)から、必要な高次の出力(複数の関節時系列出力)を直接得るという発想となる。この方法論を適用することで、実際に実行可能な動作の学習が可能となる。

:white_check_mark: 言語学習

画像や映像からのキャプション生成など、ディープラーニングによる言語とほかのモダリティ(感覚)との統合手法はロボットにも応用可能である。

この視点から、ディープラーニングによるロボットの動作に関する言語の利用や認識に関する試みもいくつか報告されている。


マルチモーダル

複数の感覚データを組み合わせることをマルチモーダルと表現する。

本来、視覚と聴覚、触覚はデータの種類としてまったく異なるが、脳ではデータの種類に依存せず、同じ機構で処理が行われている。

ディープラーニングでも、さまざまなデータに対して同じような手法が適用できることを期待されている。

:white_check_mark: 転移学習

ある領域で学習させたモデルを、別の領域に適応させる技術。

これにより、広くデータが取得できる領域で学習したモデルを、データの収集が困難な別の領域に適応させるといったことが可能となる。


ディープラーニングの応用に向けて


産業への応用

:white_check_mark: ディープラーニングをベースとするAIの技術進展予測


  1. 画像認識の精度向上

  2. 行動予測・異常検知

  3. 環境変化にロバストな自律的行動

  4. 文脈に合わせて「優しく触る」「持ち上げる」技術

  5. 言語理解

  6. 大規模知識理解

:white_check_mark: 画像認識


  • 走行環境の認識

    「完全自動走行」の実現に向けた取組が進められている。

  • 医用画像の認識

    がんや骨折などの診断に利用されている。

  • その他

    防犯、調査効率化など。

:white_check_mark: 音声・言語認識


  • 音声認識・対話

    音声でモバイル端末を操作する機能として利用されている。

  • 機械翻訳

    GNTM(Google Neural Machine Translation)など。

  • 文章生成

    報道記事の生成やウェブサービスのコンテンツ管理等に利用され始めている。

:white_check_mark: 運動の習熟

深層強化学習によりロボットや機械の動作(運動)を習熟させる研究開発が始まっている。

隠れた物体の検出や状態推定、形状が可変や不定な物体を検出することが実現出来ていないなどの課題が挙げられている。

また、複数のアクチュエータの精緻な制御など、ハードウェア側の制約も大きな課題とされている。

無限の事象が存在する実空間の課題に適応した高度な技術に至るには、更なる研究開発が必要と考えられる。

:white_check_mark: 言語の意味理解

ディープラーニングにより抽出した高次の特徴量を言語と紐付けることで、今後、言語の意味理解の高度化やそれによる知識獲得への発展も期待されており、産業応用が進むことが予想される。


法律

:white_check_mark: AI制作物の著作権保護

利用者に創作的寄与等が認められれば、「AIを道具として利用した創作」と整理できる。=著作権が発生する

利用者が(創作的寄与が認められないような)簡単な指示を入力した結果、出力された生成物はAIが自律的に生成した「AI創作物」であると整理できる。=現行法制度上は著作権が発生しない

実際には「創作的寄与」、「簡単な指示」の範囲が明らかでないため、今後の事例の積み重ねの中で、社会的な合意が図られていくものと考えられる。

諸外国においても、著作物とはあくまで人間によって創作されたものであることが前提とされている。ただし英国著作権法は、人間が関与しない「コンピュータ創作物」について著作権による保護を認めている。

:white_check_mark: AI生成物の特許保護

現行の特許法は発明者が自然人であることが前提であることから、AI生成物は保護の対象とならないとしている。

また今後、AI技術の進歩とともに変化し得る創作への人の寄与を継続的に調査し、保護すべき創作と、それに必要な人の関与について、改めて検討する必要があると考えられるとしている。

:white_check_mark: 学習済みモデルの保護

学習済みモデルが特許法上で「プログラム等」に該当するならば、特許法の要件(進歩性など)を満たす場合には保護されるとされている。

著作物著作物や発明に該当しない場合でも、不正競争防止法上の要件を満たす場合には、「営業秘密」として保護されるとされている。

学習済みモデルにデータの入出力を繰り返すことで得られる「蒸留モデル」は著作権による保護は困難である。(特許権による保護を受けれる可能性はある)

:white_check_mark: 情報解析の確保

インターネット上のデータ等の著作物を元に学習用データを作成・解析することは、営利目的の場合も含めて、著作権侵害には当たらないとされている。(著作権法47条の7)

しかしながら、現状では学習用データの一般への提供(公衆への送信)は難しいとの扱いになっている。

英国著作権法、著作権法改正案(ドイツ)、欧州指令案においても、テキスト及びデータ解析に関する権利制限規定が見られる。


倫理

AIの社会実装のリスクについて主要なAIのプレーヤーや政府機関等で盛んに議論が進められ、報告書、提言、ガイドラインが数多く公表されている。

:white_check_mark: 政府における取組


  • 総合科学技術・イノベーション会議 人工知能と人間社会に関する懇談会

  • 総務省 AIネットワーク化検討会議

  • (米国)「PREPARING FOR THE FUTURE OF ARTIFICIAL INTELLIGENCE」:倫理教育の必要性を論じている。

  • (米国)「THE NATIONAL ARTIFICIAL INTELLIGENCE RESEARCH AND DEVELOPMENT STRATEGIC PLAN」:研究透明性の確保に言及している。

  • (米国)「ARTIFICIAL INTELLIGENCE, AUTOMATION, AND THE ECONOMY」:AI普及による雇用への影響に言及している。

  • (英国)下院議会が倫理的・法的問題について検討・考察している。

  • (EU)「RoboLaw.欧州における新興技術規制:ロボット技術に対する法と倫理」と呼ばれるプロジェクトが行われた。

:white_check_mark: 民間における取組


  • 人工知能学会倫理委員会「人工知能学会 倫理指針」

  • (米国)AAAI「Presidential Panel on Long-Term AI Futures: 2008-2009 Study」

  • (米国)スタンフォード大学「AI100」

  • (英国)オックスフォード大学「The Future of Humanity Institute」

  • Partnership on Artificial Intelligence to Benefit People and Society:Facebook、Amazon、Alphabet(Google)、IBM、Microsoft、ソニーらが参画。

  • OpenAI:イーロン・マスク等が設立した非営利団体。

  • FLI(Future of Insitute)「ASILOMAR AI PRINCIPLES」:2,000名以上の研究者・実務者が賛同を表明しており、学会・産業界を通じた議論の土台となることが期待される。


現行の議論

:white_check_mark: 共有データセット・共有モデルに関する議論

知的財産戦略本部「新たな情報財検討委員会」

環境の整備と併せて以下の4点を実現し、民間企業からも一定のルールの下、共有データセットへの自社データの公開が可能で、データを公開した民間企業も利益を得ることができるような仕組みがあると望ましいとの議論がなされている。


  1. 日本独自の言語、風土や文化を中心とした共有データセットを作り、企業や研究者が利用できる環境の整備

  2. 上記のデータセットを学習した共有モデルを頒布できる環境の整備

  3. 分散学習を可能とするような国内で取得されたビッグデータの集積基地としての環境の整備

  4. 共有モデルや共有データセットにおいて特定のフレームワークに限定されることなく相互運用可能なニューラルネットワークのデータ構造の検討

:white_check_mark: AI生成物に関する新たな法的保護についての議論

AI生成物について、著作隣接権等の特別な権利(Sui genneris)を新たに付与することや、不正挙そう防止法による保護を与えるべきではないかという議論がある。

情報について新たな独占を認めることとなる点をはじめ、様々な問題が指摘されている。

:white_check_mark: 機械学学習を促進する権利制限規定の見直しについての議論

インターネット上のデータ等の著作物を元に学習用データを作成・解析することは、営利目的の場合も含めて、著作権侵害には当たらないとする規定(著作権法47条の7)は、もともと機械学習を想定していないため、より機械学習の促進に資するように見直すべきではないかとの議論がある。

:white_check_mark: 倫理に関する国際的な枠組みでの議論

IEEEが、AIを人間の倫理的価値に沿ったものにするための指針を包括的に検討・公開し、パブリックコメントを募集した。業界標準となりうる取組であり、原則論と技術的対応を包括したものとして注目される。

OECD(経済産業省 経済協力開発機構)では、デジタル化によって生じる便益と課題洗い出しのプロジェクトを組成し、以下の課題の検討を予定している。


  • 経済経済と社会の非中央化・中枢化への対応

  • デジタル化によって生じる職業の変化

  • 将来必要となるスキル・知識

  • デジタルイノベーション、規制、政治経済の変革

  • 生産性と包括的成長

  • デジタル化で生じる社会的・環境的問題

  • 実証的で評価の伴う政策への移行

:white_check_mark: 国内の政策動向

AIの研究研究開発に関して、「人工知能技術戦略会議」が創設され、研究開発目標と産業化のロードマップの策定等が行われている。

:white_check_mark: 海外の政策動向


  • 米国では、2016年に、AIに関わる研究開発戦略、社会的課題の整理・対応、経済的なインパクトの分析・対応の三つの包括的な報告書が発表された。

  • EUでは、欧州全体研究開発プログラムである「Horizon2020」の中で、AIが重要な要素として位置づけられている。

  • ドイツでは、国策である「Industry 4.0」で、AIが重要な要素として位置づけられている。

  • 中国では、2016年にAI推進3か年行動計画が策定され、市場創出と研究開発、環境整備がうたわれている。