22
18

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

【プライベート用】G検定勉強メモ

Last updated at Posted at 2021-11-06

1. 人工知能(AI)とは

初期のコンピュータに関する知識

名前 内容
エニアック(ENIAC) ・ENIACとは、Electronic Numeriacal Integrator and Computerの略で、電子計算機と名付けられていた
・第二次世界大戦中に暗号を解読するために研究開発されていた
チューリングマシン ・1930年代にアラン・チューニングが考えた自動計算機械の理論のことを指す
・自動計算機械とは、機械に自動的に計算を行わせるための理論
エニグマ(ENIGMA) ・ナチス・ドイツが用いていた暗号機(文章を暗号化する機械)
エドサック(EDSAC) ・1949年開発された初期のいぎりすのコンピュータ
・EDSACのハードウェア構成は今のコンピュータと相違ないもので、コンピュータの基礎となるようなものを作り上げていた

特化型AIの著名なソフト

名前 開発元 説明
SHRDLU テリー・ウィノグラード ・場合分けによって積み木の世界での対話処理を実現した
ELIZA ジョゼフ・ワイゲンバウム ・特定のルールに従って会話を行うチャットボット
・チューリングテストで30%の人間を誤らせた
PARRY ケネス・コルビー ・ELIZAと同時期に開発されたチャットボット
・ICCC 1972などでELIZAと会話した。
・会話記録はRFC439などが有名
MYCIN スタンフォード大学 ・エキスパートシステムを使って感染した細菌と有効な抗生物質を特定する
DENDRAL エドワード・ファイゲンバウム ・エキスパートシステムを使って未知の有機化合物を特定する
ディープ・ブルー IBM ・チェスで世界チャンピオンに勝利した
・手法としてモンテカルロ法(力任せの探索)を用いている
AlphaGo DeepMind ・2016年に囲碁で世界チャンピオンに勝利している
Ponanza 山本一成 ・2015・2016年に将棋でプロ棋士に勝利している
elmo 瀧澤誠 ・2017年にトップクラスであった将棋AI
Stockfish Romstad ・TCEC(Top Chess Engine Championship)で優勝したチェスAI

AIに関する様々な効果

名前 内容
AI効果 ・新しい技術が開発されてもその仕組みが浸透し原理が分かってしまうと、人工知能を「単なる自動化であって人工知能では無い」と考え始めること
ELIZA効果 ・意識的には分かっていても、無意識に的にコンピュータが人間と似た動機があるように感じてしまう現象

AIブーム

名前 時期 説明
第1次AIブーム 1950年代~1960年代 ・推論と探索のAIでブームになった
・1966年に開発されたELIZA(イライザ)がルールベースで作られたにも関わらずチューリングテストの審査員を欺いた
・後にELIZAはPARRY(パーリー)とも会話している
・推論と探索ではトイ・プロブレムしか解けずに衰退した
第2次AIブーム 1980年代 ・専門家の知識を定式化するエキスパートシステムがごく一部の領域で成果を出したことでブームとなった
・しかし、知識のボトルネックの問題で定式化が難しく複雑な問題に対応できなかったため衰退した
第3次AIブーム 2000年代~ ・ディープラーニングが成果を出し現在までに至るブームとなった
・勾配消失問題を解消しつつネットワークを多層化することで多彩な表現力を得たことがきっかけ
・特徴量を自動で抽出するという革新を初めて得た

AIの歴史

名前 内容
トイプロブレム ・1950〜1960年頃に流行った簡単な迷路などの問題を解く事ができるAI
シークレタリープロブレム ・秘書問題という名で知られている。最適化における問題。
エキスパートシステム ・1980年代ごろから専門家の「知識」を用いて質問に答えたり問題を解いたりするプログラム
セマンティックネットワーク ・意味ネットワークともいい、知識をネットワーク構造で表したものを指す。1980年代ごろから盛んに行われていた
ナレッジグラフ ・意味ネットワークの中でも、インターネット上などの雑多な情報から、半自動的に構築しているものを特にナレッジグラフという

AIのレベル

レベル 説明
レベル1 ・シンプルな制御プログラム
・ルールベース
レベル2 ・古典的な人工知能
・探索・推論を行う
・知識データを利用する
レベル3 ・機械学習**を取り入れた人工知能
・多くのデータから入力・出力関係を学習する
レベル4 ・ディープラーニングを取り入れた人工知能
・特徴量による学習を行う

強いAIと弱いAI

名前 内容
強いAI ・正しい入力と出力を備え、適切にプログラムされたコンピュータは、人間が心を持つのと同じ意味で、心を持つ
・人間のように物事を認識し、人間のように仕事を行なう行う、あたかも人間のような自意識を備えているAI
弱いAI ・心を持つ必要はなく、限定された知能によって一見知的な問題解決が行えればよいとする立場
・人間の知能の一部を代替するが、あくまで「機械的」な存在

特化型と汎用型

名前 内容
特化型 ・特定の決まった作業を遂行するためのもの
・自動運転、画像認識、将棋やチェス、対話
汎用型 ・特定の作業に限定せず、人間と同様、あるいはそれ以上の汎化能力を持ち合わせている

GoogleによるAI技術開発の原則

  • 社会にとって有益である
  • 不公平なバイアスの発生、助長を防ぐ
  • 安全性確保を念頭においた開発と試験
  • 人々への説明責任
  • プライバシー・デザイン原則の適用
  • 科学的卓越性の探求
  • これらの基本理念に沿った利用への技術提供

2. 人工知能の変遷と問題

探索木の手法

名前 内容
幅優先探索(横型探索) ・全ての場合分けを記憶しながら探索する方法
深さ優先探索(縦型探索) ・同じ階層をしらみつぶしにあたってから次の下位層に進む方法

チェスや将棋で用いられる推論と探索

名前 内容
Min-Max法 ・ゲーム戦略。自分が指すときにスコアが最大、相手が指すときにはスコアが最小になるようにする探索を減らす方法としてαβ法が存在する
・αカット:最小スコアを探すときのカット
・βカット:最大スコアを探すときのカット
モンテカルロ法 ・ある局面まできたら、点数をつけることを放棄し、交互にランダムに手を指し続け、とにかく終局させる。何回もそれを繰り返し、勝敗の数を点数とする
・基本原理は探索であって、何十年も変わっていない。ブルートフォース(力任せ)とも呼ばれる

ロボットの自動計画に関する問題

名前 内容
STRIPS ・ロボットの行動計画のことを自動計画と言います
PDDL ・1998年にSTRIPSに触発されて開発された自動計画を記述する言語
ASIMO ・本田技研がかいはつした二足歩行ロボット
GPS ・1959年、ハーバード・西門とアレン・ニューウェルが開発した、汎用の問題解決のためのプログラム
SHRDLU ・ユーザが「○○の上に○○を置け」などと指示すると実際にその動作を端末の中で実行してくれるもの
第5世代コンピュータプロジェクト ・経産省が1982年から1992年まで行った国家プロジェクト
シェーキー ・スタンフォード研究所が1966年から1972年にかけて研究開発した、移動能力のある世界初の汎用ロボットの名前
Cycプロジェクト ・1984年からすたーとした「すべての一般常識をコンピュータに取り込もう」というプロジェクト

エキスパートシステム

名前 内容
ELIZA ・第二次AIブームの火付け役となったものの一つ
・1964年から1966年にかけてジョセフ・ワイゼンバウムによって開発された
A.L.I.C.E ・ELIZAに触発されて開発されたもの
Mycin ・伝染性の血液疾患を診断し、抗生物質を推奨するようにデザインされているプログラム
Dendral ・道の有機化合物を質量分析法で分析したデータと、有機化学の知識を用いて適合する化学構造を割り出すプログラム
Macsyma ・世界初の数式処理を行うプログラム
オントロジー ・一般的常識が取り組むために、膨大な一般常識のネットワークを構成するために、全てにおいて汎用的な厳格なルールが必要であり、そういった記述方式のルールのようなものを指す

知識表現

名前 内容
チューニングテスト ・イギリスの数学者、アラン・チューニングが提案した手法
・人間的かどうかをはんていするためのテストのこと
ピアソン ・イギリスの数理統計学者であり、現在でもその名は統計学で知られている
中国語の部屋 ・1980年に哲学者ジョン・サールによって発表された論文内で、チューニングテストの結果は何の指標にもならないという批判がされた

AIの問題・課題

名前 内容
知識獲得のボトルネック ・現実世界の専門家の豊富な知識を定式化するのは難しい
・ルールを決めていっても矛盾が発生してしまう
シンボルグラウンディング問題 ・記号とその対象がいかにして結びつくかという問題のこと(例:シマ(模様)とウマ(馬)でシマウマと理解すること)
勾配消失問題 ・ディープラーニングにおいて、出力層から入力層に向かうにつれて勾配が消失し、誤差が見積もれなくなる現象

人物(機械学習関係)

名前 内容
アーサー・リー・サミュエル ・機械学習を「明示的にプログラムしなくても学習する能力をコンピュータに与える研究分野」と定義した
・機械学習を用いたチェスプログラム(チェッカープログラム)を作り、高レベルなアマチュアと互角に戦えるよう仕立てた
アラン・チューリング ・人工知能の判定テストであるチューリングテストを考案した
アレン・ニューウェル
ハーバード・サイモン
・世界初の人工知能プログラムであるロジック・セオリストを開発した
アンドリュー・エン ・機械学習などの講義が見れるサイトCourseraの設立に携わった
・Baidu元副社長兼チーフサイエンティスト
・deeplearning.ai, AI Fundの創始者
イアン・グッドフェロー ・GANを考案
ジェフリー・ヒントン ・ILSVRC2012でディープラーニングを使って優勝した
・Googleに招かれた
・自己符号化器(オートエンコーダ)を提唱
・確定的モデルである深層信念ネットワークを提唱
ジョゼフ・ワイゼンバウム ・世界初のチャットボット、ELIZAを制作した
ジョン・サール ・強いAI・弱いAIという言葉を作った
ジョン・マッカーシー ・人工知能という言葉を初めて使用した
・フレーム問題を提唱した
スティーブン・ハルナッド ・シンボルグラウンディング問題を提唱した
ダニエル・デネット ・フレーム問題を考えすぎるロボットの例で説明した
ヤン・ルカン ・GANを「機械学習において、この10年間で最も面白いアイデア」と形容した
・Facebookに招かれる
・有名なCNNのモデルLeNetを考案
・手書き文字MNISTを作成
・ニューヨーク大学の教授で同大学にデータサイエンスセンターを設立した
ヨシュア・ベンジオ ・ディープラーニングの父と呼ばれる
・観測データの良い表現について提言した
・モントリオール大に所属
福島邦彦 ・現在のCNNの原型であるネオコグニトロンを提唱
Geoffrey Hinton ・トロント大学のヒントン教授らはディープラーニングの第一人者として有名である
・ニューラルネットワークのバックプロパゲーションやボルツマンマシンなどの開発者の一人である

人物(シンギュラリティ関係)

名前 内容
イーロン・マスク ・自動運転車の会社テスラのCEO
・「人工知能にはかなり慎重に取り組む必要がある。結果的に悪魔を呼び出していることになるからだ」と懸念を表明
・非営利研究組織OpenAIを設立した
ヴァーナー・ヴィンジ ・シンギュラリティを「機械が人間の役に立つフリをしなくなること」と定義
オレン・エツィオー二 ・「賢いコンピュータが世界制覇するという終末論的構想は馬鹿げているとしか言いようがありません」と発言
スティーブン・ホーキング ・宇宙物理学者
・「完全な人工知能を開発できたらそれは人間の終焉を意味するかもしれない」と発言した
ヒューゴ・デ・ガリス ・シンギュラリティが21世紀の後半に来ると予想
・その時人工知能は人間の一兆の1兆倍の知能を持つと主張
ビル・ゲイツ ・マイクロソフトの創業者
・人工知能脅威論に同調
レイ・カーツワイル ・シンギュラリティーという言葉を提唱した
・2045年にシンギュラリティが起きると予想した
・2029年に人工知能が人間より賢くなると予想した
・人工知能が自らの能力を上回る人工知能を自ら生み出せるようになる時点のこと
・シンギュラリティは2045 年に到来すると述べている

定理

名前 説明
フレーム問題 機械にはどこまでが問題に含まれるかの切り分けが困難という問題
シンボルグラウンディング問題 記号とその表現を結びつけるのが困難という問題
次元の呪い 機械学習ではデータの次元が増えると計算量が爆発的に増大し。必要なデータや時間が大量になってしまうという問題
バーニーおじさんのルール 機械学習には調整が必要なパラメータ数の最低10倍はデータが必要であるとする経験則
みにくいアヒルの子理論 機械学習における定式化で「普通のアヒル」と「みにくいアヒル」の区別はできないという定理
ノーフリーランチ定理 あらゆる問題に対して万能なアルゴリズムはない
モラベックスのパラドックス 機械にとっては高度な推論よりも、1歳児レベルの知恵や運動スキルを身につける方が難しいというパラドックス
オッカムの剃刀 ある事柄を説明するためには、必要以上に多くを仮定するべきでないという考え方

プラットフォーム・フレームワーク・ラッパー・データセット

名前 内容
Kaggle ・世界中の企業や研究者がデータやモデルを投稿するプラットフォーム
・Competitionと呼ばれる仕組みを提供
・企業や政府が課題を提示、賞金と引き換えに企業がモデルを買い取る
arXiv ・研究論文の公開・閲覧ができるWebサイト
OpenAI Gym ・自分で制作した強化学習用アルゴリズムを試験できるAIシミュレーションプラットフォーム
DistBelief ・2012年に提案された分散並列技術で深層分散学習のフレームワーク名
・Googleが開発し、Tensorflowの前身となった
CIFAR ・一般物体認識のベンチマーク用データセット
・60,000枚(100種類×600枚)の画像データが含まれる
MNIST ・数字認識のベンチマーク用データセット
・手書き数字画像60,000枚とテスト画像10,000枚に「0〜9」に正解ラベルが与えられたもの
・28ピクセル×28ピクセルのモノクロ画像として表現されている
Fashion-MNIST ・衣類品画像のベンチマーク用データセット
・学習用の画像60,000枚とテスト画像10,000枚に、10種類のラベルが与えられたもの

その他

名前 内容
AlphaFold ・Alphabet傘下のDeepMindが開発したアルゴリズム
・タンパク質構造予測のコンペティションCritical Assessment of protein Structure Prediction 13(CASP13)において史上最高精度で優勝した
レコメンデーションシステム ・顧客の購買行動の促進のため、機械学習によってその顧客が好みそうな商品を推定し推薦するシステム
・協調ベースフィルタリング:ユーザーの購買履歴をもとにおすすめを提示
・内容ベースフィルタリング:コンテンツベースフィルタリング、アイテムの特徴をもとにおすすめを提示
センチメント分析 ・感情分析
・ブログやSNS上のテキストに込められた感情を分析すること
SoTA ・State of the Art
・もっとも高精度なアルゴリズム
STRIPS ・自動計画(プラニング、ロボットの行動計画)に関する人工知能システム
・前提条件・行動・結果の3つの組み合わせで記述する。1971年にRichard FikesとNils Nilssonが開発した
DARQ ・アクセンチュアが「Accenture Technology Vision 2019」内で示したテクノロジートレンド
・分散型台帳技術(Distributed Ledger Technology:DLT)、人工知能(Artificial Intelligence:AI)、拡張現実(Extended Reality:XR)、および量子コンピューティング(Quantum Computing)を表す

3. 機械学習の具体的手法

機械学習の手法まとめ

手法 課題の種類 種別 説明
knn法
(k近傍法)
教師あり 分類 ・近くにあるサンプルの数で多数決をとる
SVM
サポートベクターマシン
教師あり 分類 ・マージンを最大化する線形な関数を見つける
・非線形な関数に適用する場合にはカーネル変換を利用する
・カーネル変換の計算量を減らす手法をカーネルトリックと呼ぶ。
ロジスティック回帰 教師あり 分類 ・尤度関数の最小化をする線形回帰によって対数オッズを予測し、ロジット変換によって正規化することで各クラスに属する確率を計算する
決定木 教師あり 回帰・分類 ・データを木構造をとる有向グラフで表し、条件分岐を行う
数値データならば回帰木、分類データならば分類木と呼ぶ。
アンサンブル学習 教師あり 回帰・分類 ・複数のモデルを実施して、回帰であれば平均、分類であれば多数決をとる手法
・バギングとも呼ぶ
ランダムフォレスト 教師あり 回帰・分類 ・決定木にアンサンブル学習を取り入れたもの
線形回帰 教師あり 回帰 ・標本値と予測値の誤差を最小化する線形関数を見つける
k-means法
(k平均法)
教師なし クラスタリング ・いくつかのクラスタ(分類)を用意し、その中心を計算する。
・その後、中心とそれぞれのサンプルの距離を計算し、サンプルを最も近い中心が属するクラスタに設定し直す。
・この2つを中心の移動量が一定を下回るまで繰り返す
PCA
(主成分分析)
教師なし 次元削減 ・線形結合からデータ内の分散が大きくなるような特徴量を見つける
Q学習 強化学習 - ・報酬を最大化させる方策を見つける

混同行列

予測○ 予測×
実測○ True Positive(TP) False Negative(FN)
実測× False Positive(FP) True Negative(TN)

分類問題(評価指標)

評価指標 使用分野 説明
正解率 分類 ・全データの内、予測値と標本値が一致したものの割合
・100%に近い程良い
適合率 分類 ・正値を予測したデータの内、標本値でも正値だったデータの割合
・100%に近いほど良い
再現率 分類 ・標本値が正値になっているデータの内、正値を予測できたデータの割合
・100%に近いほど良い
F値 分類 ・precisionとrecallのバランスをとった指標
・0~1で、1に近づくほど予測性能が良い
  • 正解率(Accuracy)
    • 予測結果全体に対して、予測が正しい割合を表します。
正解率(\textrm{Accuracy}) = \frac{TP + TN}{TP + TN + FP + FN}
  • 適合率(Precision)
    • 正例と予測したなかで正しく予測できた割合を表します。
適合率(\textrm{Precision}) = \frac{TP}{TP + FP}
  • 再現率(Recall)
    • 実際に正例のなかで正しく予測できた割合を表します。
再現率(\textrm{Recall}) = \frac{TP}{TP + FN}
  • F値(F1-score)
    • precisionとrecallのバランスをとった指標を表します。
    • precisionとrecallの調和平均で計算されます。
\textrm{F1-score} = \frac{2 \times \textrm{recall} \times \textrm{precision}}{\textrm{recall} + \textrm{precision}}

回帰問題(評価指標)

評価指標 使用分野 説明
MAE
(平均絶対誤差)
回帰 ・予測値と実際の値の絶対差の平均
・RMSEに比べて外れ値の影響を受けにくい特徴があり
・外れ値を多く含んだデータを扱う際には、RMSEよりもMAEを使うことが適している
MSE
(平均二乗誤差)
回帰 ・RMSE同様に、実際の値と予測値のズレ(誤差)がどれだけあるかを示しており、当然値がモデルの性能がどれだけ悪いかを示す指標
・MSEもよく見かけますが、評価指標として一般的に使われるのはRMSEです
RMSE
(平方平均二乗誤差)
回帰 ・大きいエラー、間違いをより重要視する(実際よりも大きく予測した場合に大きなペナルティを与える)ため、大きな価格の誤差を許容できないケースに使用される
・回帰モデルの最も一般的な性能評価指標であり、多くの場合はRMSEが使われる
・観測値と計算値(予測値)の差を二乗している分、MAE(平均絶対誤差)に比べて外れ値にひきずられて著しく値が大きくなりやすい。そのため、事前に外れ値を除くなどしておかないと外れ値に過剰適合したモデルができる可能性がある
・誤差がどれだけあるかを比率、割合ではなく幅で着目しているので、小さなレンジでの誤差に着目したい場合には適していない
RMSLE
(対数平方平均二乗誤差)
回帰 ・回帰タスクにおける代表的な性能評価指標の一つ
・RMSLEは予測値と実測値の対数差の二乗の総和の平均値のルートをとったもので以下の数式で表現される
・対数をとる前に予測値と実測値の両方に+1をしているのは、予測値または、実測値が0の場合に log(0) となって計算できなくなることを避ける目的があり
・実際より少なく予測した場合に大きなペナルティ(損失)を与える(下振れを抑えたいケースに使用される)性質を持つため、来客数の予測や店舗の在庫を予測するようなモデルにおいてはRMSLEが用いられる
・実測値と予測値の誤差を幅ではなく比率や割合として表現したい場合、小さなレンジの誤差に着目したい場合に用いられる

前処理の手法

手法 説明
正規化 ・特徴量を一定の範囲にスケーリングする
(ex)最大値で割って0〜1に変換するなど
標準化 ・特徴量を平均が0、分散が1の標準正規分布に従うように変換する
白色化 ・各特徴量を無相関化してから標準化する
正則化 ・過学習の回避や説明変数の削減に用いられる
・誤差関数にパラメータの和を付加することで行われる
L1正則化 ・誤差関数にパラメータの絶対値の和を加える
・主に不要な説明変数を削減する(スパース化)ために用いられる
・これを適用した線形回帰をLasso回帰と呼ぶ
L2正則化 ・誤差関数にパラメータの二乗和を加える
・荷重減衰ともよび、主に過学習を防ぐために用いられる
・これを適用した線形回帰をRidge回帰と呼ぶ
ElasticNet ・L1正則化・L2正則化の中間
平滑化 ・他のデータから大きく外れているデータを平均化あるいは除去することで合理性を保つ
ヒストグラム平均 ・画素ごとの明るさをスケーリングする

ハイパーパラメータチューニング

  • ハイパーパラメータ(英語:Hyperparameter)とは機械学習アルゴリズムの挙動を設定するパラメータを指す。
チューニング方法 説明
グリッドサーチ
(Grid Search)
・与えられたハイパーパラメータの候補の値の全パターンのモデル構築を行う手法
・(メリット)調整する値の「あたり」が付いている場合は◎
・(メリット)調整する値の数が少ない場合は◎
・(デメリット)モデル訓練回数が増えるので時間が掛かる
・(デメリット)計算コストが非常に高い
ランダムサーチ
(Random Search)
・候補の値をランダムに組み合わせたモデル訓練を行いハイパーパラメータを検証する手法
・(メリット)調整する値が多くても対応することが可能
・(デメリット)ランダムに検証するので「運任せ」の要素あり
ベイズ最適化
(Bayesian Optimization)
・不確かさを利用して次に探索を行うべき値を探していく最適化アルゴリズムの一種
・目的関数(Acquisition Function)を推定する代理モデル(Surrogate Model)にはガウス過程が使われます
  • データリーケージ
    • モデルを作成るときに、本来知らないはずの情報(変数やデータ)を不当に使ってしまうことです。
    •  手元のデータでは高い精度が出たのに、本番環境ではまったく精度が出ない、といった事態になります。
    •  例)時系列データなどで学習地点では知らない未来データを使用してしまう事

モデルの評価

モデルの評価 概要
交差検証 ・クロスバリデーション。
・手元にある全データを
訓練データとテストデータに分割して評価すること
ホールドアウト検証 ・訓練データとテストデータの2つの組に分けて検証すること
k分割交差検証 ・訓練データをいくつかの組に分類し、複数回に分けて学習。
・評価を行う手法ホールドアウト検証に比べ、少ないデータでも精度が出る
LIME ・一つの予測結果があったとき、その結果に対してのみ局所的に近似させた単純な分類器を作って、その単純な分類器から予測に効いた特徴量を選ぶ
SHAP ・予測した値に対して、「それぞれの特徴変数がその予想にどのような影響を与えたか」を算出するもの
オッカムの剃刀 ・14世紀の哲学者のオッカムが、「ある事柄を説明するためには、必要以上に多くを仮定するべきでない」と示した指針。
・要は、「最もシンプルな仮説を選択せよ」ということ。
赤池情報量基準(AIC) ・統計モデルの良さを評価するための指標

4. ディープラーニングの概要

ディープラーニングの手法概要まとめ

|手法|課題の種類|説明|確率・確定的|
|---|---|---|---|---|
|CNN
(畳み込みニューラルネット)|教師あり|・位置情報を扱える
・画像などに利用|確定的|
|RNN
(再起型ニューラルネット)|教師あり|・時間情報を扱える
・音声などの時系列データに利用|確定的|
|LSTM
(LongShortTermMemory)|教師あり|・長期的な時間情報を扱える|確定的|
|オートエンコーダ
(自己符号化機)|教師なし|・入力と出力を一致させる
・隠れ層を入力層より少なくし、潜在表現を獲得する
・事前学習などに利用
・学習した層をニューラルネットワークの層に仕込むことで勾配消失を解決
・重要度が低い細部をそぎ落とし特徴を抽出したもので学習を行うことにより過学習を防止|確定的|
|積層オートエンコーダ|教師あり|・学習済みのオートエンコーダを積み上げ、出力層を付け加える
・入力層に近い層から逐次的に学習を行うことで勾配消失の問題を回避|確定的|
|VAE
(variable auto encoder)|教師なし|・入力と出力を一致させる
・隠れ層を平均と分散として表現する(潜在表現の獲得)
・画像生成などで利用される|確定的|
|GAN
(Generative Adversarial Network)|教師なし|・生成器と識別器の2つから成り立つ
・生成器は識別器を騙すように、識別器は生成された画像を見破るように学習する
・画像生成などで利用される|確定的|
|深層ボルツマンマシン|教師なし|・観測データの確率場をノードとし、無向の結合で依存関係を表す|確率的|
|深層信念ネットワーク|教師なし|・観測データの確率場をノードとし、有向の結合で依存関係を表す|確率的|
|DQN
(深層Q学習)|強化学習|・報酬を最大化させる方策を見つける
・ロボット操作やゲームなどに利用|---|

CNNのネットワーク名

名前 年代 説明
LeNet 1988年 ・ヤン・ルカン氏が発表したCNNの原型
AlexNet 2012年 ・LSVRCでトロント大学のジェフリー・ヒントン率いるチームが使用し、2位以下に圧倒的な差をつけて優勝したネットワーク
・8層。調整するパラメータは60,000,000にものぼる
ZFNet 2013年 ・ILSVRCの優勝モデル
・AlexNetの2つの問題が明らかとなり,これらの問題を解決する改良を行い,高精度化につなげている
GoogLeNet 2014年 ・ILSVRCで優勝
・22層。横方向に幅のあるインセプション構造をとる
・Inceptionモジュールという小さなネットワークを積み上げた構造をしている
VGG16 2014年 ・ILSVRCでGoogLeNetに劣らない性能を誇ったオックスフォード大学のチームのCNN
・16層。GoogLeNetには及ばなかったが、シンプルなネットワークなので技術者に好んで使われる
・サイズの小さな畳み込みフィルタを用いて計算量を減らしている
ResNet 2015年 ・ILSVRCで優勝
・152層。Microsoftのチームが開発
・これまで以上に層を深くできるようにスキップ構造を導入した
・層を飛び越えた結合(Skip connection)を持つ構造をしている
CUImage 2016年 ・ILSVRCで優勝
SENet 2017年 ・ILSVRCの優勝モデル
・特徴マップをチャネル毎に適応的に重み付けするAttentionの機構を導入したネットワーク
・Attentionの機構は,Squeeze-and-Excitation Block (SE Block) によって実現される
Deep Residual Learning 2015年 ・ILSVRCで優勝したモデル
・152層ものニューラルネットワークで構成されている
・残差ブロックを導入することで勾配消失問題に対処し,飛躍的に層を増やすことに成功

機械学習で発生する問題

手法 説明
局所最適解 ・勾配降下法において、誤差は最小ではないが勾配が非常に小さくなる値(極小値)に収束してしまう問題
・このような値を停留点・鞍点と呼ぶ
多重共線性 ・重回帰分析などで発生する
・説明変数の中に相関係数が高い(類似した)変数があるときに発生
・標準誤差の増加など予測が上手くいかなくなる
内部共変量シフト ・ある層の入力がそれより下層の層の学習が進むにつれて変化してしまう問題
・出力の偏りをなくすバッチ正規化(Batch Normalization)で対応される
過学習 ・モデルが訓練データに適合しすぎてしまい、汎用性がなくなる
・訓練誤差は小さくなるが汎化誤差が小さくなっていない時が発生の目安
データ量の増加、正則化、早期打ち切りなどが対策となる
・これを調べるために一部のデータをテスト用に分割することをホールドアウト法と呼ぶ
勾配消失 ・ディープラーニングで発生する問題
・誤差逆伝播法で誤差の勾配が入力層に伝播する過程で0に近づいてしまい学習が進まなくなってしまう
・活性化関数にReLUを用いるなどの方法で対策された
勾配爆発 ・主にRNNなどで発生
・誤差の勾配が異常に増加する
計算量増加 ・誤差逆伝播法の考案前は各ノードで微分を行なっていたため、計算量が多く層の数を増やすのが難しかった

勾配降下法の手法まとめ

手法 説明
SGD
(確率的勾配降下法)
・損失関数を微分して勾配を計算し、勾配方向へ事前に決めた学習係数だけ進むことを繰り返す
Momentum ・物理的な動きを模倣したもの、速度と加速度を持つ
・学習率は一定で、以前利用した勾配が速度の中に残る
AdaGrad ・パラメータそれぞれに個別の学習係数を与える
・大きく動いたパラメータの学習係数は小さくなる
RMSProp ・AdaGradの改良版
・指数移動平均を蓄積することで、過去に大きく動いたパラメータの学習係数も時間が経つと再度大きく動くようになる
AdaDelta ・RMSpropの次元数の不一致による問題を解決しようと考えられた
・ニュートン法の応用となっている
Adam ・AdaGradとMomentumの融合
・勾配の平均と分散を推定し利用する
AMSGrad ・Adamの問題を解決しようとしてできたのがAMSGrad
・AMSGradは悪い性能の原因になっている大きすぎる学習率を改善
・しかし、小さい学習率も悪い性能につながるという事実を考慮していないため優れた最適化手法にはならなかった
Adabound ・2019年に発表
・Adamに学習率の上限と下限(クリッピング)を設定したもの
・最初はAdamのように動作し、学習後半からSGDのように動くように設計されている
AMSBound ・AMSGradに学習率の上限と下限を動的に加えたもの
・AdaBoundに行った学習率の制限を同じようにAMSGradに組み入れたもの

活性化関数まとめ

関数名 説明
ステップ関数 ・関数への入力値が0未満の場合には常に出力値が0、入力値が0以上の場合には常に出力値が1となるような関数
・0か1のみを出力
・単純パーセプトロンで用いる
シグモイド関数 ・0から1まで滑らかに接続
・勾配消失が起きやすい
・主に隠れ層(中間層)や二項分類問題を解くモデルの出力層で用いられる
tanh関数
(双曲線正接関数)
・-1から1の範囲を出力
・やや勾配消失しにくい
・主に隠れ層(中間層)で用いられる
ReLU関数
(正規化線形関数)
・xが0以下なら0、それ以上ならxを出力
・sigmoid関数やtanh関数よりも勾配消失が起きにくい
・ただし、すべての問題に対して最適というわけではない
Softmax関数 ・シグモイド関数を一般化したもの
・出力の総和が1になる(確率の形式)
・分類問題の出力層に用いられる
恒等関数 ・入力をそのまま出力
・回帰問題の出力層に用いられる

学習済みモデルの活用方法

手法 説明
蒸留 ・大きな学習済みモデルの出力を使って小さなモデルを学習し、特徴を継承する
転移学習 ・学習済みモデルに何層か加えて異なるターゲットで再学習させる

ディープラーニングのハードウェア関係

名前 説明
CPU ・CP全般の作業処理を担う。スマホ動作を順番にする能力に長ける
GPU ・画像処理に関する演算を行う。並列演算処理に強い。NVIDIAが開発をリード
GPGPU ・GPUの演算資源を画像処理以外の目的に応用する技術のこと
TPU ・Google社が開発した学習・推論などに特化したGPU
CUDA ・NVIDIAが開発・提供している、GPU向けの汎用並列コンピューティングプラットフォーム

5. ディープラーニングの手法

ディープラーニングの精度を高めるためのテクニック

精度を高めるためのテクニック 概要
ドロップアウト(Dropout) ・ランダムにニューロンをドロップアウトさせることで、ディープラーニングのオーバーフィッティング対策を行う
・これにより、アンサンブル学習を行っているのと同じような状況になる。
アーリーストッピング(early stopping) ・学習を早めに打ち切ることで、ディープラーニングのオーバーフィッティング対策を行う。
・どんな手法でも使えるため、非常に強力である。
データの正規化(正規化:Normalization≒Scaling) ・データのスケールを合わせることで、学習時の収束を早める。
・一番簡単なのは各特徴量を0~1の範囲に変換(正規化)すること。
データの正規化(標準化) ・データを標準積分布(平均0、分散1)にする。
データの正規化(正規化:Regularization) ・過学習の回避を目的とする。
・損失関数に正則化項を追加することで、値の偏りを防止する。
データの正規化(白色化) ・各特徴量を無相関化したうえで標準化する、計算コストが高い
データの正規化(局所コントラスト正規化) ・減算正規化と除算正規化の処理を行う。画像処理で利用される。
重みの初期化 ・ディープニューラルネットワークでは伝播を経て分布が崩れるため、データの正規化手法が有効に働かない場合がある。
・重みの初期値を工夫することで解決をはかることができる。
・重み初期化の工夫として、乱数にネットワークの大きさを合わせた適当な係数をかけることにより、データ分布の崩れにくい初期値が考案されている(例:Xavierの初期値:シグモイド関数、tanh関数で有効。Heの初期値:ReLU関数で有効。)
スパースなデータ ・疎なデータ。スパース性を用いて計算量を削減するといった工夫がなされる。
バッチ正規化 ・各層に伝わってきたデータを、その層でまた正規化するアプローチ。(最初に正規化をするだけでなく、層ごとに正規化を繰り返す)
・データの正規化、重みの初期化と比較し、より直接的な手法となる。
・非常に強力な手法で学習がうまくいきやすく、オーバーフィッティングしにくい。
・学習が進むにつれて入力が変化する内部共変量シフトに対応することができる。(出力の分布の偏りを抑制する)
・内部共変量シフト:入力の分布が学習の途中で大きく変わってしまう問題。
・類似手法として、右記の正規化法がある(レイヤー正規化、インスタンス正規化、グループ正規化)
End to End Learning(一気通貫学習) ・入力から出力までを一括で行う、ディープラーニングにおける重要な方法論。
・以前は処理を分割していた(せざるを得なかった)が、ディープラーニングにより一括処理ができるようになった。
プルーニング ・ニューラルネットワークの重み(パラメータ)の一部を取り除く手法

CNN(畳み込みニューラルネットワーク)

項目 概要
特徴 ・画像(2次元)をそのまま入力にできる。
・人間がもつ視覚野の神経細胞(単純型細胞 S細胞、複雑型細胞 C細胞)を模している。
・順伝播型ニューラルネットワークの一種で、時系列データの分析でも使える。
畳み込み層 ・フィルタ(カーネル) により画像の特徴を抽出する操作。
・ストライド:フィルタを移動させる刻み。
・フィルタを通して特徴マップを得る、フィルタの各値が重みにあたる。
・畳み込みは移動不変性の獲得に貢献、位置ずれの強いモデルが作れる。
・パラメータ数は全結合層よりも少ない。重み共有により有用な特徴量を画像の位置によって大きく変化させないためである。
プーリング層 ・決められた演算を行うだけの層。(ダウンサンプリング、サブサンプリング)
・そのため、学習すべきパラメータはない。
maxプーリング ・2×2ごとに画像(特徴マップ)の最大値を抽出していく。
avgプーリング ・平均値をとる。平均プーリング。
Lpプーリング ・周りの値をp乗してその標準偏差をとる。
全結合層 ・分類のためには出力を1次元にする必要があ。全結合層によりデータをフラットにする。
・最近の傾向:全結合層を用いない方法が増えており、1つの特徴マップに1つのクラスを対応させる Global Average Pooling がほとんどになっている。
データ拡張 ・課題:同じ物体でも「明るさ」「角度」「大きさ」などにより見え方が異なる。
・対応:データ拡張(データの水増し)を行う。→ ずらす、反転、拡大・縮小、回転、歪め、切り取り、コントラスト変更 など
・注意点:データ拡張により意味の変わってしまう画像がある。(ex.いいねマークを逆さまにすると違う意味)

RNN(リカレント ニューラルネットワーク)

項目 概要
特徴 ・時間情報を反映できるモデル。隠れ層に時間情報(過去の情報)を持たせることができる。
・特徴は前回の中間層の状態を隠れ層に入力する再帰構造を取り入れたこと。
・BackPropagation Through-Time(BPTT) : 時間軸に沿って誤差を反映していく。
・自然言語処理でもよく用いられる。
・再帰型ニューラルネットワークで、閉路がある。
(一般的な)課題 ・勾配消失問題
・入力重み衝突、出力重み衝突 : 重みが上下して精度が上がらない問題
・ネットワークにループ構造が含まれるため、中間層が1層でも勾配消失問題が起こる。
(一般的な)解決策 ・LSTM手法を使う。
LSTM ・時系列データにおいてはデファクトスタンダード。Google翻訳でも利用されている。
・ユルゲン・シュミットフーバーと、ケプラー大学のゼップ・ホフレイターによる提案。
・過去から未来に向けて学習し、遠い過去の情報でも出力に反映できる。
・活性化関数の工夫ではなく、隠れ層の構造を変えることで解決する。
・LSTMブロック機構を適用
・CEC(Constant Error Carousel) : 誤差を内部にとどまらせ勾配消失を防ぐセル。
・ゲート : 入力、出力、忘却の3つ。
・各重み衝突に対応しつつ、誤差過剰を防止する忘却を持たせる。
・機械翻訳や画像からのキャプション生成(画像の説明文生成)などにも利用できる。
・課題:ゲートが多いため計算量が多い
GRU(Gated Recurrent Unit) ・LSTMの計算量を少なくした手法。
・リセットゲート、更新ゲートからなる。
RNNの発展形(Bidirectional RNN) ・未来から過去方向にも学習できるモデル。
RNNの発展形(RNN Encoder-Decoder) ・他モデルの問題:入力は時系列だが出力が一時点になってしまう。
・特徴:出力も時系列である(sequence-to sequence)。モデルはエンコーダとデコーダからなる。
RNNの発展形(Attention) ・他モデルの問題:どの時点の情報がどれだけ影響力を持っているかまではわからない。
・特徴:時間の重みをネットワークに組み込んでいる。
・Attention GAN:文章から画像を生成することができる。

深層強化学習

項目 概要
DQN(Deep Q-learning) ・強化学習の手法であるQ学習と深層学習の組合せ。CNNの一種である。
・Q関数(=行動価値関数)の最大化を目指す。
・DeepMind ブロック崩しで採用された。
・改良モデル:Double DQN, Dueling Network, Categorical DQN, Rainbow
・応用事例:AlophaGo(アルファ碁)

深層生成モデル

項目 概要
VAE(Variable AutoEncoder) ・変分オートエンコーダ、変分自己符号化器
・変分ベイズ推定法の一種。
・入力を統計分布に変換(平均と分散を表現)する。
・ランダムサンプリングしたものをデコードすると新しいデータが生成できる。
GAN(敵対的生成ネットワーク) ・イアン・グッドフェローが提唱。
・2種類のネットワーク(ジェネレータ:生成、ディスクリミネータ:識別)で競わせる。
・画像生成への応用が顕著である。
・これ自体はモデルでなくアーキテクチャを指す。
・これを実装したモデルがDCGAN(Deep Convolutional GAN)。
・ヤン・ルカンは「機械学習において、この10年で最もおもしろいアイデア」とコメント

画像データのマスキング手法

項目 概要
Cutout ・画像中のランダムな位置を中心として正方形領域 (辺の長さは固定) を固定値0でマスクします
・Cutoutを利用することで,少ないデータでも学習することができる
・類似手法として,Random Erasingが知られている
・マスクする領域の大きさは,どのデータセットについても同一である
Random Erasing ・大きさがランダムの矩形領域で画像をマスクするのが Random erasing1 です。矩形領域のRGBにはランダムな値 (0〜255となる一様分布で生成) で埋められます
・類似手法であるCutoutにくらべて,複雑な手法である
・画像中のランダムな位置に,ランダムな縦横比の長方形を領域をランダムな値でマスクする
・Random Erasingを利用することで,少ないデータでも学習することができる

複数の画像を組み合わせる手法(データオーグメンテーション/data augmentation)

項目 概要
CutMix ・Cutoutの改良版で,画像を2枚用意し,一つの画像からもう一つの画像へコピーする手法
Mixup ・2つの画像を合成して新しいサンプルを作成する手法

ディープラーニングの研究分野:画像認識

項目 概要
ILSVRC(Imagenet Large Scale Visual Recognition Challenge) ・画像認識のコンペティション、課題は位置課題、検出課題の2つ。
・入力を統計分布に変換(平均と分散を表現)する。
・Imagenet:スタンフォード大学がインターネットから収集した画像群。1400万枚を超える画像を収録したデータベース。物体名は2万種以上。
AlexNet ・2012年、ILSVRCで優勝したSuperVisionでのモデル。
・特徴は、ReLU、SRN、データ拡張、2枚のGPU利用。
・パラメータ数は6千万個にものぼった。
R-CNN(Regional CNN) ・関心領域の切り出し(一課題)は従来の手法を用いて行う。※バンディングボックス(物体検出。関心領域を表す矩形領域のこと)を求める回帰問題となる。
・検出課題についてはCNNを用いる。
・上記組合せは、時間のかかる手法である。
高速RCNN(fast RCNN) ・関心領域の切り出しと物体認識を高速に行う手法。
・最初から最後まで深層学習でできるようになった。
faster RCNN ・高速RCNNが改良され、ほぼ実時間で処理できるようになったモデル。
・16フレーム/秒程度で処理可能。
YOLO(You Only Look at Once) ・検出と識別を同時に行うことで、遅延時間の短縮を実現したモデル。
参考(YOLOの歴史)
SSD(Single Shot Detector) ・YOLOより高速である。
・Faster RCNNと同等の精度を実現。
MobileNet ・Googleによって発表
・畳み込みの計算を分割することで,計算量の減少を達成
・ハイパーパラメータとしてwidth multiplier と resolution multiplier を用いる
・小型端末専用のモデルではない。
・効率的に精度を最大化することに重点が置かれている
セマンティックセグメンテーション ・R-CNNのような矩形切り出しではなく、より詳細(画素単位)な領域分割を得るモデル。
・完全畳み込みネットワーク(FCN)のモデルがあり、すべての層が畳み込み層で構成される。(単体では画像認識を行えない)
・同じカテゴリに属する物体はすべて同一ラベルになる。
インスタンスセグメンテーション ・同じカテゴリに属する物体でもすべて別ラベルにできる。
完全畳み込みネットワーク(FCN) ・全ての層が畳み込み層。
画像データの前処理 ・リサイズ、トリミング
・グレースケール化:カラー画像を白黒画像に変換して計算量を削減する。
・平滑化:細かいノイズの影響を除去する。
・ヒストグラム平均:画素ごとの明るさをスケーリングする。
Vision Transformer ・自然言語処理の分野で発展したTransformerを画像処理に流用したもの
・Vision Transformerは画像を単語のように分割することによりCNNを使用せず,Transformerに近いモデルを使用している

ディープラーニングの研究分野:自然言語処理

項目 概要
言語モデル ・「単語の意味は、その周辺の単語によって決まる」という分布仮説がある。
分散表現 ・記号を計算機上で扱うための方法論。
・単語を高次元の実数ベクトルで表現する技術。
・単語を固定長のベクトルで表現する。
構文解析 ・文章(テキスト文字列)を形態素に切分け、その間の関連(修飾-被修飾など)といったような統語論的(構文論的)な関係を図式化するなどして明確にする(解析する)手続き
・自然言語を単語単位に分割し,その関係を何かしらのデータ構造として表現すること
照応解析 ・照応詞(代名詞や指示詞など)の指示対象を推定したり、省略された名詞句(ゼロ代名詞)を補完する処理のこと。
談話解析 ・文章中の文と文の間の役割的関係や話題の推移を明らかにするものである。形態素解析、構文解析、意味解析などの1文内の言語要素を対象にした解析とは異なる。
形態素解析 ・文を単語に分解し品詞を特定する。
・日本語は英語のようにスペースで区切られていない。分析のためには、単語を区切る必要がある。
N-gram ・単語ではなく、文字数で分割する手法。
・形態素解析よりも単純で、任意の連続したN文字単位で区切る。
bag-of-words ・文章に単語が含まれているかどうかを考えて、テキストデータを数値化(ベクトル化)する。
・文の構成などは考えず、単語の出現のみに注目する。
TF-IDF(Term Frequency - Inverse Document Frequency) ・文章に含まれる単語の重要度を特徴量とする。
・文書の中から、その文書の特徴語を抽出する時に使う値。
・TF:単語の文書内の出現頻度。
・IDF:ある単語が出てくる文書頻度の逆数。文書中に多く使われるほど、特徴語にはなりにくいという考え方。
隠れマルコフモデル ・HMM、Hidden Markov Model
・直前の結果のみから次の結果が確率的に求まるという「マルコフ性」を仮定して、事象をモデル化する手法。
word2vec ・ベクトル空間モデル、単語埋め込みモデルともいわれる。
・CBOWとスキップグラムの2つの手法がある。
・ CBOW(Countinuous Bag-of-Words):周辺の単語を与えて、ある単語を予測する。
・スキップグラム(Skip-gram):ある単語を与えて、その周辺の単語を予測する。CBOWでのコンテクストとターゲットを逆転させたようなモデル。
fastText ・トマス・ミコロフらが開発。
・単語表現に文字の情報も含めることができる。
・訓練データにない単語が作れるようになる。
・WikipediaとCommon Crawlによる157言語の訓練データがある
ELMo ・文章表現を得るモデル。
マルチタスク言語処理 ・マルチタスク学習は単一のモデルで複数の課題を解く機械学習の手法。
・自然言語では品詞づけ・文節判定・係り受け・文意関係(補強・反対・普通)・文関係の度合いを同時に学習させる。
ニューラル画像脚注付け ・NIC、Neural Image Captioning。
・画像認識モデルの全結合直下層の情報を、言語生成用リカレントニューラルネットワークの中間層の初期値として用いる。
ニューラルチューリングマシン ・Neural Turing Machine:NTM
・チューリングマシンをニューラルネットワークにより実現する試み。
・微分可能であり、最急降下法による効率的な学習が可能。
Tay ・Microsoft社によるチャットボット。
・Twitter上で不適切な誘導を受け、不適切な行動を繰り返しサービスが停止された。
・Gigazine-Microsoftの人工知能が「クソフェミニストは地獄で焼かれろ」「ヒトラーは正しかった」など問題発言連発で炎上し活動停止
BERT ・Bidirectional Encoder Representations from Transformers。
・Google AI Languageの研究者が最新論文で発表した。
単語埋め込みモデル ・単語の意味をベクトルで表現するモデルである。複数の単語の関係性をベクトルの演算によって導き出すことに使われている(例. 「王様」-「男性」+「女性」=「女王」)
局所表現 ・ある単語とベクトルの関係を1対1で表現する考え方
分散表現 ・文字や単語をベクトル空間に埋め込み、その空間上で点として扱う考え方
・単語に次元数を持たせ1つの要素だけを1それ以外を0にして表現する考え方
スキップグラム ・ある単語を与えて周辺の単語を予測するモデル
CBOW ・スキップグラムの逆で周辺の単語からある単語を予測するモデル
fastText ・個々の単語を高速でベクトルに変換しテキスト分類を行うモデル
・word2vecとの違いとして、単語の表現に文字の情報を含めて, 存在しない単語を表現しやすくすることができる
ELMo ・文脈から意味を演算するモデル
・双方向のLSTMで学習することにより, 同じ単語でも文脈によって異なる表現を獲得することができる手法
Source-Target Attention ・Attentionは単語間(入力,出力間)の1対1の対比ではなく,入力されたベクトルの内積で関連度を求めている.Attentionの中で,過去の内容からsource(入力)とtarget(出力)の内容が違うものの関連を求めるものをSource-Target Attentionという
Encoder-Decoder Attention ・Source-Target AttentionはEncoderとDecoderを橋渡ししており,Encoder-Decoder Attentionとも呼ばれている
GLUE ・BERTようなモデルの,言語理解タスクをベンチマークするためのGLUEと呼ばれるデータセットが公開されている

ディープラーニングの研究分野:音声処理

項目 概要
WaveNet ・Google DeepMind社により開発。
・音声合成と音声認識ができる。
・自然な発話により、音声合成のブレイクスルーとして注目された。
・量子化された音声を1つずつ, 1秒間に16000個の音声データを学習データとして学習するモデル
CTC(Connectionist Temporal Classification) ・音声認識において入力された音声の数と認識すべき音素数が不一致になることがあるが,空文字を追加することにより問題を解決する手法

ディープラーニングの研究分野:音声認識

項目 概要
プロセス1 ・雑音・残響抑圧 (入力:音声 出力:音声)
・音声を認識したい対象以外の雑音を分離する
プロセス2 ・音素状態認識 (入力:音声 出力:音素)
・音声の周波数スペクトル,すなわち音響特徴量をインプットとして,音素状態のカテゴリに分類する
プロセス3 ・音素モデル (入力:音素 出力:文字列)
・音素がどの文字であるかを推定する
プロセス4 ・単語辞書 (入力:文字列 出力:単語)
・認識した文字列から単語を特定し認識する
プロセス5 ・言語モデル (入力:単語 出力:単語列)
・単語系列仮説の尤度を評価する
プロセス1~5 ・プロセス1~5を纏めて,すなわち,入力:音声 出力:単語列とする学習手法のことをEnd-to-End音声認識と呼ぶ

ディープラーニングの研究分野:ロボティクス (強化学習)

項目 概要
強化学習 ・動作制御にはモンテカルロ法やQ学習が応用されている。
・DQN(Deep Q Networks) アタリのゲームに対して応用された。
・アルファ碁 モンテカルロ木探索で成果を挙げた。
・アルファ碁ゼロ セルフプレイにより学習を進め、アルファ碁を凌駕した。
・RAINBOWモデル 強化学習の性能を改善するための3つのモデルをすべて適用したもの。
1)方策ベース
2)状態価値関数(価値ベース)
3)モデルベース
強化学習の課題 ・学習時間:理論的には無限に学習できるが、実際は有限なため損耗し学習継続が困難になることがある。
・マルチエージェント応用:複数のエージェントで相互学習を開始すると、初期段階での知識が不十分なため学習過程において不安定化が見られる。対応のため、逆強化学習やDQNなどが適用されている。
ダブルDQN ・DQNはたまたまQ値が高いところを学習してしまう場合があり,それを防ぐ手段にDQNを二重化したダブルDQNがある
デュエリングネットワーク ・行動価値を状態価値関数(状態)とAdvantage関数(行動)に分割することにより,行動にかかわらず状態を学習することができるようにしたもの
noisy network(ノイジーネットワーク) ・DQNでは常にその時点で価値の高い行動をとり続けた場合,別の行動をとる可能性がなくなってしまう.この問題点をネットワークそのものに学習可能なパラメータと共に外乱を与え,それも含めて学習させていくことでより長期的で広範囲に探索をすすめることで改善するという方法
・ネットワークそのものに学習可能なパラメータと共に外乱を与え,それも含めて学習させていく手法
Rainbow ・2017年に,過去にDQNに関して提案されてきた7種類のアルゴリズムを統合したアルゴリズム
・RainbowはDQN,Categorical DQN,Multi-Step RL,Double DQN,Prioritized Experience Reply,Dueling Net,Noisy Netという7種類のアルゴリズムを統合したアルゴリズム
マルチエージェント強化学習 ・あるエージェントが報酬を得た時に、他のエージェントにも間接報酬を与える手法
・マルチエージェント機械学習は複数の強化学習エージェントが同時に学習をして行動し、相互に影響を与える
OpenAI Five ・非営利団体Open AIが作ったAIソフトであるOpenAI Fiveが,2019年にDota2というコンピュータゲームで2018年度の世界王者を破って勝利した
AlphaStar ・DeepMind社の作ったスタークラフト2というコンピュータゲーム用のAI
Ponanza ・コンピュータ将棋のソフトウェア
状態表現学習 ・環境の状態をあらかじめ学習しておくことで深層強化学習の学習効率を高める手法
SAC(Soft Actor-Critic) ・連続値制御の深層強化学習モデル
・方策関数(Actor)とsoftQ関数を,ニューラルネットワークで実装する
報酬成型(Reward Shaping) ・通常の報酬値に,追加の値を加えることで学習速度を向上させることができる
オフライン強化学習 ・医療・ロボティクスなどの分野での活躍を期待されている
・強化学習をオフラインで過去に蓄積されたデータのみで学習を行う手法
Sim2Real ・シミュレーションを用いて方策を学習し,その学習した方策を現実に転移させる手法
ドメインランダマイゼーション(Domain Randomization) ・ランダム化されたプロパティを使用して様々な学習用のシミュレーション環境を作成する手法
・これらすべての環境で機能するようにモデルを学習していく
報酬成型(Reward Shaping) ・通常の報酬値に,追加の値を加えることで学習速度を向上させることができる

ディープラーニングの研究分野:マルチモーダル

項目 概要
マルチモーダル ・五感や体性感覚(平衡感覚、空間感覚など)の複数の感覚情報を組み合わせて処理すること。
・機械学習においては、複数の異なる情報を用いて学習することを、マルチモーダル学習という。

ディープラーニング:その他

項目 概要
Neural ArchitectureSearch(NAS) ・NASはパラメータ最適化の前段階であるネットワーク構造の最適化も行う
・ニューラルネットワークの構造自体がパラメータと重みを最適化する
・膨大な計算量が必要な点が改善点とされている
・AutoMLを実現するための理論
NASNet ・CNNの畳み込みやプーリングをCNNセルと定義し,CNNセルの最適化を行う
MnasNet ・Googleによって発表
・AutoMLを参考にしたモバイル用のCNNモデル設計
・速度情報を探索アルゴリズムの報酬に組み込むことで,速度の制約に対処した
SegNet ・モデルの構造について,エンコーダ-部分はCNNモデルであるVGG16の一部が採用されたシンプルな作りとなっている
・デコーダー部分では,エンコーダーによって,インプット時よりも画素数が小さくなった画像をUp sampled層と呼ばれる層を通過させることで,インプットと同じ大きさに復元をする
・Up sampled層はプーリング層と対照的な振る舞いを与える層であり,指定したカーネル周りの画素の中で最大の値を有するセルを特定し,その周りをパディングする仕組みを有している
U-Net ・Skipconnectionと呼ばれるエンコーダー部で取得した画像の特徴マップを,デコーダー部で再活用することのできる構造が採用されているため,プーリングや畳み込みといった層を通過する際の情報削減に強い特徴を有したセマンティックセグメンテーションモデルである
・U-Netは、ネットワーク図を描くとエンコーダー部とデコーダー部で行われているタスクがきれいに左右対称に写り,アルファベットのUに見えることから名のつけられたことでも知られている
Dilation convolution ・畳み込み先に疎な部分がある構造を定義する
・疎な部分はできるものの,同一のパラメータ数を有する通常の畳み込み層とくらべ,一度にスキャンできる領域が大きいことや総計算量が削減できる利点がある
・カーネル自体は畳み込み層と同様に行列を定義するが, スキャンの際に一定の間隔で画素を読み込まないことで結果的に広範囲の領域を一度にスキャンすることができる仕組みである
Open Pose ・カーネギーメロン大学のZhe Caoらが2016年に論文発表した,2D画像の複数人物の姿勢を可視化し,効率的に推定するモデルである
・手法として,まず入力画像から部位の位置の推定(S・confidense maps)と,部位の連関を表す(L・Part Affinity Fields(PAFs))を算出し,その後SとLの集合から同じ人物の部位を組み合わせ、姿勢の状態を出力する
Bidirectional RNN(双方向RNN,BRNN) ・中間層の出力を未来への順伝播と過去への逆伝播の両方向に伝播するネットワークである
RNNEncoder-Decoder ・2つのRNNから構成され,Encoderが入力データを,Decoderが出力データをそれぞれ処理する
Backpropagation Through Time(BPTT) ・elman networkの学習にも使用されている,ある種のRNNを学習するための勾配ベースの手法である
・目的変数の誤差が小さくなるように、各ニューロンの重みを最適化する手法であるが,誤差が時間をさかのぼり,勾配を計算するためにすべてのタイムスタンプを使用することを指す

6. AI技術の応用に向けて

画像認識タスクとその手法

画像認識タスク 手法
セマンティックセグメンテーション SegNet, U-Net
物体検出 R-CNN, Faster R-CNN, YOLO, SSD
画像認識 LeNet, AlexNet, GoogLeNet, VGGNet, ResNet
画像生成 GAN, DCGAN, pix2pix, VAE

自動運転のレベル(SAE J3016の定義)

レベル 概要 主体
レベル0
(運転自動化なし)
・ドライバーがすべて操作 ドライバー
レベル1
(運転支援)
・システムがステアリング操作、加減速のどちらかをサポート(運転支援) ドライバー
レベル2
(運転支援)
・システムがステアリング操作、加減速の両方をサポート(運転支援) ドライバー
レベル3
(条件付運転自動化)
・特定の場所でシステムがすべてを操作、緊急時はドライバが操作(自動運転) システム
(システム非作動の場合はドライバー)
レベル4
(高度運転自動化)
・特定の場所でシステムがすべてを操作(自動運転) システム
(システム非作動の場合はドライバー)
レベル5
(完全運転自動化)
・場所の限定なくシステムがすべてを操作(完全自動運転) システム

モデルの軽量化

項目 概要
エッジAI ・エッジコンピューティング(※)から派生した用語で、AIの学習モデルを用いてエッジで推論すること
・※利用者端末と物理的に近い場所に処理装置を分散配置して、ネットワークの端点でデータ処理を行う技術の総称
蒸留(distillation) ・軽量化の手法の一つ
・大きいモデルやアンサンブルモデルを教師モデルとして、その知識を小さいモデル(生徒モデル)の学習に利用する方法
モデル圧縮 ・学習や予測に要する時間を減らすことで、効率的な検証ができるようにすること。
・具体的には、メモリの使用量を削減したし、パラメータを少なくすることで計算量を減らす。
量子化 ・近似的にデータを扱うことをいい、情報量を少なくして計算を効率化する方法
プルーニング ・精度の低下をできるだけ低く抑えながら、過剰な重みを排除するプロセス

AIプロジェクトの進め方

項目 概要
CRISP-DM ・データマイニングの業界横断的な標準プロセス
・「ビジネスの理解」「データの理解」「データの準備」「モデリング」「評価」「展開・共有」の6つのプロセスがある
MLOps ・実験的な機械学習モデルを本番システムに組み込むプロセスのこと
BPR ・ビジネスプロセス・リエンジニアリング
・業務・組織・戦略を根本的に再構築すること
プライバシー・バイ・デザイン ・個人情報を取り扱うシステムを構築する際、その構想段階から個人情報保護のための方策を技術面・運用面・物理的設計面から作り込むこと

データの収集

項目 概要
データの収集AI ・クローラーは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラム
不正競争防止法 ・平成30年の改正で、一定の価値あるデータの不正な取得行為や不正な使用行為等、悪質性の高い行為に対する民事措置(差止請求権、損害賠償額の推定等)が規定された
特許法 ・AIが発明をした場合の取り扱いについては現状、規定がない。
サンプリング・バイアス ・選択バイアスとも呼ばれる。
・データにモデルの実際の活用環境が正確に反映されていない場合に生じる。
・例えば、日本人男性で学習したモデルに対し、白人女性の画像を与えると、精度が著しく低下する。
オープン・イノベーション ・企業間のコンソーシアムや、産学連携、企業の共同開発を通じて、社会的なインパクトを生むことを指す。
AI・データの利用に関する契約ガイドライン ・①データの利用等に関する契約、及び②AI技術を利用するソフトウェアの開発・利用に関する契約の主な課題や論点、契約条項例、条項作成時の考慮要素等を整理したガイドライン

データの加工・分析・学習

項目 概要
アノテーション ・日本語で言う「注釈」
・機械学習では、データに注釈を付けて教師データを作り出す作業
匿名加工情報 ・特定の個人を識別することができないように個人情報を加工し、当該個人情報を復元できないようにした情報のこと
カメラ画像利活用ガイドブック ・カメラ画像について、その特徴を踏まえつつ利活用の促進を図るため、事業者が、生活者のプライバシーを保護し、適切なコミュニケーションをとるに当たっての配慮事項を整理したもの
ELSI(ethical, legal and social implications) ・通称エルシー
・倫理的・法的・社会的課題の頭文字をとったもの
・特にゲノミクスとナノテクノロジーなど、新興科学の倫理的、法的、社会的影響または側面を予測して対処する研究活動を指す。
ライブラリ ・機械学習を実装する際に用いるツール
Docker ・コンテナ仮想化を用いてアプリケーションを開発・配置・実行するためのオープンソースソフトウェア
Jupyter Notebook ・PythonなどをWebブラウザ上で記述・実行できる統合開発環境
XAI(eXplainable AI) ・説明可能なAI
・予測結果や推定結果に至るブラックボックスのプロセスを、人間によって説明可能にしている機械学習のモデル。
フィルターバブル ・インターネットの検索サイトが提供するアルゴリズムが、各ユーザーが見たくないような情報を遮断する機能」のせいで、「泡」の中に包まれたように、自分が見たい情報しか見えなくなること
FAT(Fairness, Accountability, Transparency) ・公平性、説明責任及び透明性。
・「人間中心のAI社会原則」の基本原則に記載されている。
・AIを利用しているという事実の説明
・AIに利用されるデータの取得方法や使用方法
・AIの動作結果の適切性を担保する仕組み
PoC(Proof of Concept) ・概念実証は、新たな概念やアイデアの実現可能性を示すために、簡単かつ不完全な実現化を行うこと。

実装・運用・評価

項目 概要
著作物/著作権法(元データ) ・絵画や音楽など、元データに創作的な表現が含まれる場合、当該データは、著作権によって保護される
著作物/著作権法(ビッグデータ) ・ビッグデータは、その情報の選択や体系的な構成に創作性が認められる場合、その総体がデータベースの著作物として保護され得る
著作物/著作権法(学習済みモデル) ・AIのプログラムとパラメータの組み合わせを一体として、著作権法上の「プログラムの著作物」や特許法上の「物の発明」として保護し得る余地はある
営業秘密 ・「不正競争防止法」によって、①秘密管理性、②有用性、③非公知性を持つものは営業秘密として保護の対象と定められている。
限定提供データ ・不正競争防止法で、以下のように定義されている。
・『業として特定の者に提供する情報として電磁的方法(電子的方法,
磁気的方法その他人の知覚によっては認識することができない方法』
オープンデータに関する運用除外 ・不正競争防止法で、以下のように定義されている。
・『その相当量蓄積されている情報が無償で公衆に利用可能となっている情報と同一の限定提供データを取得し、又はその取得した限定提供データを使用し、若しくは開示する行為』
GDPR(General Data Protection Regulation) ・2018年に施行された個人データ保護やその取り扱いについて、詳細に定められたEU域内の各国に適用される法令
十分性制定 ・「個人情報保護体制がEU並みの水準にある」と、EUからのお墨付きを受けた国・地域
敵対的な攻撃(Adversarial attacks) ・このAIが「間違える」入力データを、人間にはほとんど分からない小さな変化を与えることにより意図的に作り、AIを騙す手法
ディープフェイク ・「深層学習」と「偽物」を組み合わせた混成語で、人工知能にもとづく人物画像合成の技術を指す。
アルゴリズムバイアス ・コンピュータ・システムの出力から生じる公平性の欠如のこと。

クライシス・マネジメント

項目 概要
クライシス・マネジメント ・危機は必ず発生するものという前提にもとづき、機能不全に陥ることを覚悟の上で、初期対応や二次被害の回避を行うこと。
・いわゆる「火消し」と「復旧」エスカレーションルールを策定することも重要。
有事への対応 ・クライシスの段階や希望に応じて、機動的に対応する
ことが求められる。
社会と対話・対応のアピール ・企業の透明性を担保し、説明責任を果たすことが重要「透明性のレポート」を公表し、個人情報等の取り扱いについて透明性を担保することで、ユーザの信頼を獲得する企業もある。
シリアス・ゲーム ・エンターテインメント性のみを目的とせず、教育・医療用途といった社会問題の解決を主目的とするコンピュータゲームのジャンル
Partnership on AI(PAI) ・2016年にAmazon,Google,Facebook,IBM,MicrosoftなどのアメリカIT企業を中心に組織された、AIの安全性や公平性、透明性などの取り組みを提示するもの
AWS(Autonomous Weapons Systems) ・自立型兵器。
・人間の介入なしに対象を選定し、攻撃する。
LAWS(Lethal Autonomous Weapon Systems) ・自立型致死兵器システム。
CCW(特定通常兵器使用禁止制限条約) ・LAWSに関する研究開発を禁止すべきと定める条約
アシロマAI原則 ・2017年に人工知能研究の会議で発表されたガイドライン人工知能が人類全体の利益となるよう、倫理的問題、安全管理対策、研究の透明性などについての23原則

その他

項目 概要
A-D変換 ・自然界の現象のアナログ信号をデジタル信号に変換すること
パルス符号変調 ・アナログ信号のデジタル化に用いられる変調方式
・自然界の現象のアナログ信号をデジタル信号に変換する際、標本化,量子化,符号化の3段階で行われる
標本化 ・アナログ信号を一定時間ごとに区切り、その値を読み込むこと(サンプリングとも呼ぶ)
量子化 ・標本化し読み込んだ値をデジタル信号に変換できるように加工すること
符号化 ・量子化された値を指定された二進コードなどで符号化すること
高速フーリエ変換 ・周波数成分として分解することをなるべく少ない計算量で行うこと
メル周波数ケプストラム係数(MFCC) ・音声認識や音楽ジャンル分類などで使われる特徴量であり,人間の聴覚特性を考慮した周波数スペクトルの概形を表す
フォルマント ・言葉を発してできる複数の周波数のピークを指す
音韻論 ・音素について研究する言語学の一部門であり,音韻とはある特定の言語の音の体系のことを指す
音素(phoneme) ・意味の違いに関わる最小の音声的な単位を音素(phoneme)といい,音声認識では音声データから特徴量を抽出するために,音素の抽出やノイズ除去のようなデジタル信号の波形に変換を行う
メル尺度 ・心理学者のStanley Smith Stevensらによって提案された, 人間が感じる音の高さに基づいた, 音高の知覚尺度である
・例えば人間が低音域の差は見抜けくことができるが, 高音域の違いを見抜くのが難しい. メル尺度も同様の考えであり, 周波数が高いほどメル尺度が増加しにくくなる

7. 法律・倫理・現行の議論

用語 説明
Coursera ・機械学習等の分野をオンラインで学ぶことができる教育プラットフォーム
MOOCs ・Courseraのような大規模なオンライン講座群のことで、Massive Open Online Coursesの略。
arXiv(アーカイヴ) ・機械学習等の論文をアップロード・ダウンロードすることができるプラットフォームで、最新の研究等の情報を閲覧することができる。
Tay ・Microsoft社が2016年に、19歳の女性の話し方を模倣するように設計されたチャットボット
・様々なソーシャルネットワークサービス(SNS)に向けてリリースしたが、リリースから数時間後、不適切な発言が多かった為公開停止
フィルターバブル現象 ・商品のレコメンドシステムや検索エンジンにおいて、自分が見たいものや欲しい情報のみに包まれてしまう現象で、インターネット活動家であるイーライ・パリサーが2011年に出版した著書名から名前が付けられた
ブラックボックス ・中身が分からない黒い箱。転じて、機械学習領域では予測根拠が分からない場合に使われる。ディープラーニング等のモデルが複雑になるほど、ブラックボックスである傾向が強い。
XAI ・解釈性の高いもしくは説明可能なAIのこと。米国DARPA(Defence Advanced Research Projects Agency: 国防高等研究計画局)が主導する研究プロジェクトが発端となり、XAI(Explainable AI)と呼ばれる。
透明性レポート ・顧客・社会に向けて、収集したデータやその扱い等について開示したもの
EU一般データ保護規則(GDPR) ・EUを含む欧州経済領域内にいる個人の個人データを保護する為のEUにおける統一的ルールである、域内で取得した「氏名」や「クレジットカード番号」等の個人データを域外に移転することを原則禁止している。EU域内でビジネスを行い、EU域内にいる個人の個人データを取得する日本企業に対しても、幅広く適用される。
匿名加工情報 ・個人方法を加工することで特定の個人を識別することができないようにし、当該個人情報を復元不可にした情報
改正著作権法(30条の4) ・「機械学習や深層学習のモデル作成のためであれば、著作物である生データ(文章、写真、静止画、動画など)を著作権者の承諾なく自由に記録や翻案ができる」ことが明記されている
・学習用データを第三者(例えば共同研究者)と共有したり、一般に販売したり、ネット上で公開したりすることも、一定の条件下では適法である
不正競争防止法 ・改正により、営業秘密や著作物に該当しない「特定提供データ」も保護されることとなった
人間中心のAI社会原則 ・2018年に内閣府によって制定された、AIをより良い形で社会実装し共有するための基本原則。社会(特に国などの立法・行政機関)が留意すべき原則をまとめたもの。基本理念は次の3つ
・人間の尊厳が尊重される社会(Dignity)
・多様な背景を持つ人々が多様な幸せを追求できる社会(Diversity & Inclusion)
・持続性ある社会(Sustainability)
・AI社会原則:セキュリティを確保できること
AI戦略2019 ・「人間中心のAI社会原則」において、Society5.0の実現を達成するために今後のAI利活用の環境整備・方策を示した戦略
米国人工知能研究開発戦略計画 ・National Artificial Intelligence R&D Strategic Plan
・AIにおけるリーダーシップの維持に関する大統領令をトランプ大統領が発出し、これを支援する目的で、大統領府の国家科学技術会議(NSTC)の人工知能特別委員会(Select Committee on Artificial Intelligence)がアップデートを発表した
信頼性を備えたAIのための倫理ガイドライン ・Ethics guidelines for trustworthy AI
・欧州委員会のAI高等専門家グループが2019年に発表
EAD ・Ethically Aligned Design、倫理的に調和された設計
・IEEEが作成した報告書
・AIに対する恐怖や過度な期待を払拭すること、倫理的に調和や配慮された技術をつくることによってイノベーションを促進すること等のメッセージが示された
パートナーシップオンAI ・Partnership on AI、PAI
・Amazon・Google・Facebook・IBM・Microsoftの5社が共同で設立。AI技術のベストプラクティスを研究・形成し、AIとその社会的影響について議論するためのプラットフォームになることを目的としている
・AppleやIntel、Sony、Salesforce、また電子フロンティア財団、国連児童基金などの非営利組織も加わった
AAAI ・Association for the Advancement of Artificial Intelligence、アメリカ人工知能学会
・AI技術を主題とする国際的な非営利の学術団体で、「思考と知性の根底にある機構を科学的に解明し、機械でそれを実現する」ことを使命とする
ELSI ・Ethical、Legal、Social、Implications / Issues、エルシー会
・倫理的・法的・社会的な課題。AI活用や医療研究の際に考慮すべき課題
エシカル・ウォッシュ ・倫理的消費を標榜しながら実際には倫理的消費に関連しない商品・サービスを行うこと
・AI倫理委員会を組織する場合にも、実効性のない名ばかりの委員会とならないよう注意する必要がある
LAWS ・Lethal Autonomous Weapon Systems、自立型致死性兵器
・現段階では存在しないが専門家間で議論が続いている
・2017年2月、The Future of Life InstituteにおけるアシロマAI原則にて「AIによる軍拡競争は避けるべきである」と明示された
KAIST ・Korea Advanced Institute of Science and Technology
・韓国の国立大学
・韓国の防衛関連企業ハンファシステムと共同で「国防人工知能融合研究センター」を設立し、人工知能を組み込んだ国防に関する研究を推進すると発表。これに対し世界中ののAI・ロボット研究者たちは“KAISTのような権威ある機関がAI兵器を開発し軍備競争を加速することは残念」と公開書簡で表明した
官民データ活用推進基本法 ・国及び地方公共団体はオープンデータに取り組むことが義務づけされた
・官民データ活用推進基本法(平成28年法律第103号)で、オープンデータへの取り組みが義務付けられ、オープンデータへの取り組み組により、国民参加・官民協働の推進を通じた諸課題の解決、経済活性化、行政の高度化・効率化等が期待されている
営業秘密 ・不競争防止法でデータ等の保護を図るには、営業秘密である必要がある
匿名加工情報 ・個人情報に含まれる個人識別符号の全部を削除が必要がある
不正競争 ・不競争防止法では、営業秘密不正取得行為等の「不正競争」を原則禁じている(不正競争防止法第2条第1項各号)
有用性、秘密管理性 ・不競争防止法で保護の客体となる営業秘密要件は不正競争防止法第2条第6項で定められている有用性、秘密管理性、及び、非公知性である
匿名加工情報 ・匿名加工情報として扱うには「特定の個人を識別すること及びその作成に用いる個人情報を復元することができないようにするため」加工を行う義務がある
・匿名加工情報であれば、一定の条件下で本人同意なく事業者間でやりとりが可能となる(個人情報の保護に関する法律第2条)
・匿名加工情報にするにはk-匿名化, マスキング等の匿名化技術がある
22
18
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
22
18

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?