2019/12/03追記
タイトル変更しました。
旧タイトル:ディープラーニングG検定用単語集
単語の意味がわからない…
やったことがない分野の技術書を読んでいるとちょいちょい遭遇する「この単語なんて意味だっけ?」現象。
その度にテキストを戻るのは面倒なので1ページにまとめました。
注意事項
- JDLA Deep Learning for GENERALで出てきそうな範囲だけをカバーしています。それ以外の用途には不向きかと思われます。
- 間違っているところがあるかもしれません。見つけたらコメントいただけると幸いです。
単語一覧
※Command(Ctrl)+Fで検索できるよ!
単語 | 意味 |
---|---|
人工知能(AI) | ダートマス会議でジョン・マッカーシーが初めて使った言葉。「推論/認識/判断等の知的な処理能力を持つ機械」である点は大多数の研究者で一致しているが、厳密な定義はなく研究者によって意味合いが異なる。 |
AI効果 | 知能と思われていたものがAIで実現し、原理がわかると「それは知能ではない」とする人間の心理。 |
ダートマス会議 | 1956年にアメリカで開催されたAIに関する会議。 |
ENIAC(エニアック) | 1946年アメリカのペンシルベニア大学で誕生した世界初の汎用電子式コンピュータ。 |
ロジック・セオリスト | アレン・ニューウェルとハーバード・サイモンがダートマス会議で披露した世界初の人工知能プログラム。数学の定理を自動で証明することが可能であると示した。 |
第1次AIブーム | 推論や探索を主とする時代。1950年代後〜1960年代を指す。 |
第2次AIブーム | 知識の量を主とする時代。1980年代を指す。 |
第3次AIブーム | 機械学習や特徴表現学習を主とする時代。2010年以降を指す。 |
トイ・プロブレム(おもちゃの問題) | 定理の証明や機械翻訳などの簡単な問題のこと。これが解けるが現実の複雑な問題が解けないことが明らかになり、第1次AIブームは冷めた。 |
エキスパートシステム | データベースに専門家、ドキュメント、事例等の専門知識を詰め込むことで賢くするというアプローチ。第2次AIブームで流行したが、知識が豊富になると暗黙的であり収集が困難だったり、蓄積/管理の手間が膨大なためブームは冷めた。規則に基づいて集められた知識の塊である「知識ベース」とそれを用いて推論を行う「推論エンジン」から構成されている。 |
第五世代コンピュータ | 日本製のエキスパートシステム。 |
ビッグデータ | 膨大な量のデータのこと。Webの発展やIoTによって従来とは比にならない量のデータが蓄積可能となった。 |
機械学習 | 第3次AIブームの主力。データから人工知能が自ら学習を行う。サンプルデータが多ければ多いほど望ましい学習結果が得られる。 |
特徴量 | 知識を定義する要素のこと。対象を認識する時に注目する箇所を定量的に表したもの。機械学習では特徴量を人間が設定するが、ディープラーニングではコンピュータ自身が特徴量を見つけ出す(=これを特徴量表現学習という)。 |
ディープラーニング | ニューラルネットワークであるパーセプトロンを多層化したもの。3層までは学習精度が高まるが、より多層してもそれ以上高まらない欠点がある。これを解決するため、バックプロパゲーションやオートエンコーダが使用される。 |
AlphaGo | Deepmind社が開発した囲碁の対戦プログラム。囲碁のトップ棋士を破り、AIブームの火付け役となった。 |
シンギュラリティー | またの名を技術的特異点、2045年問題。レイ・カーツワイルが提唱した「強いAIが自分より賢い強いAIを作れるようになり、人類の知性を超える優秀な知性(スーパーインテリジェンス)が2045年ごろに誕生する」という仮説。人類の知性を超えた知性が誕生することになるため、何が起こるか予想ができない。このため人工知能脅威論もあり、各種倫理委員会が設立されることになった。 |
探索木 | 探索で使用される場合分けの方法。スタート地点から場合分けを行なっていき、全体として木構造(ツリー構造)になった状態。探索ではこの構造をどのように探索するかを検討する。 |
幅優先探索 | ノードAにノードB、ノードCが接続されている場合、ノードB→ノードC→ノードBの子ノード→ノードCの子ノードといった具合に隣へ隣へと探索する方法。最短距離で答えを出せるが、経路を覚えているためメモリを必要とする。 |
深さ優先探索 | ノードAから子ノード、孫ノードと辿り、見つからなければ1つ前に戻って別ノードを検索する方法。一つ前のノードを覚えていればいいのでメモリを必要としないが、答えに最短距離でたどり着けるわけではない。運が良ければ最短、悪ければ最長になる。 |
プランニング | ある状態から別の状態を想定して探索を行うこと。 |
STRIPS | Stanford Research Institute Program Solver。<前提条件>、<行動>、<結果>で記述するプランニングの一つ。 |
SHRDLU | 1970年にスタンフォード大学のテリー・ウィノグラードが開発したシステム。英語の指示により「積み木の世界」に存在する物を動かすことができた。成果は Cycプロジェクトへ引き継がれた。 |
コスト | 探索にかかる計算量。組み合わせは深さをますに連れて探索にかかる計算量が指数関数的に増大するため、コストがかかりすぎる組み合わせを省略することで探索可能な範囲に収めている。コストの計算方法は事前に決めておく必要がある。 |
ヒューリスティックな知識 | 探索を効率化することに有効である知識。これを用いることで不完全な情報でも探索や推論が可能になる。 |
Mini-Max法 | ゲーム戦略に用いられる考え方。自分が行動する時(例:将棋や囲碁で指す時)にスコアが最大(=自分が有利)になるように、相手が行動する時にスコアが最小(=相手が不利)になるように戦略を立てること。 |
αβ法(アルファベータ法) | Mini-Max法による探索をできるだけ減らすための手法。現時点のスコアと探索するスコアを比較してノードを探索対象から除外して計算量を削減する。αカット、βカットがある。 |
αカット(アルファカット) | 最小のスコアを選ぶ際、既に出現したスコアより高いスコアが現れたノードを探索対象から除外する。 |
βカット(ベータカット) | 最大のスコアを選ぶ際、既に出現したスコアより低いスコアが現れたノードを探索対象から除外する。 |
モンテカルロ法 | ゲーム戦略に用いられる手法。ある盤面から終局までを完全にランダムな行動で終局(プレイアウト)させ、どの方法が最も勝率が高かったかを評価する。スコアの評価に人間を介在させず、数多の盤面から最良を選んで評価する。ブルートフォールスな手法のため、組み合わせが増えると立ち行かなくなる。 |
人工無脳 | チャットボット、おしゃべりボットとも呼ばれる、特定のルールに従って会話を機械的に処理するプログラム。会話の内容は理解していない。 |
ELIZA(イライザ) | 1964から1966年にかけてジョゼフ・ワイゼンバウムによって開発された人工無脳の元祖。会話する人間の中には知性があるとする者もいたため、コンピュータによる意思決定の危険性を警告するまでになった。 |
MYCIN(マイシン) | 1970年にスタンフォード大学で開発されたエキスパートシステム。診断支援をするルールベースのプログラム。69%の確率で正しい処方を行い、専門外の医師よりは高い正答率を達成した。 |
DENDRAL | 1960年代にエドワード・ファイゲンバウムによって開発された未知の有機化合物を特定するシステム。 |
インタビューシステム | エキスパートシステムに入力するため、データをヒアリングして収集するシステム。 |
意味ネットワーク(semantic network) | 概念をラベルのついたノードで表したネットワーク。認知心理学における長期記憶の構造モデルとして考案され、現在人工知能の知識表現方法の一つとなっている。 |
is-a | 意味ネットワークの関係性表現。ノード間を矢印で表す。矢印の始点が下位概念、終点が上位概念を示す。「ノードA←ノードB」の場合「ノードBはノードAである」となる。 |
part-of | 意味ネットワークの関係性表現。ノード間を矢印で表す。矢印の始点が一部、終点が全体を示す。「ノードA←ノードB」の場合「ノードBはノードAの一部である」となる。 |
オントロジー | 「語彙」「意味」「関係性」を他者と共有できるように定められた概念化の仕様。 |
Cycプロジェクト | 1984年にダグラス・レナートによって開始された、全ての一般常識をコンピュータに取り込もうとするプロジェクト。 |
推移律 | 「AとBの関係」と「BとCの関係」が成り立っていれば「AとCの関係」が成り立つという関係性。is-a同士は成立するが、part-of同士では成立しないことがありうる。 |
ヘビーウェイトオントロジー(重量オントロジー) | 対象世界の知識をどのように記述すべきか哲学的な考察を用いたのち、取り込む手法。人間が関わることになる傾向が強く、時間的/金銭的コストがかかる。 |
ライトウェイトオントロジー(軽量オントロジー) | 効率を重視して完全に正しいものではなくとも取り込む手法。構成要素の分類関係や正当性について深い考察を行わないことから、コンピュータが自動的に実行できる。 |
ウェブマイニング | ウェブデータを解析して知識を取り出す手法。ライトウェイトオントロジーの一種。 |
データマイニング | ビッグデータを解析して知識を取り出す手法。ライトウェイトオントロジーの一種。 |
ワトソン | IBMが開発した質問応答システム。Wikipediaの情報を元にライトウェイトオントロジーを生成して、質問に含まれるキーワードから解答たるべきものを高速に検索している。 |
東ロボくん | 2011年から2016年にかけて開発された東大合格を目指して開発された人工知能。ほとんどの私大に合格可能な成績に達したが、質問の意味を理解していないため読解力に乏しく、技術的ブレイクスルーが必要とされ凍結された。 |
レコメンデーションエンジン | 機械学習によりユーザーの好みを推測するシステム。 |
スパムフィルター | 機械学習により迷惑メールを検出するシステム。 |
統計的自然言語処理 | 文の長さに応じて指数関数的に増大する計算量に対し、膨大な対訳データから正解と思われる文を導出する処理。 |
コーパス | 統計的自然言語処理で使用する対訳データのこと。 |
ニューラルネットワーク | 人間の神経回路を模倣してネットワークを形成して学習を実現する手法。ニューロンの代わりにパーセプトロンが用いられる。 |
単純パーセプロトロン | またはパーセプトロン。1958年にフランク・ローゼンブラットが提案したニューラルネットワークの元祖。ロジスティック回帰とモデルは同一。 |
マービン・ミンスキー | 人工知能の大家。特定の条件下の単純パーセプトロンでは直線で分離できるような問題しか解けないことを指摘した。 |
バックプロパゲーション(誤差逆伝播学習法) | |
オートエンコーダ(自己符号化器) | 入力層と出力層に同じデータを採用し、隠れ層にその特徴を学習させるニューラルネットワーク。入出力ともにデータがあるが、教師なし学習。隠れ層は入力層/出力層に比べて次元が小さい。これにより、入力より少ない特徴から出力を表現することになる。 |
ILSVRC | Imagenet Large Scale Visual Recognition Challenge。画像認識の精度を競い合う競技会。 |
SuperVision | トロント大学が開発し、2012年のILSVRCで優勝した画像認識の手法。特徴量を人間が決めていた時代にディープラーニングを適用し、初参加にもかかわらず大差をつけて優勝した。 |
フレーム問題 | 1969年にジョン・マッカーシーとパトリック・ヘイズが提唱した、実行しようとしていることと関連がある事柄を選び出すことが難しいという人工知能研究最大の難問。用途が限定されている環境では問題ないが、多種多様な状況に対応する人工知能では無視できない。例え話としてダニエル・デネットの問題を解決できないロボットの話がある。 |
チューリングテスト | アラン・チューリングが提唱した人工知能かどうかを判定するテスト。遠隔地にいる人間がコンピュータと会話し、コンピュータと見抜けなければ知能があると判断する。初の合格は2014年にEugene Goostman(ユージーン・グーツマン)。 |
ローブナーコンテスト | 1991年から毎年開催されるチューリングテストに合格する会話ソフトウェアを目指すコンテスト。 |
強いAI | 1980年にアメリカの哲学者ジョン・サールが発表した論文で示したAIの区分。人間が心を持つのと同じ意味で心を持ち、プログラムそれ自身が人間の認知の説明になるようなAI。本物の心を持つ人工知能は実現可能とする立場。ロジャー・ペンローズは意識は脳内の微細な管に生じる量子効果が絡んでおり、既存のコンピュータでは実現できないと主張している。 |
弱いAI | 1980年にアメリカの哲学者ジョン・サールが発表した論文で示したAIの区分。人間の心は必要なく、有用な道具としてのAI。 |
中国語の部屋 | ジョン・サールが唱えた「チューリングテストに合格しても知能があるかはわからない」ことを示すための例え話。英語しかわからない人間がいる部屋に中国語の質問が入れられると、中国語の解答が出力される。部屋の中の人間は中国語の質問に答えるための英語のマニュアルを使用しているにすぎないが、外部からは中国語がわかる人間がいると思われる。 |
シンボルグラウンディング問題 | スティーブン・ハルナッドにより議論された「シンボル(記号)と対象がいかにして結びつくか」という問題。フレーム問題同様、人工知能の難問。「シマ(縞)」と「ウマ(馬)」を理解していても、「シマウマ(縞模様の馬)」を関連づけて認識できないような状態を指す。 |
身体性 | 知能が成立するためには身体が不可欠だとする考え方。外界と相互作用がなければ概念はとらえきれないとするのが身体性に着目したアプローチである。 |
知識獲得のボトルネック | どれだけ知識を蓄積したとしても、一般常識のような暗黙的かつ膨大な知識をすべてコンピュータに入れることは不可能である。このようなコンピュータが知識を獲得することをの難しさを指す。 |
特徴量表現学習 | ディープラーニングで使用する特徴量をコンピュータ自身が見つけだすアプローチ。コンピュータが自動的に見つけだした特徴量は意味と対応しているか判断できない。このため、ディープラーニングは「判断理由が示せないブラックボックス型の人工知能」と呼ばれる。 |
教師あり学習 | 与えられたデータ(入力)を元に、どのようなパターン(出力)になるのかを識別/予測する学習方法。入力と出力はセットになっており、入力から出力へ至るための関数を見つけ出すことが目的。入力と出力のセットを作る必要があるため、事前準備に手間がかかる。 |
教師なし学習 | 与えられたデータ(入力)そのものが持つ構造/特徴を識別する学習方法。分類や特徴量が最も高いもの(主成分)を見つけ出すことが目的。予想外の結果が得られることがある。 |
半教師あり学習 | 一部データは入力と出力のセットを、それ以外は入力のみのデータで行う学習方法。セットになったデータに付与されているラベルを入力のみのデータへと展開することで、より多くのデータを使用した識別/予測が可能になる。セットのデータに偏りがある場合、うまく学習できなくなってしまうことがある。 |
回帰問題 | 連続値を予測する問題のこと。 |
分類問題 | 離散値を予測する問題のこと。 |
線形回帰 | 教師あり学習で用いられるモデルの一つ。データの分布に対し、最も当てはまる直線を考えるもの。連続値に対して用いられる。 |
ラッソ回帰 | 教師あり学習で用いられるモデルの一つ。線形回帰にL1正規化を加えた手法。 |
リッジ回帰 | 教師あり学習で用いられるモデルの一つ。線形回帰にL2正規化を加えた手法。 |
ロジスティック回帰 | 教師あり学習で用いられるモデルの一つ。データの分布に対し、分類を行うもの。名前に「回帰」と付いているが、回帰ではなく分類に使用されるので注意。 |
シグモイド関数 | ロジスティック回帰等の2種類を分類する際に用いられる関数。0から1の間に写像し、trueかfalseかで見分ける。 |
正例 | シグモイド関数で+1とされること。true。 |
負例 | シグモイド関数で0とされること。false。 |
ソフトマックス関数 | 3種類以上を分類したい際にシグモイド関数に代えて用いられる関数。 |
ランダムフォレスト | 入力された複数の特徴量のうち、着目する特徴量をランダムに決定してその特徴量ごとに決定木を生成する手法。予測結果がそれぞれの決定木で異なるが、その多数決を取ることで良い精度を得ようとする。 |
決定木 | 分類や回帰のルールをツリー構造で表したもの。ここではランダムフォレストによって生成される特徴量に基づいた分岐路を指す。 |
ブートストラップサンプリング | ランダムフォレストで各決定木にデータを渡す際、全データではなく一部のデータを渡して学習を行うこと。このため、「ランダムなデータ×ランダムな特徴量からなる決定木」で学習が行われる。並列で学習するため高速に学習できるが、ブースティングより精度は落ちる。 |
アンサンブル学習 | ランダムフォレストで生成された複数の決定木(=モデル)で学習を行うような「複数のモデルで学習させる」こと。 |
バギング | 全体から一部のデータを用いて、それを複数のモデルで並列に学習させる方法。ランダムフォレストはバギングの「モデル」に決定木を用いている方法と言える。 |
ブースティング | 全体から一部のデータを用いて、それを複数のモデルで逐次的に学習させる方法。まず1つのモデル(n)で学習し、次のモデル(n+1)は前のモデル(n)で誤認識したデータを優先的に正しく分類できるよう学習を行う。これを繰り返して1つのモデルとして出力を行う。誤認識の修正が繰り返されるため精度は高いが、学習に時間がかかる。 |
サポートベクターマシン(SVM) | 入力された各データ点との距離が最大となるような境界を求めることでパターン分類を行う手法。扱うデータが高次元かつデータが線形分類できない問題を持つが、高次元に写像することで分類が可能となった。 |
マージン最大化 | SVMで距離が最大となるような境界を求めること。 |
カーネル関数 | SVMで写像に用いられる関数のこと。 |
カーネルトリック | SVMでカーネル関数を用いて写像すること。 |
入力層 | パーセプトロンが入力を受け取る部分のこと。 |
出力層 | パーセプトロンが出力を行う部分のこと。 |
重み | 入力層と出力層の繋がりがどの程度であるかを表したもの。 |
活性化関数 | 層の間で電気信号をどのように伝播させるかを調整する関数のこと。 |
多層パーセプトロン | 単純パーセプトロンでは線形分類しか行うことができないという欠点を解決するため、さらに層を追加していくというアプローチ。 |
隠れ層(中間層) | 多層パーセプトロンにおいて、入力層と出力層に挟まれた層のこと。挟まれていれば隠れ層なので、2層以上存在することもある。(というかそれをやるのがディープラーニング) |
k-means | 教師なし学習で用いられるモデルの一つ。入力データからk個のグループ構造を見つけ出してまとめる手法。いくつにまとめるか(k個)は自分で設定する値となる。また、まとめられたグループがどのような意味か解釈するのは人間の作業となる。 |
クラスタ分析 | データのグループのこと。 |
主成分分析 | 教師なし学習で用いられるモデルの一つ。入力データの特徴量同士の関係性(相関)を分析することでデータ構造を掴む手法。特徴量の数が多い場合に用いられ、多数の特徴量から相関のない少数の特徴量へと次元削減することが主となる。 |
主成分 | 主成分分析で次元削減した際に得られる少数の特徴量のこと。 |
訓練データ | 全データのうち、学習用に用いられるデータのこと。 |
テストデータ | 全データのうち、評価用に用いられるデータのこと。ネットワークにとっては未知のデータとして扱われる。 |
交差検証 | データを分割して評価を行うこと。 |
ホールドアウト検証 | 全データを訓練データとテストデータの2つに分割して検証を行うこと。テストデータの内容によってはたまたま良い成績になってしまうことがある。 |
k-分割交差検証 | 全データを訓練データとテストデータに分割する際、テストデータにする範囲を変更しながら複数回分割を行い、検証を行うこと。全データaに対し、1回目はa1+a2+a3が訓練データでa4がテストデータ、2回目はa1+a2+a4が訓練データでa3がテストデータ…といったようにテストデータとして使用する箇所を変えながら検証を行う。 |
検証データ | 訓練データをさらに分割したもの。訓練データで訓練を、検証データで確認を、調整後テストデータでテストを行う。 |
混同行列 | 判別する項目と予測値と実際の値を表す表のこと。項目が「犬」と「狼」ならば「予測が犬、実際が犬」「予測が犬、実際が狼」「予測が狼、実際が犬」「予測が狼、実際が狼」といった4通りの図となる。 |
真陽性(true positive/TP) | 陽性側で予測値と実際の値が一致した組み合わせ。 |
偽陽性(false positive/FP) | 陽性側で予測値と実際の値が一致しなかった組み合わせ。 |
真陰性(true negative/TN) | 陰性側で予測値と実際の値が一致した組み合わせ。 |
偽陰性(false negative/FN) | 陰性側で予測値と実際の値が一致しなかった組み合わせ。 |
正解率(accuracy) | 全データ中どれだけ予測が当たったかの割合。計算式は「accuracy=TP+TN/TP+TN+FP+FN」。 |
適合率(precision | 予測が正の中で実際に正だった割合。計算式は「precision=TP/TP+FP」。 |
再現率(recall) | 実際に正であるものの中で、正だと予測できた割合。計算式は「recall=TP/TP+FN」。 |
F値(F measure) | 適合率と再現率の調和平均。 |
オーバーフィッティング(過学習) | 訓練データに最適化され過ぎてしまい、汎化性能が悪い状態。機械学習にとって最も注意すべき問題の一つ。 |
アンダーフィッティング | 訓練データを正規化しすぎてしまい、全体の汎化性能が低下した状態。訓練データすら判別がうまくいかない。 |
正規化 | 処理しやすくするためにデータの大きさばらつきを揃えること。データをスケーリングすること。 |
L1正規化 | 一部のパラメータの値をゼロにする正規化。特徴選択が可能になる。 |
L2正規化 | パラメータの大きさに応じてゼロに近づける正規化。汎化されたなめらかなモデルを得ることが可能。 |
Elastic Net | L1正規化とL2正規化の両方で正規化した状態。 |
※4章までの内容を記載。
番外編
単語 | 意味 |
---|---|
PARRY | ELIZA同様初期の会話ボットとして有名。 |
RFC439 | ELIZAとPARRYの会話が残っているRFC。 |
ニューロン | ニューラルネットワークで使用される予測器。ニューラルネットワークの最小単位。 |
標準化 | 平均を0に、分散を1に変換すること。 |
基礎集計 | 前処理さらに前にデータの傾向を把握するために行う作業。各種代表値の計算、散布図行列のプロットや相関行列による傾向分析を指す。 |
特徴量エンジニアリング | データからモデルが認識しやすい特徴を作ること。 |
カテゴリカル変数 | 何かの種類であることを表す変数。 |
one-hot-encoding | カテゴリカル変数をカテゴリカル変数であると分かる形に変換すること。 |
スラック変数 | サポートベクターマシンで誤分類を許容する程度。 |
参考文献
- 深層学習教科書 ディープラーニングG検定 公式テキスト ISBN 978-4-7981-5755-9