search
LoginSignup
8

More than 1 year has passed since last update.

posted at

updated at

ディープラーニングG検定 用語メモ(7.ディープラーニングの研究分野)

はじめに

ディープラーニングG検定の勉強用メモとして、参考書に出てきた用語をリストにまとめました。

参考資料

各章へのリンク

用語リスト

名前 説明
MobileNets CNNの一種。
リソースに制約のある組み込み機器などに使うため、速度を考慮して効率的に精度を上げることを可能としたモデル。
Depthwise separable convolutionという少ない計算量のアーキテクチャや、Width Multiplier、Resolution Multiplierというハイパーパラメータを調整して高速化を図る。
2017年にGoogleが発表。
物体検出 画像内の物体の位置とカテゴリー(クラス)を検出すること。
画像からバウンディングボックスと呼ばれる矩形領域を切り出して、位置とカテゴリーを特定する。
従来はSVMなどで物体位置を検出した後にカテゴリーを識別していたが、ディープラーニングを活用することで学習時間の短縮と検出精度の向上が実現できた。
R-CNN (Regions with CNN) 2014年に考案された、CNNを物体検出に応用したアルゴリズム。
人間の物体認識のように、領域(Region)ごとに特徴量を抽出する。
物体検出と別に物体領域候補を計算するため、実行時間がかかる。
Faster R-CNN 2015年に考案された、物体領域候補の抽出にDNNを使うことで高速化を図ったR-CNN。別名、高速R-CNN。
Faster R-CNNにより、一気通貫学習が可能になった。
YOLO (You Only Look Once) 2016年に考案された、R-CNNの改良版。
画像全体をグリッド分割し、領域ごとにバウンディングボックスを求める。
Faster R-CNNよりも識別精度は少し落ちるが、さらに高速。
SSD (Single Shot MultiBox Ditector) フィルタサイズを小さくして高速化を図ったアルゴリズム。様々な階層の出力層からマルチスケールな検出枠を出力できるように工夫されている。
物体セグメンテーション 画像認識の手法。
対象物体と背景を境界まで詳細に切り分けて識別する。
物体検出と違ってバウンディングボックスは使わない。
セマンティック・セグメンテーション 物体セグメンテーションの代表的手法。
領域分割を詳細に行い、入力画像のどの位置に物体が存在するかを画素(ピクセル)単位で特定する。
同じカテゴリーに属する複数の物体が同一ラベルとして扱われるので、隣接する人間を切り分けたりするのは難しい。
FCN (Fully Convolutional Networks) セマンティック・セグメンテーションの代表的手法。
CNNの応用だが、畳み込み層だけを使うので入力する画像サイズに制限がないのが特徴。
また、アップサンプリングにより画像の解像度を上げることで画質低下を防ぎ、出力画像の解像度を上げる。
インスタンス・セグメンテーション 物体セグメンテーションの手法。
セマンティック・セグメンテーションと違って個々の物体ごとに認識して切り分けるため、隣接する人間を切り分けることもできる。
画像キャプション作成 画像を入力すると、自動的に画像の説明文を生成する技術。
CNNとLSTM(RNNの改良版)を使う。
Gatys 2015年、ドイツのテュービンゲン大学で、ある芸術作品の画風を別の芸術家のものに変換するアルゴリズムを発表した人物。
DeepDream Googleが開発した画像生成システムで、画像生成ツールとして公開されている。
データ拡張
[Data Augmentation]
学習データを疑似的に増やすために加工を加えること。
例えば、画像データを反転させたり、輝度を変化させたりする。
学習データを増やすことで過学習を抑制する効果もある。
OpenCV (Open Source Computer Vision Library) 画像認識ライブラリの代表格。
マルチプラットフォーム対応であり、物体検出や領域分割なども行える。
2006年に1.0、2015年に3.0がリリースされている。
Google Cloud Vision API GCP(Google Cloud Platform)が提供している画像解析のプラットフォーム。
自然言語処理
[Natural Language Processing (NLP)]
人間が日常的に使う言語をコンピュータに処理させる技術。
単語のベクトル化に始まり、トピックモデルなどの意味理解への拡張、Word2Vecなどニューラルネットワークによる意味の実装、BERTなどTransformerを活用したモデルの公開、と精度が向上している。
形態素解析 自然言語処理で、自然言語を形態素まで分割し解析する手法。
形態素を辞書の情報と照らし合わせて品詞の種類などを判別する。
形態素 意味を持つ表現要素の最小単位。
データクレンジング 機械学習における、データを整える前処理。
自然言語処理においては、表記ゆれの統一や不要な文字の削除を行うこと。
BOW (bag-of-words) 自然言語処理で、データをベクトル化する手法の一つ。
TF-IDF 自然言語処理で、分割した単語の重要度を評価する手法。
構文解析 自然言語処理で、定義した文法に従って形態素間の関連付けを解析する処理。
CaboCha 日本語の構文的依存関係構造解析器。
アルゴリズムとして、SVMやCRF(条件付確率場)などの線形分類器を使う。
KNP 日本語の構文的依存関係構造解析器。
コスト最小法などのアプローチを行う。
Stanford Parser 英語の構文的依存関係構造解析器。
意味解析 自然言語処理で、構文解析をした文が表す意味構造を解析する処理。単語と単語の関連性を見て、文法として正しいか、意味が通じる文章かなども解析する。
センチメント分析
[Sentiment Analysis]
自然言語処理で、文章がポジティブ(肯定的)かネガティブ(否定的)かを解析する処理。テキストマイニング機能を使い、コメントの内容が肯定的/中立的/否定的のどれかを分類するのが一般的。感情解析とも。
SemEval 意味解析の評価型ワークショップ。タスクとして感情解析を採用している。
含意関係解析
[Recognizing Textual Entailment (RTE)]
自然言語処理で、2つの文があった場合、一方の文が他方の文の意味を含むかを解析する処理。
文脈解析 自然言語処理で、単体の文ではなく文章全体に意味を解析する処理。
照応解析 文脈解析のひとつで、文章内に存在する代名詞などの照応表現が示す場所を特定する。
談話構造解析 文脈解析のひとつで、文章内の文間の意味的構造を明らかにする。
分散表現
[Word Embeddings]
自然言語処理で、単語の意味をベクトル表現で表すこと。
埋め込みモデル[embedding models]とも。
従来の手法は統計的なカウントベースが主流で一度に大量の計算が必要だったが、ニューラルネットワークを用いた推論ベースの手法を用いることで少量の学習サンプルを使って逐次的に学習することが可能となった。
コーパス 自然言語処理のための大量のテキストデータ。
特異値分解
[Singular Value Decomposition (SVD)]
単語の特徴を表すベクトルを得るため、行列を複数の行列の積に分解する方法。
Word2Vec 分散表現の代表的モデル。
GoogleのTomas Mikolovが提案した。
文章中の単語を記号と捉え、文章を記号の集まりとすることで、記号をベクトルとして表現する。
スキップグラム
[Skip-Gram]
Word2Vecの手法の一つ。
ある単語から周辺の単語を予測するモデル。
CBOW (Continuous Bag-of-Words) Word2Vecの手法の一つ。
周辺の単語からある単語を予測するモデル。
fastText Word2Vecの後継モデルの一つ。
ELMo (Embedding Language Modeling) Word2Vecの後継モデルの一つ。
トピックモデル 自然言語処理のアプローチで、文章中の話題(トピック)やテーマを抽出するモデル。
文書の抽象度を上げて概念(どういう内容か)を特定する。
潜在的意味解析
[LSI(Latent Semantic Index), LSA(Latent Semantic Analysys)]
トピックモデルの手法の一つ。
文章の類似性を見つけるため、特異値分解を使って同じ意味を持つ単語をグルーピングし文章の情報量を凝縮する。
1つの文章に1つのトピックしか持てない。
確率的潜在意味解析
[Probabilistic Latent Semantic Analysys(PLSA)]
潜在的意味解析の応用手法で、LSAを確率的に発展させたアルゴリズム。
文章が複数のトピックに割り当てられていることを確率的に表現できる。
潜在的ディリクレ配分法
[Latent Dirichlet Allocation(LDA)]
PLSAの応用手法。
ディリクレ分布という確率分布を仮定してトピックの確率を生成する。これにより過学習を防ぐ効果がある。
機械翻訳 自然言語処理の生成技術の代表。
ルールベース機械翻訳、統計的機械翻訳、ニューラル機械翻訳がある。
ルールベース機械翻訳
[Rule Based Machine Translation(RMT)]
機械翻訳手法の一つ。
登録済みの文法(ルール)を適用することで原文を分析し、訳文を出力する。
古くからある手法だったが、手動で大量ルールを登録する必要があったり、ルール変更の影響が大きいなどの問題があり、統計的機械翻訳に地位を奪われていった。
統計的機械翻訳 機械翻訳手法の一つ。代表に、n-gramがある。
コンピューターに学習用のパラレルコーパス(対訳文対)を与え、統計モデルを学習させることで訳文を出力する。
大量のコーパスが必要だが、学習データさえあれば低コストで高性能な翻訳器を作れる。
ニューラル機械翻訳の精度が向上したため、地位を奪われていった
ニューラル機械翻訳
[Neural Machine Translation(NMT)]
機械翻訳手法の一つ。
ニューラルネットワークを利用する。
リカレントニューラルネットワーク言語モデル
[Recurrent Neural Network Language Model(RNNLM)]
エンコーダ・デコーダモデルの入出力など、RNNを内部状態として採用しているNMT。
系列変換モデル
[Sequence-to-Sequence(seq2seq)モデル]
機械翻訳の有名な生成モデルの一つ。RNNを使用する。
2014年に発表された。
GNMT (Google Neural Machine Transration) Attentionの応用事例の一つで、エンコーダ・デコーダ機械翻訳モデルにLSTMやスキップコネクションを取り入れたモデル。これもRNNを使用する。
Googleが2016年に発表した。
Transformer Self-Attentionという手法により、一つの時系列データに対してAttentionすることで、各要素が他の要素とどのように関連しているかを見られる。
ユニバーサルセンテンスエンコーダ
[Universal Sentence Encoder]
Transformer向けに自然言語処理の様々なデータセットを使ってマルチタスク学習させて得られたエンコーダ。
MT-DNN (Multi-Task DNN) 2019年にMicrosoftが公表した自然言語モデル。
GPT-2 OpenAIが発表した、GPTの後継となる言語モデル。
リアルなフェイクニュースなどを生成できる恐れがあり、危険すぎるとしてオープンソース化されなかった。
MeCab 日本語の形態素解析ライブラリ。
JUMAN 日本語の形態素解析ライブラリ。
NLTK (Neural Language Toolkit) 自然言語処理ライブラリ。
spaCy 自然言語処理ライブラリ。
OpenNLP 自然言語処理ライブラリ。
Stanford CoreNLP 自然言語処理ライブラリ。
GiNZA リクルートが公開した自然言語処理ライブラリ。
隠れマルコフモデル
[Hidden Markov Model (HMM)]
直前の結果のみから次の結果が確率的に求まるという「マルコフ性」を仮定して、事象をモデル化する手法。
GMM-HMM 音声認識における音響モデルの一種。隠れマルコフモデルの出力確率にガウス混合分布を用いたモデルで、2010年頃まで音響モデルの主流だった。
DNN-HMM GMMによる確率計算をDNNに置き換えた音響モデル。
CTC (Connectionist Temporal Classification) HMMではなく、RNNの一種であるLSTMを用いた音声認識モデル。
音響特徴量 音声認識で、歌唱データを分析することにより出現する特徴量。
音素 母音、子音などの、音の最小構成単位。
Siri Appleの音声認識AIアシスタント。
Alexa Amazonの音声認識AIアシスタント。
Cortana Microsoftの音声認識AIアシスタント。
WaveNet ディープラーニングを音声合成に利用したアルゴリズム。Google Homeなどに使用されている。
Google Duplex 2018年にGoogleが発表した、音声AIによる電話予約代行サービス。
スマートスピーカー 対話型の音声操作に対応したAIアシスタント機能を持つスピーカー。AIスピーカーとも。
Google Home Googleのスマートスピーカー。
Amazon Echo Amazonのスマートスピーカー。
Clova WAVE LINEのスマートスピーカー。

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
8