論文等を読んでいる時などによく出てくる単語で、馴染みがないと読みにくい単語をまとめたものです。
自分がなんだこれって思ったものを載せていくので、拡張予定です。
NLPを学び始めた学生などの役に立てば幸いです。
ワンホット(one hot)表現
単語の表現方法の1つ。
各次元が その単語か否か
を表している。単語数次元。
例えば apple をワンホット表現で表すと、 apple の次元だけ1で、他の次元が0のベクトルとなる。
補足
未知語はゼロベクトルになってしまう。
ゼロベクトルになってしまうと、学習時に出てきていない単語をうまく扱えないので、これをそのまま使うことはしない。
分散表現(単語埋め込み(word embedding))
単語のベクトル。数百次元。
論文で出てくる word embedding は同じ意味。
代表的なのが、 word2vec で、近い意味の単語のベクトルは近いベクトルになるように学習される。
どのようにこの分散表現を得るかなどは以下のスライドなどに譲ります。
http://www.slideshare.net/naoakiokazaki/ss-55494101
補足
近年自然言語処理の研究で用いられる Neural Network のモデルを学習する際に embedding も更新されていく。初期値として word2vec を使うことが多い。
oracle
全正解を知ってる神みたいな存在。本当はわからない情報を与えて解いた場合の精度。
例えば意味役割付与とかで品詞タグとか構文木とか、本当は解析して付与する情報を与えてそこの誤りの影響を無視して精度の上限を見たりする。
lexicon
語彙。辞書。
syntactic
構文。
syntactic analysis: 構文解析
entity
名詞とかを表す。
named entity: 固有表現
knowledge base (KB)
日本語では知識ベースと言い、知識を組織化してデータベース化したもの。
Freebase
knowledge base の一種。
実験のデータで使われることがある。
以下2010年の参考記事( https://osdn.jp/magazine/10/07/20/1114240 )による記述。
映画、本、TV番組、セレブ、企業など1200万以上のエントリを含む大規模な情報データベース。誰もが貢献・共有できるオープンな共有型知識データベースで、開発者はFree APIを利用して、Freebaseの構造データを自分たちのアプリケーションやサービスに統合できる
ontology
明確な定義はないが entity や concept に関する知識ベースだと思っておけば良さそう。上位下位関係とか属性/値知識とかそういうのをまとめたもの。
distant supervision
- ラベル付きデータの情報を手がかりに全く別のラベルなしデータからラベル付きの学習データを生成し、モデルを学習する手法。
http://d.hatena.ne.jp/a_bicky/20150309/1425856724