Help us understand the problem. What is going on with this article?

Embeddingとは

Embeddingとは

Embeddingが出てきたので少しまとめる

  • 直訳すると「埋め込む」
  • 単語のような離散的なオブジェクトから実数のベクトルへのマッピング
  • ベクトルを与えること

keras documentationには

正の整数(インデックス)を固定次元の密ベクトルに変換します

こう書かれていました。
要はあるものにベクトルを与えるということです

例えば、自然言語処理の場合だと文や単語、文字など自然言語の構成要素に対してベクトルを「埋め込む」ということになります

Embeddingの種類

One-hot表現

(0,1,0,0) のように、1つの成分が1で残りの成分が全て0であるような表現
ex) A→(1,0,0)、B→(0,1,0)、C→(0,0,1)

メリット

  • 変数全てを同等に評価できる
  • 単純な線形分離がしやすくなる

デメリット

  • 変数の数が多くなる
  • メモリ使用量や計算量が大きくなる

Word2vec

大量のテキストデータを解析し、各単語の意味をベクトル表現化する手法です。
単語間の関連性を、対応するベクトル間演算(足し引き)で表現できる。
one-hot表現では単語の数だけベクトルを生成しなければいけませんでしたが、word2vecは単語の定義によってベクトル化して行きます。
つまり一つの単語をいくつかの要素で表現するようにします。
ex)「犬」= 「動物」+ 「可愛い」+ 「吠える」
こんな感じです。

word2vecは2層から成り、テキスト処理を行うニューラルネットワークです。 テキストコーパスを入力すると、出力結果には、ベクトルのセット、つまりコーパスにある単語の特徴量ベクトルが出されます。

テキストコーパスとは
文章を集めたもの
新聞記事、雑誌、小説、辞書など

word2vecにより単語間の意味に基いて関係性を持てるようになります。

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした