Amazon SageMaker BlazingText は、
高速でスケーラブルなテキスト埋め込み(Word Embedding)とテキスト分類 を行うための、Amazonが提供するアルゴリズムの一つです。
簡単にまとめると:
項目 | 内容 |
---|---|
主な用途 | ① Word2Vecによる単語の埋め込み(Word Embedding) ② テキスト分類(Text Classification) |
特徴 | - 高速(C++マルチスレッド実装) - 大規模データに対応(分散トレーニング可能) - CPU・GPUどちらでも動作 |
サポートするモード | - unsupervisedモード(教師なし:Word2Vec) - supervisedモード(教師あり:テキスト分類) |
類似技術 | GensimのWord2Vec、fastText(Facebook発の技術、特にfastTextに近い) |
少し詳しく:
- unsupervisedモードでは、単語同士の意味的な距離を学習し、似た意味の単語を近くにマッピングします。(例:「犬」と「猫」が近くなる)
- supervisedモードでは、例えばニュース記事から「スポーツ」「政治」などカテゴリを分類するモデルを作れます。
要するに、
BlazingText = 高速版Word2Vec & 高速テキスト分類ツール
とイメージするとよいです!