This article is a Private article. Only a writer and users who know the URL can access it.
Please change open range to public in publish setting if you want to share this article with other users.

AWS Certified AI Practitioner（AIF）対策：トピックモデル

Last updated at 2025-01-17Posted at 2024-11-19

潜在的ディリクレ配分法（LDA）

トピックモデル（教師なし学習）の代表的な手法です。

テキストデータを分析し、文書内に潜むトピックを自動的に見つけ出す事ができます。
この手法では単語をベクトルで表し、トピックの数がそのベクトルの次元数となります。

例

ニュース記事が大量にある場合、LDAを使って、「政治」「スポーツ」「音楽」などのトピックを自動で見つけ、各記事がどのトピックにどれぐらい関連しているかを提示してくれます。

ニューラルトピックモデル

ニューラルネットワークを使って、テキストから潜在的なトピックを抽出する手法です。

特に 大量のテキストデータを分析する場面 で、トピックの精度や複雑なデータの処理に強みがあります。

特徴

より複雑で多次元的なトピックをモデル化

従来のトピックモデル手法であるLDAよりも高次元なデータに対しても効果的に機能します。

単語や文の意味を表すベクトル表現を使い、意味的に近いトピックをまとめやすい

従来の手法よりも文脈や類似性をより正確に捉えることができます。

例

ニュースサイトのように多様なテーマが含まれるデータを扱う際、「政治」「政治」「スポーツ」「音楽」などの話題が自然と浮かび上がり、それぞれの記事をこれらのカテゴリに分類できます。

読者が興味を持ちそうな話題を自動的に抽出し、記事をその話題ごとに分類されます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up