More than 1 year has passed since last update.

Pythonではじめる自然言語処理勉強メモ

Posted at 2024-11-19

自分用勉強メモです。自分なりにかみ砕いた内容になります。

形態素分析

文章を単語(形態素)単位で区切り、それぞれの品詞などを解析する分析。MeCabというエンジンが有名で、PythonやR、Rubyなどで使用することが可能。

文章において、その単語がいかに重要であるかを数値化したもの。対象の文章内で、対象の単語が出現する頻度を表すtfと、その単語が他の文章を参照したときにどれだけ希少であるかの程度を表すidfを用いて数値化を行う。tfとidfが小さいほど、if-idfの値は大きくなる。

単語分散表現という手法で、単語をベクトルとして表したもの。Pythonが単語ベクトルを扱うためのライブラリであるgensimは、文章の穴埋め問題を学習させ、空欄の前後関係からベクトルを定義する手法が用いられている(CBOW)。

単語間の類似度を測るための、単語ベクトルの内積から算出されるcosの値。cosは0~1の値をとり、1に近いほど類似度が大きいといえる。

nには自然数が入る。文章をn文字で分割し、分割したものを文章にラベルとして付与することで、検索などでヒットしやすくなるなどの用途で使用される。例えば、2-gramでは「面白い動画」とう名前の動画が「面白動画」でヒットするようになるイメージ。

上の動画を参考に、ハンズオンで学んだ内容をGitHubにまとめました。Windows用に内容を改変しています。

↓GitHub