自分用勉強メモです。自分なりにかみ砕いた内容になります。
形態素分析
文章を単語(形態素)単位で区切り、それぞれの品詞などを解析する分析。MeCabというエンジンが有名で、PythonやR、Rubyなどで使用することが可能。
tf-idf
文章において、その単語がいかに重要であるかを数値化したもの。対象の文章内で、対象の単語が出現する頻度を表すtfと、その単語が他の文章を参照したときにどれだけ希少であるかの程度を表すidfを用いて数値化を行う。tfとidfが小さいほど、if-idfの値は大きくなる。
単語ベクトル
単語分散表現という手法で、単語をベクトルとして表したもの。Pythonが単語ベクトルを扱うためのライブラリであるgensimは、文章の穴埋め問題を学習させ、空欄の前後関係からベクトルを定義する手法が用いられている(CBOW)。
cos類似度
単語間の類似度を測るための、単語ベクトルの内積から算出されるcosの値。cosは0~1の値をとり、1に近いほど類似度が大きいといえる。
n-gram
nには自然数が入る。文章をn文字で分割し、分割したものを文章にラベルとして付与することで、検索などでヒットしやすくなるなどの用途で使用される。例えば、2-gramでは「面白い動画」とう名前の動画が「面白動画」でヒットするようになるイメージ。
Pythonによる自然言語処理
上の動画を参考に、ハンズオンで学んだ内容をGitHubにまとめました。Windows用に内容を改変しています。
↓GitHub