More than 3 years have passed since last update.

単語の重要度の指標tf-idfの数式の感覚的な説明

Last updated at 2021-07-31Posted at 2021-07-31

tf-idf stands for what?

tfはTerm Frequencyの略です。
また、idfはInverse Document Frequencyの略です。

ざっくりいうと、tfとidfを掛け合わせたものがtf-idfという指標です。

数式がわかりづらいと感じたので、自分なりの解説を載せます。

前提

単語文書行列の要素(i,j)には特定の単語の、特定の文書における出現回数$n_{ij}$が入っているとします。

tf

Term-frequency、文書頻度の計算式には単語文書行列での添字i,jが両方ついていることに注目してください。
これは、tfが、特定の単語の特定の、特定の文書における頻度の指標として定められていることを表します。

tf_{ij}=\frac{n_{ij}}{\Sigma_k n_{kj}}

分母ではすべての単語について和がとられています。
分母では、特定の文書に含まれている、注目している単語だけでなく、すべての単語の出現回数の総和を考えられています。つまり、ある文書での、そのような全単語の出現回数の総和に対する、注目している単語の出現頻度の比を考えたものが、tfということです。

idf

Inverse document frequency

idf_i=log \frac{D}{\Sigma_j sgn(n_{ij})}

ここで$D$は総文書数(Documents)です。

$idf$の添字はiしかないということは、idfは特定の単語に対して定められるものだということを理解してください。

分母の和を見ていきましょう。
sgnが混乱を招きますが、難しく捉える必要はありません。
特定の単語を考えたときに、すべての文章で、少なくとも一回以上出現回数があるような文書の数をカウントしているだけです。
つまり、インターネットでの特定の単語に対するヒット回数みたいなものですね。（全文書を検索エンジンにインデックスされているものと仮定した時。）

idfの私なりの要旨は以下です。
・文章ベースでの出現回数を基準に、単語の出現頻度を考える。
・「逆」というのは、全文書に対する単語の出現頻度を示すもの、という直感的な頻度の定義の、逆数をとったような値を扱っている
・logで値をミニマムにする

最終形態

最後に掛け合わせます。左辺にi,jがついているのは、$tf_{ij}$に由来します。

tf-idx_{ij}=tf_{ij}\times idf_i

参考文献

イラストで学ぶ人工知能　改訂２版

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up