tf-idf stands for what?
tfはTerm Frequencyの略です。
また、idfはInverse Document Frequencyの略です。
ざっくりいうと、tfとidfを掛け合わせたものがtf-idfという指標です。
数式がわかりづらいと感じたので、自分なりの解説を載せます。
前提
単語文書行列の要素(i,j)には特定の単語の、特定の文書における出現回数$n_{ij}$が入っているとします。
tf
Term-frequency、文書頻度の計算式には単語文書行列での添字i,jが両方ついていることに注目してください。
これは、tfが、特定の単語の特定の、特定の文書における頻度の指標として定められていることを表します。
tf_{ij}=\frac{n_{ij}}{\Sigma_k n_{kj}}
分母ではすべての単語について和がとられています。
分母では、特定の文書に含まれている、注目している単語だけでなく、すべての単語の出現回数の総和を考えられています。つまり、ある文書での、そのような全単語の出現回数の総和に対する、注目している単語の出現頻度の比を考えたものが、tfということです。
idf
Inverse document frequency
idf_i=log \frac{D}{\Sigma_j sgn(n_{ij})}
ここで$D$は総文書数(Documents)です。
$idf$の添字はiしかないということは、idfは特定の単語に対して定められるものだということを理解してください。
分母の和を見ていきましょう。
sgnが混乱を招きますが、難しく捉える必要はありません。
特定の単語を考えたときに、すべての文章で、少なくとも一回以上出現回数があるような文書の数をカウントしているだけです。
つまり、インターネットでの特定の単語に対するヒット回数みたいなものですね。(全文書を検索エンジンにインデックスされているものと仮定した時。)
idfの私なりの要旨は以下です。
・文章ベースでの出現回数を基準に、単語の出現頻度を考える。
・「逆」というのは、全文書に対する単語の出現頻度を示すもの、という直感的な頻度の定義の、逆数をとったような値を扱っている
・logで値をミニマムにする
最終形態
最後に掛け合わせます。左辺にi,jがついているのは、$tf_{ij}$に由来します。
tf-idx_{ij}=tf_{ij}\times idf_i
参考文献
イラストで学ぶ人工知能 改訂2版