LoginSignup
0
0

More than 5 years have passed since last update.

TF-IDFのDF (Document Frequency) の部分をWebAPIで公開した

Last updated at Posted at 2016-12-25

はじめに

自然言語処理では、しばしばTF-IDFが使われます。Term Frequency - Inverse Document Frequencyの略で、文書内の単語の重要度を計算する手法です。今回は日本語Wikipediaの記事を文書とみなしたDocument Frequencyの取得APIを公開しました。

API

サンプルコード

使ってみる

とてもシンプルなAPIです。入力は単語で、出力はDocument Frequency (単語が出現する文書数) です。試しに「犬」を入力してみます。

{
  "log": "",
  "startTime": "1482618692860",
  "endTime": "1482618692860",
  "processTime": "0",
  "word": "犬",
  "documentFrequency": 14348
}

続いて「猫」。猫のほうが犬より記事が少ないんですね。

{
  "log": "",
  "startTime": "1482618725303",
  "endTime": "1482618725303",
  "processTime": "0",
  "word": "猫",
  "documentFrequency": 11885
}

全体の文書数は「。」で分かります。

{
  "log": "",
  "startTime": "1482618784632",
  "endTime": "1482618784632",
  "processTime": "0",
  "word": "。",
  "documentFrequency": 1014094
}

おわりに

とてもシンプルで地味なAPIですが、自分でWikipediaのDocument Frequencyを計算すると面倒なので、地味に役立つAPIではないでしょうか?

元記事

【API】日本語WikipediaのDocument Frequencyを取得する

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0