LoginSignup
0
0

More than 5 years have passed since last update.

SentencePieceを形態素解析のように使えるAPIを公開した(Tweet版)

Posted at

はじめに

先日リリースしたSentencePieceを形態素解析のように使えるWebAPIはWikipediaのデータでモデルを構築しましたが、SentencePieceはドメイン依存性が強いそうなのでTweet版も作りました。例のごとくWebAPIで公開しています。こちらから無料で使えます。

API

サンプルコード

関連記事

やったこと

以下の条件でツイートを収集しました。合計で約200万ツイート集めています。

  1. 20文字以上
  2. 投稿クライアントはTwitter社公式(web、iOS、Android)
  3. RTは含まない、http付きも含まない
  4. 目的語(お手製の約2500語のリスト)を含む

結果

「吾輩は猫である。名前はまだない。」は『はまだ』という区切りがありますね。

"tokens": [
  {
    "wid": 7095,
    "token": "吾"
  },
  {
    "wid": 5357,
    "token": "輩"
  },
  {
    "wid": 4656,
    "token": "は"
  },
  {
    "wid": 5041,
    "token": "猫"
  },
  {
    "wid": 2950,
    "token": "である"
  },
  {
    "wid": 4671,
    "token": "。"
  },
  {
    "wid": 954,
    "token": "名前"
  },
  {
    "wid": 1648,
    "token": "はまだ"
  },
  {
    "wid": 13,
    "token": "ない"
  },
  {
    "wid": 4671,
    "token": "。"
  }
]

「「恐怖」を克服することが「生きる」こと」はどうでしょうか?たしかに前回とは違う切り方をしています。

"tokens": [
  {
    "wid": 4820,
    "token": "「"
  },
  {
    "wid": 3438,
    "token": "恐怖"
  },
  {
    "wid": 4642,
    "token": "」"
  },
  {
    "wid": 4707,
    "token": "を"
  },
  {
    "wid": 7399,
    "token": "克"
  },
  {
    "wid": 5182,
    "token": "服"
  },
  {
    "wid": 50,
    "token": "する"
  },
  {
    "wid": 1479,
    "token": "ことが"
  },
  {
    "wid": 4820,
    "token": "「"
  },
  {
    "wid": 1860,
    "token": "生き"
  },
  {
    "wid": 4643,
    "token": "る"
  },
  {
    "wid": 4642,
    "token": "」"
  },
  {
    "wid": 73,
    "token": "こと"
  }
]

おわりに

ささっと紹介してしまいました。とにかく、SentencePieceはドメイン依存性が高いということなので、需要がありそうなツイート版のSentencePieceを作りました。よろしければご利用ください。次回は、こちらを使って作った極性判定技術をご紹介します。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0