はじめに
先日リリースしたSentencePieceを形態素解析のように使えるWebAPIはWikipediaのデータでモデルを構築しましたが、SentencePieceはドメイン依存性が強いそうなのでTweet版も作りました。例のごとくWebAPIで公開しています。こちらから無料で使えます。
API
サンプルコード
関連記事
やったこと
以下の条件でツイートを収集しました。合計で約200万ツイート集めています。
- 20文字以上
- 投稿クライアントはTwitter社公式(web、iOS、Android)
- RTは含まない、http付きも含まない
- 目的語(お手製の約2500語のリスト)を含む
結果
「吾輩は猫である。名前はまだない。」は『はまだ』という区切りがありますね。
"tokens": [
{
"wid": 7095,
"token": "吾"
},
{
"wid": 5357,
"token": "輩"
},
{
"wid": 4656,
"token": "は"
},
{
"wid": 5041,
"token": "猫"
},
{
"wid": 2950,
"token": "である"
},
{
"wid": 4671,
"token": "。"
},
{
"wid": 954,
"token": "名前"
},
{
"wid": 1648,
"token": "はまだ"
},
{
"wid": 13,
"token": "ない"
},
{
"wid": 4671,
"token": "。"
}
]
「「恐怖」を克服することが「生きる」こと」はどうでしょうか?たしかに前回とは違う切り方をしています。
"tokens": [
{
"wid": 4820,
"token": "「"
},
{
"wid": 3438,
"token": "恐怖"
},
{
"wid": 4642,
"token": "」"
},
{
"wid": 4707,
"token": "を"
},
{
"wid": 7399,
"token": "克"
},
{
"wid": 5182,
"token": "服"
},
{
"wid": 50,
"token": "する"
},
{
"wid": 1479,
"token": "ことが"
},
{
"wid": 4820,
"token": "「"
},
{
"wid": 1860,
"token": "生き"
},
{
"wid": 4643,
"token": "る"
},
{
"wid": 4642,
"token": "」"
},
{
"wid": 73,
"token": "こと"
}
]
おわりに
ささっと紹介してしまいました。とにかく、SentencePieceはドメイン依存性が高いということなので、需要がありそうなツイート版のSentencePieceを作りました。よろしければご利用ください。次回は、こちらを使って作った極性判定技術をご紹介します。