0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

無料で試せる「日本語分かち書きAPI」達の頂きに立つものは...?(という名の偏見感想)

Last updated at Posted at 2023-06-13

私用で分かち書き(お金をかけたくない)をしたかったので、候補として上がったYahooAPIGooAPIの比較です。

※ 比較した日付は2023/06/13です。

結論

YahooAPIの強み

  • 形態素の基本形表記がわかる
  • 形態素の大分類・小分類の情報を得られる
    • stopwordなどに使える

GooAPIの強み

  • YahooAPIより未定義語が少ない(名詞分類の精度高い)
  • YahooAPIより語尾を細かくカテゴリ化
    •   /// YahooAPIの場合、
        [ '頼っちゃ', 'たよっちゃ', '頼る', '動詞', '*', '子音動詞ラ行', 'タ系連用チャ形' ],
      
        /// GooAPIの場合、
        ["頼","動詞語幹","タヨ"],
        ["っ","動詞活用語尾","ッ"],
        ["ちゃ","動詞接尾辞","チャ"],`
      
      

個人の感想としては、

  • GooAPI
    • 無料APIの中では精度良さげ
    • 語尾も分かちなど、分離が細かい & 基本系がわからないので、動詞・形容詞が使いにくそう...
  • YahooAPI
    • 精度ガバガバ?(辞書的な内容であれば精度そこそこ)
    • 大雑把な形態素カテゴリ & 活用の基本系が分かる ため、動詞・形容詞の処理がしやすいかも(かもしれない)

一長一短としか言えないですね...。

比較1:とある感想文(短文)

私用で感想文を分かち書きをする際、無料分かちAPIの精度比較が見当たらなかったので調べることにしました。

とある感想
話は所詮少年JUMP

(感想に深い意味はありません)

YahooAPIの結果
{
tokens: [
    [ '話', 'はなし', '話', '名詞', 'サ変名詞', '*', '*' ],
    [ 'は', 'は', 'は', '助詞', '副助詞', '*', '*' ],
    [ '所詮', 'しょせん', '所詮', '副詞', '*', '*', '*' ],
    [ '少年', 'しょうねん', '少年', '名詞', '普通名詞', '*', '*' ],
    [ 'JUMP', 'JUMP', 'JUMP', '未定義語', 'アルファベット', '*', '*' ]
]
}
GooAPIの結果
{
word_list: [[
    ["話","名詞","ハナシ"],
    ["は","連用助詞","ハ"],
    ["所詮","連用詞","ショセン"],
    ["少年","名詞","ショウネン"],
    ["JUMP","名詞","ジャンプ"]
]]
}

結果

比較2:「漫画版・星の王子様」紹介文

GooAPIの方が精度が良さそうだが、他の文でも成り立ちそうか試すことにしました。

「漫画版・星の王子様」紹介文の一部


邦訳出版では、集英社版「星の王子さま」の翻訳を手がけたことでも知られる池澤夏樹氏が、
バンド・デシネの魅力を最大限に引き出すために1コマ1コマの絵の感じに合わせて、
新たに翻訳し直しました。


『原作が持っているものを絵に移すだけなら、それは絵解きでしかない。
この作品は、まったく違うものに作り変えた上で、値打ちが生じるということに成功した、
ある意味ではとても珍しい例だと思います』
(「星の王子さま バンド・デシネ版」について池澤夏樹氏トークイベントより)

text出典元

YahooAPIの結果
[
    [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
    [ ' ', ' ', ' ', '未定義語', 'その他', '*', '*' ],
    [ ' ', ' ', ' ', '未定義語', 'その他', '*', '*' ],
    [ '邦訳', 'ほうやく', '邦訳', '名詞', 'サ変名詞', '*', '*' ],
    [ '出版', 'しゅっぱん', '出版', '名詞', 'サ変名詞', '*', '*' ],
    [ 'で', 'で', 'で', '助詞', '格助詞', '*', '*' ],
    [ 'は', 'は', 'は', '助詞', '副助詞', '*', '*' ],
    [ '、', '、', '、', '特殊', '読点', '*', '*' ],
    [ '集', 'しゅう', '集', '名詞', '普通名詞', '*', '*' ],
    [ '英', 'えい', '英', '名詞', '人名', '*', '*' ],
    [ '社', 'しゃ', '社', '名詞', '普通名詞', '*', '*' ],
    [ '版', 'はん', '版', '名詞', '普通名詞', '*', '*' ],
    [ '「', '「', '「', '特殊', '括弧始', '*', '*' ],
    [ '星', 'ほし', '星', '名詞', '普通名詞', '*', '*' ],
    [ 'の', 'の', 'の', '助詞', '接続助詞', '*', '*' ],
    [ '王子', 'おうじ', '王子', '名詞', '普通名詞', '*', '*' ],
    [ 'さま', 'さま', 'さま', '接尾辞', '名詞性名詞接尾辞', '*', '*' ],
    [ '」', '」', '」', '特殊', '括弧終', '*', '*' ],
    [ 'の', 'の', 'の', '助詞', '接続助詞', '*', '*' ],
    [ '翻訳', 'ほんやく', '翻訳', '名詞', 'サ変名詞', '*', '*' ],
    [ 'を', 'を', 'を', '助詞', '格助詞', '*', '*' ],
    [ '手がけた', 'てがけた', '手がける', '動詞', '*', '母音動詞', 'タ形' ],
    [ 'こと', 'こと', 'こと', '名詞', '形式名詞', '*', '*' ],
    [ 'で', 'で', 'だ', '判定詞', '*', '判定詞', 'ダ列タ系連用テ形' ],
    [ 'も', 'も', 'も', '助詞', '副助詞', '*', '*' ],
    [ '知ら', 'しら', '知る', '動詞', '*', '子音動詞ラ行', '未然形' ],
    [ 'れる', 'れる', 'れる', '接尾辞', '動詞性接尾辞', '母音動詞', '基本形' ],
    [ '池', 'いけ', '池', '名詞', '普通名詞', '*', '*' ],
    [ '澤', 'さわ', '澤', '名詞', '人名', '*', '*' ],
    [ '夏樹', 'なつき', '夏樹', '名詞', '人名', '*', '*' ],
    [ '氏', 'し', '氏', '接尾辞', '名詞性名詞接尾辞', '*', '*' ],
    [ 'が', 'が', 'が', '助詞', '格助詞', '*', '*' ],
    [ '、', '、', '、', '特殊', '読点', '*', '*' ],
    [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
    [ 'バンド', 'ばんど', 'バンド', '名詞', '普通名詞', '*', '*' ],
    [ '・', '・', '・', '特殊', '記号', '*', '*' ],
    [ 'デシネ', 'でしね', 'デシネ', '未定義語', 'カタカナ', '*', '*' ],
    [ 'の', 'の', 'の', '助詞', '接続助詞', '*', '*' ],
    [ '魅力', 'みりょく', '魅力', '名詞', '普通名詞', '*', '*' ],
    [ 'を', 'を', 'を', '助詞', '格助詞', '*', '*' ],
    [ '最大', 'さいだい', '最大', '名詞', '普通名詞', '*', '*' ],
    [ '限', 'げん', '限', '名詞', '普通名詞', '*', '*' ],
    [ 'に', 'に', 'に', '助詞', '格助詞', '*', '*' ],
    [ '引き出す', 'ひきだす', '引き出す', '動詞', '*', '子音動詞サ行', '基本形' ],
    [ 'ため', 'ため', 'ため', '名詞', '副詞的名詞', '*', '*' ],
    [ 'に', 'に', 'に', '助詞', '格助詞', '*', '*' ],
    [ '1', 'いち', '1', '名詞', '数詞', '*', '*' ],
    [ 'コマ', 'こま', 'コマ', '名詞', '普通名詞', '*', '*' ],
    [ '1', 'いち', '1', '名詞', '数詞', '*', '*' ],
    [ 'コマ', 'こま', 'コマ', '名詞', '普通名詞', '*', '*' ],
    [ 'の', 'の', 'の', '助詞', '接続助詞', '*', '*' ],
    [ '絵', 'え', '絵', '名詞', '普通名詞', '*', '*' ],
    [ 'の', 'の', 'の', '助詞', '格助詞', '*', '*' ],
    [ '感じ', 'かんじ', '感じる', '動詞', '*', '母音動詞', '基本連用形' ],
    [ 'に', 'に', 'に', '助詞', '格助詞', '*', '*' ],
    [ '合わせて', 'あわせて', '合わせる', '動詞', '*', '母音動詞', 'タ系連用テ形' ],
    [ '、', '、', '、', '特殊', '読点', '*', '*' ],
    [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
    [ '新たに', 'あらたに', '新ただ', '形容詞', '*', 'ナ形容詞', 'ダ列基本連用形' ],
    [ '翻訳', 'ほんやく', '翻訳', '名詞', 'サ変名詞', '*', '*' ],
    [ 'し', 'し', 'する', '動詞', '*', 'サ変動詞', '基本連用形' ],
    [ '直し', 'なおし', '直す', '動詞', '*', '子音動詞サ行', '基本連用形' ],
    [ 'ました', 'ました', 'ます', '接尾辞', '動詞性接尾辞', '動詞性接尾辞ます型', 'タ形' ],
    [ '。', '。', '。', '特殊', '句点', '*', '*' ],
    [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
    [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
    [ '『', '『', '『', '特殊', '括弧始', '*', '*' ],
    [ '原作', 'げんさく', '原作', '名詞', '普通名詞', '*', '*' ],
    [ 'が', 'が', 'が', '助詞', '格助詞', '*', '*' ],
    [ '持って', 'もって', '持つ', '動詞', '*', '子音動詞タ行', 'タ系連用テ形' ],
    [ 'いる', 'いる', 'いる', '接尾辞', '動詞性接尾辞', '母音動詞', '基本形' ],
    [ 'もの', 'もの', 'もの', '名詞', '形式名詞', '*', '*' ],
    [ 'を', 'を', 'を', '助詞', '格助詞', '*', '*' ],
    [ '絵', 'え', '絵', '名詞', '普通名詞', '*', '*' ],
    [ 'に', 'に', 'に', '助詞', '格助詞', '*', '*' ],
    [ '移す', 'うつす', '移す', '動詞', '*', '子音動詞サ行', '基本形' ],
    [ 'だけ', 'だけ', 'だけ', '助詞', '副助詞', '*', '*' ],
    [ 'なら', 'なら', 'なら', '助詞', '副助詞', '*', '*' ],
    [ '、', '、', '、', '特殊', '読点', '*', '*' ],
    [ 'それ', 'それ', 'それ', '指示詞', '名詞形態指示詞', '*', '*' ],
    [ 'は', 'は', 'は', '助詞', '副助詞', '*', '*' ],
    [ '絵', 'え', '絵', '名詞', '普通名詞', '*', '*' ],
    [ '解き', 'とき', '解く', '動詞', '*', '子音動詞カ行', '基本連用形' ],
    [ 'で', 'で', 'で', '助詞', '格助詞', '*', '*' ],
    [ 'しか', 'しか', 'しか', '助詞', '副助詞', '*', '*' ],
    [ 'ない', 'ない', 'ない', '形容詞', '*', 'イ形容詞アウオ段', '基本形' ],
    [ '。', '。', '。', '特殊', '句点', '*', '*' ],
    [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
    [ 'この', 'この', 'この', '指示詞', '連体詞形態指示詞', '*', '*' ],
    [ '作品', 'さくひん', '作品', '名詞', '普通名詞', '*', '*' ],
    [ 'は', 'は', 'は', '助詞', '副助詞', '*', '*' ],
    [ '、', '、', '、', '特殊', '読点', '*', '*' ],
    [ 'まったく', 'まったく', 'まったく', '副詞', '*', '*', '*' ],
    [ '違う', 'ちがう', '違う', '動詞', '*', '子音動詞ワ行', '基本形' ],
    [ 'もの', 'もの', 'もの', '名詞', '形式名詞', '*', '*' ],
    [ 'に', 'に', 'に', '助詞', '格助詞', '*', '*' ],
    [ '作り', 'つくり', '作る', '動詞', '*', '子音動詞ラ行', '基本連用形' ],
    [ '変えた', 'かえた', '変える', '動詞', '*', '母音動詞', 'タ形' ],
    [ '上', 'うえ', '上', '名詞', '副詞的名詞', '*', '*' ],
    [ 'で', 'で', 'で', '助詞', '格助詞', '*', '*' ],
    [ '、', '、', '、', '特殊', '読点', '*', '*' ],
    [ '値打ち', 'ねうち', '値打ち', '名詞', '普通名詞', '*', '*' ],
    [ 'が', 'が', 'が', '助詞', '格助詞', '*', '*' ],
    [ '生じる', 'しょうじる', '生じる', '動詞', '*', '母音動詞', '基本形' ],
    [ 'と', 'と', 'と', '助詞', '格助詞', '*', '*' ],
    [ 'いう', 'いう', 'いう', '動詞', '*', '子音動詞ワ行', '基本形' ],
    [ 'こと', 'こと', 'こと', '名詞', '形式名詞', '*', '*' ],
    [ 'に', 'に', 'に', '助詞', '格助詞', '*', '*' ],
    [ '成功', 'せいこう', '成功', '名詞', 'サ変名詞', '*', '*' ],
    [ 'した', 'した', 'する', '動詞', '*', 'サ変動詞', 'タ形' ],
    [ '、', '、', '、', '特殊', '読点', '*', '*' ],
    [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
    [ 'ある', 'ある', 'ある', '動詞', '*', '子音動詞ラ行', '基本形' ],
    [ '意味', 'いみ', '意味', '名詞', 'サ変名詞', '*', '*' ],
    [ 'で', 'で', 'で', '助詞', '格助詞', '*', '*' ],
    [ 'は', 'は', 'は', '助詞', '副助詞', '*', '*' ],
    [ 'とても', 'とても', 'とても', '副詞', '*', '*', '*' ],
    [ '珍しい', 'めずらしい', '珍しい', '形容詞', '*', 'イ形容詞イ段', '基本形' ],
    [ '例', 'れい', '例', '名詞', '普通名詞', '*', '*' ],
    [ 'だ', 'だ', 'だ', '判定詞', '*', '判定詞', '基本形' ],
    [ 'と', 'と', 'と', '助詞', '格助詞', '*', '*' ],
    [ '思い', 'おもい', '思う', '動詞', '*', '子音動詞ワ行', '基本連用形' ],
    [ 'ます', 'ます', 'ます', '接尾辞', '動詞性接尾辞', '動詞性接尾辞ます型', '基本形' ],
    [ '』', '』', '』', '特殊', '括弧終', '*', '*' ],
    [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
    [ '(', '(', '(', '未定義語', 'その他', '*', '*' ],
    [ '「', '「', '「', '特殊', '括弧始', '*', '*' ],
    [ '星', 'ほし', '星', '名詞', '普通名詞', '*', '*' ],
    [ 'の', 'の', 'の', '助詞', '接続助詞', '*', '*' ],
    [ '王子', 'おうじ', '王子', '名詞', '普通名詞', '*', '*' ],
    [ 'さま', 'さま', 'さま', '接尾辞', '名詞性名詞接尾辞', '*', '*' ],
    [ ' ', ' ', ' ', '未定義語', 'その他', '*', '*' ],
    [ 'バンド', 'ばんど', 'バンド', '名詞', '普通名詞', '*', '*' ],
    [ '・', '・', '・', '特殊', '記号', '*', '*' ],
    [ 'デシネ', 'でしね', 'デシネ', '未定義語', 'カタカナ', '*', '*' ],
    [ '版', 'はん', '版', '名詞', '普通名詞', '*', '*' ],
    [ '」', '」', '」', '特殊', '括弧終', '*', '*' ],
    [ 'に', 'に', 'に', '助詞', '格助詞', '*', '*' ],
    [ 'ついて', 'ついて', 'つく', '動詞', '*', '子音動詞カ行', 'タ系連用テ形' ],
    [ '池', 'いけ', '池', '名詞', '普通名詞', '*', '*' ],
    [ '澤', 'さわ', '澤', '名詞', '人名', '*', '*' ],
    [ '夏樹', 'なつき', '夏樹', '名詞', '人名', '*', '*' ],
    [ '氏', 'し', '氏', '接尾辞', '名詞性名詞接尾辞', '*', '*' ],
    [ 'トーク', 'とーく', 'トーク', '名詞', '普通名詞', '*', '*' ],
    [ 'イベント', 'いべんと', 'イベント', '名詞', '普通名詞', '*', '*' ],
    [ 'より', 'より', 'より', '助詞', '格助詞', '*', '*' ],
    [ ')', ')', ')', '未定義語', 'その他', '*', '*' ],
    [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
    [ ' ', ' ', ' ', '未定義語', 'その他', '*', '*' ],
    [ ' ', ' ', ' ', '未定義語', 'その他', '*', '*' ]
]
GooAPIの結果

注:コメントアウト部分で配列がネストしていました

[
    ["邦訳", "名詞","ホウヤク"],
    ["出版","名詞","シュッパン"],
    ["では","判定詞","デハ"],
    ["、","読点",""],
    ["集英社","名詞","シュウエイシャ"],
    ["版","名詞接尾辞","バン"],
    ["「","括弧",""],
    ["星","名詞","ホシ"],
    ["の","格助詞","ノ"],
    ["王子","名詞","オウジ"],
    ["さま","名詞接尾辞","サマ"],
    ["」","括弧",""],
    ["の","格助詞","ノ"],
    ["翻訳","名詞","ホンヤク"],
    ["を","格助詞","ヲ"],
    ["手がけ","動詞語幹","テガケ"],
    ["た","動詞接尾辞","タ"],
    ["こと","補助名詞","コト"],
    ["でも","連用助詞","デモ"],
    ["知","動詞語幹","シ"],
    ["ら","動詞活用語尾","ラ"],
    ["れ","動詞接尾辞","レ"],
    ["る","動詞接尾辞","ル"],
    ["池澤","名詞","イケザワ"],
    ["夏樹","名詞","ナツキ"],
    ["氏","名詞接尾辞","シ"],
    ["が","格助詞","ガ"],
    ["、","読点",""],
    [" ","空白",""],
    ["バンド","名詞","バンド"],
    ["・","Symbol",""],
    ["デシネ","名詞","デシネ"],
    ["の","格助詞","ノ"],
    ["魅力","名詞","ミリョク"],
    ["を","格助詞","ヲ"],
    ["最大限","名詞","サイダイゲン"],
    ["に","格助詞","ニ"],
    ["引き出","動詞語幹","ヒキダ"],
    ["す","動詞接尾辞","ス"],
    ["ため","補助名詞","タメ"],
    ["に","格助詞","ニ"],
    ["1","Number","イチ"],
    ["コマ","名詞","コマ"],
    ["1","Number","イチ"],
    ["コマ","名詞","コマ"],
    ["の","格助詞","ノ"],
    ["絵","名詞","エ"],
    ["の","格助詞","ノ"],
    ["感じ","名詞","カンジ"],
    ["に","格助詞","ニ"],
    ["合わせ","動詞語幹","アワセ"],
    ["て","動詞接尾辞","テ"],
    ["、","読点",""],
    [" ","空白",""],
    ["新た","名詞","アラタ"],
    ["に","格助詞","ニ"],
    ["翻訳","名詞","ホンヤク"],
    ["し","動詞活用語尾","シ"],
    ["直","動詞接尾辞","ナオ"],
    ["し","動詞活用語尾","シ"],
    ["ました","動詞接尾辞","マシタ"],
    ["。","句点",""]
    //// 改行?でarrayが複数だった??
    ["『","括弧",""],
    ["原作","名詞","ゲンサク"],
    ["が","格助詞","ガ"],
    ["持","動詞語幹","モ"],
    ["っ","動詞活用語尾","ッ"],
    ["て","動詞接尾辞","テ"],
    ["い","動詞語幹","イ"],
    ["る","動詞接尾辞","ル"],
    ["もの","補助名詞","モノ"],
    ["を","格助詞","ヲ"],
    ["絵","名詞","エ"],
    ["に","格助詞","ニ"],
    ["移","動詞語幹","ウツ"],
    ["す","動詞接尾辞","ス"],
    ["だけ","補助名詞","ダケ"],
    ["なら","判定詞","ナラ"],
    ["、","読点",""],
    ["それ","名詞","ソレ"],
    ["は","連用助詞","ハ"],
    ["絵解き","名詞","エトキ"],
    ["で","格助詞","デ"],
    ["しか","連用助詞","シカ"],
    ["な","形容詞語幹","ナ"],
    ["い","形容詞接尾辞","イ"],
    ["。","句点",""]
    /// 再び改行でarray分離?
    ["この","連体詞","コノ"],
    ["作品","名詞","サクヒン"],
    ["は","連用助詞","ハ"],
    ["、","読点",""],
    ["まったく","連用詞","マッタク"],
    ["違","動詞語幹","チガ"],
    ["う","動詞接尾辞","ウ"],
    ["もの","補助名詞","モノ"],
    ["に","格助詞","ニ"],
    ["作","動詞語幹","ツク"],
    ["り","動詞活用語尾","リ"],
    ["変え","動詞接尾辞","カエ"],
    ["た","動詞接尾辞","タ"],
    ["上","補助名詞","ウエ"],
    ["で","格助詞","デ"],
    ["、","読点",""],
    ["値打ち","名詞","ネウチ"],
    ["が","格助詞","ガ"],
    ["生","動詞語幹","ショウ"],
    ["じる","動詞活用語尾","ジル"],
    ["と","動詞接尾辞","ト"],
    ["い","動詞語幹","イ"],
    ["う","動詞接尾辞","ウ"],
    ["こと","補助名詞","コト"],
    ["に","格助詞","ニ"],
    ["成功","名詞","セイコウ"],
    ["し","動詞活用語尾","シ"],
    ["た","動詞接尾辞","タ"],
    ["、","読点",""],
    [" ","空白",""],
    ["ある","連体詞","アル"],
    ["意味","名詞","イミ"],
    ["では","連用助詞","デハ"],
    ["とても","連用詞","トテモ"],
    ["珍し","形容詞語幹","メズラシ"],
    ["い","形容詞接尾辞","イ"],
    ["例","名詞","レイ"],
    ["だ","判定詞","ダ"],
    ["と","引用助詞","ト"],
    ["思","動詞語幹","オモ"],
    ["い","動詞活用語尾","イ"],
    ["ます","動詞接尾辞","マス"],
    ["』","括弧",""],
    [" ","空白",""],
    ["(","括弧",""],
    ["「","括弧",""],
    ["星","名詞","ホシ"],
    ["の","格助詞","ノ"],
    ["王子","名詞","オウジ"],
    ["さま","名詞接尾辞","サマ"],
    [" ","空白",""],
    ["バンド","名詞","バンド"],
    ["・","Symbol",""],
    ["デシネ","名詞","デシネ"],
    ["版","名詞接尾辞","バン"],
    ["」","括弧",""],
    ["について","格助詞","ニツイテ"],
    ["池澤","名詞","イケザワ"],
    ["夏樹","名詞","ナツキ"],
    ["氏","名詞接尾辞","シ"],
    ["トーク","名詞","トーク"],
    ["イベント","名詞","イベント"],
    ["より","格助詞","ヨリ"],
    [")","括弧",""]
]

結果

  • 改行について
    • YahooAPI:改行を見つけると文字の一つとして処理
    • GooAPI改行を見つけると配列をネストした結果
      • 」 または 「\n」 でネストする?
  • 記号について
    • YahooAPI未定義語特殊に分離(日本語文字or英語でも使うで区別?)
    • GooAPISymbol括弧句点に区別?

比較3:とあるブログ文章引用 & 記号

精度については、YahooAPIであっても未定義語をうまく取得することで名詞を取得できそう?...と考えつつブラウジングしていると、とある方のブログ に出会いました。

ここでは「Googleなど固有名詞」「2022年後期に一斉を風靡したアニメの分かち」を行っており面白かったため、ごっそり引用して比較調査することにしました。

また、Ascii表記可能な記号が未定義語になるか調べたかったので後半部に追記して同時に調査しました。

ブログ引用 & 記号

"アップル"や"Google"が未定義語なように、"ぼっち"とか"ろっく"を拾ってくれないものとして運用する必要がある。検索ワードとして”ぼっち・ざ・ろっく!”だけ用意しておけば部分一致するし良くないですか?という話。無料のAPIに全部頼っちゃならんて、未定義語が出てくるだけマシっすよ、というくらいの期待値で使うと、まあまあ使えると思います。
というかそういう気持ちで使ってます

{}()'&%$#"!~=-\\|[]/?.,<>_;+:*@\`

YahooAPIの結果
[ 
  [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
  [ '"', '"', '"', '未定義語', 'その他', '*', '*' ],
  [ 'アップル', 'あっぷる', 'アップル', '未定義語', 'カタカナ', '*', '*' ],
  [ '"', '"', '"', '未定義語', 'その他', '*', '*' ],
  [ 'や', 'や', 'や', '助詞', '接続助詞', '*', '*' ],
  [ '"', '"', '"', '未定義語', 'その他', '*', '*' ],
  [ 'Google', 'Google', 'Google', '未定義語', 'アルファベット', '*', '*' ],
  [ '"', '"', '"', '未定義語', 'その他', '*', '*' ],
  [ 'が', 'が', 'が', '助詞', '格助詞', '*', '*' ],
  [ '未', 'み', '未', '接頭辞', 'ナ形容詞接頭辞', '*', '*' ],
  [ '定義', 'ていぎ', '定義', '名詞', 'サ変名詞', '*', '*' ],
  [ '語', 'ご', '語', '名詞', '普通名詞', '*', '*' ],
  [ 'な', 'な', 'だ', '判定詞', '*', '判定詞', 'ダ列基本連体形' ],
  [ 'ように', 'ように', 'ようだ', '助動詞', '*', 'ナ形容詞', 'ダ列基本連用形' ],
  [ '、', '、', '、', '特殊', '読点', '*', '*' ],
  [ '"', '"', '"', '未定義語', 'その他', '*', '*' ],
  [ 'ぼっ', 'ぼっ', 'ぼる', '動詞', '*', '子音動詞ラ行', 'タ接連用形' ],
  [ 'ち', 'ち', 'ち', '名詞', '普通名詞', '*', '*' ],
  [ '"', '"', '"', '未定義語', 'その他', '*', '*' ],
  [ 'と', 'と', 'と', '助詞', '格助詞', '*', '*' ],
  [ 'か', 'か', 'か', '助詞', '接続助詞', '*', '*' ],
  [ '"', '"', '"', '未定義語', 'その他', '*', '*' ],
  [ 'ろ', 'ろ', 'ろ', '名詞', '普通名詞', '*', '*' ],
  [ 'っ', 'っ', 'る', '接尾辞', '動詞性接尾辞', '子音動詞ラ行', 'タ接連用形' ],
  [ 'く', 'く', 'く', '名詞', '普通名詞', '*', '*' ],
  [ '"', '"', '"', '未定義語', 'その他', '*', '*' ],
  [ 'を', 'を', 'を', '助詞', '格助詞', '*', '*' ],
  [ '拾って', 'ひろって', '拾う', '動詞', '*', '子音動詞ワ行', 'タ系連用テ形' ],
  [ 'くれ', 'くれ', 'くれる', '接尾辞', '動詞性接尾辞', '母音動詞', '未然形' ],
  [ 'ない', 'ない', 'ない', '接尾辞', '形容詞性述語接尾辞', 'イ形容詞アウオ段', '基本形' ],
  [ 'もの', 'もの', 'もの', '名詞', '形式名詞', '*', '*' ],
  [ 'と', 'と', 'と', '助詞', '格助詞', '*', '*' ],
  [ 'して', 'して', 'する', '動詞', '*', 'サ変動詞', 'タ系連用テ形' ],
  [ '運用', 'うんよう', '運用', '名詞', 'サ変名詞', '*', '*' ],
  [ 'する', 'する', 'する', '動詞', '*', 'サ変動詞', '基本形' ],
  [ '必要', 'ひつよう', '必要だ', '形容詞', '*', 'ナノ形容詞', '語幹' ],
  [ 'が', 'が', 'が', '助詞', '格助詞', '*', '*' ],
  [ 'ある', 'ある', 'ある', '動詞', '*', '子音動詞ラ行', '基本形' ],
  [ '。', '。', '。', '特殊', '句点', '*', '*' ],
  [ '検索', 'けんさく', '検索', '名詞', 'サ変名詞', '*', '*' ],
  [ 'ワード', 'わーど', 'ワード', '未定義語', 'カタカナ', '*', '*' ],
  [ 'と', 'と', 'と', '助詞', '格助詞', '*', '*' ],
  [ 'して', 'して', 'する', '動詞', '*', 'サ変動詞', 'タ系連用テ形' ],
  [ '”', '”', '”', '特殊', '括弧終', '*', '*' ],
  [ 'ぼっ', 'ぼっ', 'ぼる', '動詞', '*', '子音動詞ラ行', 'タ接連用形' ],
  [ 'ち', 'ち', 'ちる', '動詞', '*', '子音動詞ラ行', '語幹' ],
  [ '・', '・', '・', '特殊', '記号', '*', '*' ],
  [ 'ざ', 'ざ', 'ざ', '名詞', '普通名詞', '*', '*' ],
  [ '・', '・', '・', '特殊', '記号', '*', '*' ],
  [ 'ろ', 'ろ', 'ろ', '名詞', '普通名詞', '*', '*' ],
  [ 'っ', 'っ', 'る', '接尾辞', '動詞性接尾辞', '子音動詞ラ行', 'タ接連用形' ],
  [ 'く', 'く', 'く', '名詞', '普通名詞', '*', '*' ],
  [ '!', '!', '!', '未定義語', 'その他', '*', '*' ],
  [ '”', '”', '”', '特殊', '括弧終', '*', '*' ],
  [ 'だけ', 'だけ', 'だけ', '助詞', '副助詞', '*', '*' ],
  [ '用意', 'ようい', '用意', '名詞', 'サ変名詞', '*', '*' ],
  [ 'して', 'して', 'する', '動詞', '*', 'サ変動詞', 'タ系連用テ形' ],
  [ 'おけば', 'おけば', 'おく', '接尾辞', '動詞性接尾辞', '子音動詞カ行', '基本条件形' ],
  [ '部分', 'ぶぶん', '部分', '名詞', '普通名詞', '*', '*' ],
  [ '一致', 'いっち', '一致', '名詞', 'サ変名詞', '*', '*' ],
  [ 'する', 'する', 'する', '動詞', '*', 'サ変動詞', '基本形' ],
  [ 'し', 'し', 'し', '助詞', '接続助詞', '*', '*' ],
  [ '良く', 'よく', '良い', '形容詞', '*', 'イ形容詞アウオ段', '基本連用形' ],
  [ 'ない', 'ない', 'ない', '接尾辞', '形容詞性述語接尾辞', 'イ形容詞アウオ段', '基本形' ],
  [ 'です', 'です', 'です', '助動詞', '*', '無活用型', '基本形' ],
  [ 'か', 'か', 'か', '助詞', '終助詞', '*', '*' ],
  [ '?', '?', '?', '特殊', '記号', '*', '*' ],
  [ 'と', 'と', 'と', '助詞', '格助詞', '*', '*' ],
  [ 'いう', 'いう', 'いう', '動詞', '*', '子音動詞ワ行', '基本形' ],
  [ '話', 'はなし', '話', '名詞', 'サ変名詞', '*', '*' ],
  [ '。', '。', '。', '特殊', '句点', '*', '*' ],
  [ '無料', 'むりょう', '無料', '名詞', '普通名詞', '*', '*' ],
  [ 'の', 'の', 'の', '助詞', '接続助詞', '*', '*' ],
  [ 'API', 'API', 'API', '未定義語', 'アルファベット', '*', '*' ],
  [ 'に', 'に', 'に', '助詞', '格助詞', '*', '*' ],
  [ '全部', 'ぜんぶ', '全部', '副詞', '*', '*', '*' ],
  [ '頼っちゃ', 'たよっちゃ', '頼る', '動詞', '*', '子音動詞ラ行', 'タ系連用チャ形' ],
  [ 'なら', 'なら', 'なる', '動詞', '*', '子音動詞ラ行', '未然形' ],
  [ 'ん', 'ん', 'ぬ', '助動詞', '*', '助動詞ぬ型', '音便基本形' ],
  [ 'て', 'て', 'て', '名詞', '普通名詞', '*', '*' ],
  [ '、', '、', '、', '特殊', '読点', '*', '*' ],
  [ '未', 'み', '未', '接頭辞', 'ナ形容詞接頭辞', '*', '*' ],
  [ '定義', 'ていぎ', '定義', '名詞', 'サ変名詞', '*', '*' ],
  [ '語', 'ご', '語', '名詞', '普通名詞', '*', '*' ],
  [ 'が', 'が', 'が', '助詞', '格助詞', '*', '*' ],
  [ '出て', 'でて', '出る', '動詞', '*', '母音動詞', 'タ系連用テ形' ],
  [ 'くる', 'くる', 'くる', '接尾辞', '動詞性接尾辞', 'カ変動詞', '基本形' ],
  [ 'だけ', 'だけ', 'だけ', '助詞', '副助詞', '*', '*' ],
  [ 'マシ', 'まし', 'マシ', '未定義語', 'カタカナ', '*', '*' ],
  [ 'っ', 'っ', 'る', '接尾辞', '動詞性接尾辞', '子音動詞ラ行', 'タ接連用形' ],
  [ 'すよ', 'すよ', 'すよ', '名詞', '人名', '*', '*' ],
  [ '、', '、', '、', '特殊', '読点', '*', '*' ],
  [ 'と', 'と', 'と', '助詞', '格助詞', '*', '*' ],
  [ 'いう', 'いう', 'いう', '動詞', '*', '子音動詞ワ行', '基本形' ],
  [ 'くらい', 'くらい', 'くらい', '名詞', '副詞的名詞', '*', '*' ],
  [ 'の', 'の', 'の', '助詞', '接続助詞', '*', '*' ],
  [ '期待', 'きたい', '期待', '名詞', 'サ変名詞', '*', '*' ],
  [ '値', 'あたい', '値', '名詞', '普通名詞', '*', '*' ],
  [ 'で', 'で', 'で', '助詞', '格助詞', '*', '*' ],
  [ '使う', 'つかう', '使う', '動詞', '*', '子音動詞ワ行', '基本形' ],
  [ 'と', 'と', 'と', '助詞', '格助詞', '*', '*' ],
  [ '、', '、', '、', '特殊', '読点', '*', '*' ],
  [ 'まあまあ', 'まあまあ', 'まあまあ', '副詞', '*', '*', '*' ],
  [ '使える', 'つかえる', '使える', '動詞', '*', '母音動詞', '基本形' ],
  [ 'と', 'と', 'と', '助詞', '格助詞', '*', '*' ],
  [ '思い', 'おもい', '思う', '動詞', '*', '子音動詞ワ行', '基本連用形' ],
  [ 'ます', 'ます', 'ます', '接尾辞', '動詞性接尾辞', '動詞性接尾辞ます型', '基本形' ],
  [ '。', '。', '。', '特殊', '句点', '*', '*' ],
  [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
  [ 'と', 'と', 'と', '助詞', '格助詞', '*', '*' ],
  [ 'いう', 'いう', 'いう', '動詞', '*', '子音動詞ワ行', '基本形' ],
  [ 'か', 'か', 'か', '助詞', '接続助詞', '*', '*' ],
  [ 'そういう', 'そういう', 'そういう', '指示詞', '連体詞形態指示詞', '*', '*' ],
  [ '気持ち', 'きもち', '気持ち', '名詞', '普通名詞', '*', '*' ],
  [ 'で', 'で', 'で', '助詞', '格助詞', '*', '*' ],
  [ '使って', 'つかって', '使う', '動詞', '*', '子音動詞ワ行', 'タ系連用テ形' ],
  [ 'ます', 'ます', 'ます', '接尾辞', '動詞性接尾辞', '動詞性接尾辞ます型', '基本形' ],
  [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
  [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ],
  [ '{', '{', '{', '未定義語', 'その他', '*', '*' ],
  [ '}', '}', '}', '未定義語', 'その他', '*', '*' ],
  [ '(', '(', '(', '未定義語', 'その他', '*', '*' ],
  [ ')', ')', ')', '未定義語', 'その他', '*', '*' ],
  [ '\'', '\'', '\'', '未定義語', 'その他', '*', '*' ],
  [ '&', '&', '&', '未定義語', 'その他', '*', '*' ],
  [ '%', '%', '%', '未定義語', 'その他', '*', '*' ],
  [ '$', '$', '$', '未定義語', 'その他', '*', '*' ],
  [ '#', '#', '#', '未定義語', 'その他', '*', '*' ],
  [ '"', '"', '"', '未定義語', 'その他', '*', '*' ],
  [ '!', '!', '!', '未定義語', 'その他', '*', '*' ],
  [ '~', '~', '~', '未定義語', 'その他', '*', '*' ],
  [ '=', '=', '=', '未定義語', 'その他', '*', '*' ],
  [ '-', '-', '-', '未定義語', 'その他', '*', '*' ],
  [ '\\', '\\', '\\', '未定義語', 'その他', '*', '*' ],
  [ '|', '|', '|', '未定義語', 'その他', '*', '*' ],
  [ '[', '[', '[', '未定義語', 'その他', '*', '*' ],
  [ ']', ']', ']', '未定義語', 'その他', '*', '*' ],
  [ '/', '/', '/', '未定義語', 'その他', '*', '*' ],
  [ '?', '?', '?', '未定義語', 'その他', '*', '*' ],
  [ '.', '.', '.', '未定義語', 'その他', '*', '*' ],
  [ ',', ',', ',', '未定義語', 'その他', '*', '*' ],
  [ '<', '<', '<', '未定義語', 'その他', '*', '*' ],
  [ '>', '>', '>', '未定義語', 'その他', '*', '*' ],
  [ '_', '_', '_', '未定義語', 'その他', '*', '*' ],
  [ ';', ';', ';', '未定義語', 'その他', '*', '*' ],
  [ '+', '+', '+', '未定義語', 'その他', '*', '*' ],
  [ ':', ':', ':', '未定義語', 'その他', '*', '*' ],
  [ '*', '*', '*', '未定義語', 'その他', '*', '*' ],
  [ '@', '@', '@', '未定義語', 'その他', '*', '*' ],
  [ '`', '`', '`', '未定義語', 'その他', '*', '*' ],
  [ '\n', '\n', '\n', '未定義語', 'その他', '*', '*' ]
]
GooAPIの結果
[
  ["\"","括弧",""],
  ["アップル","名詞","アップル"],
  ["\"","括弧",""],
  ["や","格助詞","ヤ"],
  ["\"","括弧",""],
  ["Google","名詞","グーグル"],
  ["\"","括弧",""],
  ["が","格助詞","ガ"],
  ["未","冠名詞","ミ"],
  ["定義","名詞","テイギ"],
  ["語","名詞接尾辞","ゴ"],
  ["な","判定詞","ナ"],
  ["よう","補助名詞","ヨウ"],
  ["に","判定詞","ニ"],
  ["、","読点",""],
  ["\"","括弧",""],
  ["ぼっち","名詞","ボッチ"],
  ["\"","括弧",""],
  ["とか","格助詞","トカ"],
  ["\"","括弧",""],
  ["ろっく","名詞","ロック"],
  ["\"","括弧",""],
  ["を","格助詞","ヲ"],
  ["拾","動詞語幹","ヒロ"],
  ["っ","動詞活用語尾","ッ"],
  ["て","動詞接尾辞","テ"],
  ["くれ","動詞語幹","クレ"],
  ["ない","動詞接尾辞","ナイ"],
  ["もの","補助名詞","モノ"],
  ["として","格助詞","トシテ"],
  ["運用","名詞","ウンヨウ"],
  ["する","動詞接尾辞","スル"],
  ["必要","名詞","ヒツヨウ"],
  ["が","格助詞","ガ"],
  ["あ","動詞語幹","ア"],
  ["る","動詞接尾辞","ル"],
  ["。","句点",""]
  ///改行のためarray変化
  ["検索","名詞","ケンサク"],
  ["ワード","名詞","ワード"],
  ["として","格助詞","トシテ"],
  ["”","括弧",""],
  ["ぼっち","名詞","ボッチ"],
  ["・","Symbol",""],
  ["ざ","Kana","ザ"],
  ["・","Symbol",""],
  ["ろっく","名詞","ロック"],
  ["!","句点",""],
  ["”","括弧",""],
  ["だけ","連用助詞","ダケ"],
  ["用意","名詞","ヨウイ"],
  ["し","動詞活用語尾","シ"],
  ["て","動詞接尾辞","テ"],
  ["お","動詞語幹","オ"],
  ["け","動詞活用語尾","ケ"],
  ["ば","動詞接尾辞","バ"],
  ["部分","名詞","ブブン"],
  ["一致","名詞","イッチ"],
  ["する","動詞接尾辞","スル"],
  ["し","接続接尾辞","シ"],
  ["良","形容詞語幹","ヨ"],
  ["く","形容詞接尾辞","ク"],
  ["な","形容詞語幹","ナ"],
  ["いです","形容詞接尾辞","イデス"],
  ["か","終助詞","カ"],
  ["?","句点",""],
  ["と","引用助詞","ト"],
  ["い","動詞語幹","イ"],
  ["う","動詞接尾辞","ウ"],
  ["話","名詞","ハナシ"],
  ["。","句点",""]
  ////改行で array変化
  ["無料","名詞","ムリョウ"],
  ["の","格助詞","ノ"],
  ["API","Alphabet","エーピーアイ"],
  ["に","格助詞","ニ"],
  ["全部","名詞","ゼンブ"],
  ["頼","動詞語幹","タヨ"],
  ["っ","動詞活用語尾","ッ"],
  ["ちゃ","動詞接尾辞","チャ"],
  ["な","動詞語幹","ナ"],
  ["ら","動詞活用語尾","ラ"],
  ["ん","動詞接尾辞","ン"],
  ["て","引用助詞","テ"],
  ["、","読点",""],
  ["未","冠名詞","ミ"],
  ["定義","名詞","テイギ"],
  ["語","名詞接尾辞","ゴ"],
  ["が","格助詞","ガ"],
  ["出","動詞語幹","デ"],
  ["て","動詞接尾辞","テ"],
  ["くる","動詞語幹","クル"],
  ["だけ","補助名詞","ダケ"],
  ["マシ","名詞","マシ"],
  ["っす","判定詞","ッス"],
  ["よ","終助詞","ヨ"],
  ["、","読点",""],
  ["と","引用助詞","ト"],
  ["い","動詞語幹","イ"],
  ["う","動詞接尾辞","ウ"],
  ["くらい","補助名詞","クライ"],
  ["の","格助詞","ノ"],
  ["期待","名詞","キタイ"],
  ["値","名詞接尾辞","チ"],
  ["で","格助詞","デ"],
  ["使","動詞語幹","ツカ"],
  ["う","動詞活用語尾","ウ"],
  ["と","動詞接尾辞","ト"],
  ["、","読点",""],
  ["まあまあ","独立詞","マアマア"],
  ["使え","動詞語幹","ツカエ"],
  ["る","動詞活用語尾","ル"],
  ["と","動詞接尾辞","ト"],
  ["思","動詞語幹","オモ"],
  ["い","動詞活用語尾","イ"],
  ["ます","動詞接尾辞","マス"],
  ["。","句点",""]
  //// 改行によりarray変化
  ["と","引用助詞","ト"],
  ["い","動詞語幹","イ"],
  ["う","動詞接尾辞","ウ"],
  ["か","接続接尾辞","カ"],
  ["そういう","連体詞","ソウイウ"],
  ["気持ち","名詞","キモチ"],
  ["で","格助詞","デ"],
  ["使","動詞語幹","ツカ"],
  ["っ","動詞活用語尾","ッ"],
  ["て","動詞接尾辞","テ"],
  ["ます","動詞接尾辞","マス"],
  [" ","空白",""],
  ["{","括弧",""],
  ["}","括弧",""],
  ["(","括弧",""],
  [")","括弧",""],
  ["'","括弧",""],
  ["&","Symbol","アンド"],
  ["%","Symbol","パーセント"],
  ["$","Symbol","ドル"],
  ["#","Symbol","シャープ"],
  ["\"","括弧",""],
  ["!","句点",""],
  ["~","Symbol",""],
  ["=","Symbol",""],
  ["-","Symbol","マイナス"],
  ["\\\\","Symbol",""],
  ["|","Symbol",""],
  ["[","括弧",""],
  ["]","括弧",""],
  ["/","Symbol",""],
  ["?","句点",""],
  [".","句点",""],
  [",","読点",""],
  ["<","Symbol",""],
  [">","Symbol",""],
  ["_","Symbol","アンダーバー"],
  [";","Symbol",""],
  ["+","Symbol","プラス"],
  [":","Symbol",""],
  ["*","Symbol",""],
  ["@","Symbol","アット"],
  ["\\","Symbol","エン"],
  ["`","括弧",""]
]

結果

  1. GooAPIの方が語彙が多い
    • 取れる単語:Google、アップル、ぼっち、ろっく
  2. GooAPIの方が細かいカテゴリ化
    • 動詞語尾を分類
    • 複数の記号カテゴリ(Symbol、括弧、句点)
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?