mecabでBOS, EOSを含めたテキスト全体のコストを確認したい
解決したいこと
日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか
https://techlife.cookpad.com/entry/2016/05/11/170000
を参考にしながらmecabをいじっています。
$ echo 東京都に住む | mecab -F"%m,%phl,%phr,%c,%pc,%pn\n" -N 3
→
東京,1293,1293,3003,2693,2693
都,1303,1303,9428,2504,-189
に,151,151,4304,3235,731
住む,762,762,7048,6736,3501
EOS
東,1285,1285,6245,5962,5962
京都,1293,1293,2135,7729,1767
に,151,151,4304,3235,-4494
住む,762,762,7048,6736,3501
EOS
東京,1293,1293,3003,2693,2693
都,1303,1303,9428,2504,-189
に,329,329,5976,7813,5309
住む,762,762,7048,6736,-1077
EOS
が出力され、かなり参考になるのですが、ここに BOS, EOSとの連結コストも含めることはできないでしょうか。
シェルスクリプト、Perl等の使用も含めて調べているのですがなかなか情報に行き当たらず、ここで識者から教えを賜われましたら、幸甚に存じます。
0