bunkai
Sentence boundary disambiguation tool for Japanese texts (日本語文境界判定器)
という、文を分解してくれるPython。改行を含んでも分解できるのが特徴、ということ。やってみた。
pip install bunkai
以下は公式サンプル引用
root@0230359a1b81:~/opt# echo -e '宿を予約しました♪!まだ2ヶ月も先だけど。早すぎかな(笑)楽しみです★\n2文書目の先頭行で す 。▁改行はU+2581で表現します。' \
> | bunkai
宿を予約しました♪!│まだ2ヶ月も先だけど。│早すぎかな(笑)│楽しみです★
2文書目の先頭行です。▁│改行はU+2581で表現します。
お試し
*例文は「雨ニモマケズ」と、私のTwitter投稿より人畜無害なものを使用
分かれない例
root@0230359a1b81:~/opt# echo -e '雨にも負けず風にも負けず雪にも夏の暑さにも負けぬ丈夫なからだを持ち欲は無く決して瞋からず何時も静かに笑っている' | bunkai
雨にも負けず風にも負けず雪にも夏の暑さにも負けぬ丈夫なからだを持ち欲は無く決して瞋からず何時も静かに笑っている
改行しても、文は分かれているとは判定されない。
root@0230359a1b81:~/opt# echo -e '雨にも負けず風にも負けず雪にも夏の暑さにも負けぬ丈夫なからだを持ち\n欲は無く決して瞋からず何時も静かに笑っ
ている' | bunkai
雨にも負けず風にも負けず雪にも夏の暑さにも負けぬ丈夫なからだを持ち
欲は無く決して瞋からず何時も静かに笑っている
- 例では
- 雨にも負けず風にも負けず雪にも夏の暑さにも負けぬ丈夫なからだを持ち欲は無く決して瞋からず何時も静かに笑っている
分かれる例
root@0230359a1b81:~/opt# echo -e '自己理解や相互理解ができるwevox values cardをプレイしたよ!私が大切にしている価値観はこれ!「卓越性」 「影
響力」 「違いをつくる」 「豊かさ」 「遊び心」' | bunkai
自己理解や相互理解ができるwevox values cardをプレイしたよ!│私が大切にしている価値観はこれ!│「卓越性」 「影響力」 「違いをつくる」 「豊かさ 」 「遊び心」
改行しても結果は変わらず、文の切れ目で分かれる。
root@0230359a1b81:~/opt# echo -e '自己理解や相互理解ができるwevox values cardを\nプレイしたよ!私が大切にしている価値観は\nこれ!「卓越性」
「影響力」 「違いをつくる」 「豊かさ」 「遊び心」' | bunkai
自己理解や相互理解ができるwevox values cardを
プレイしたよ!│私が大切にしている価値観は
これ!│「卓越性」 「影響力」 「違いをつくる」 「豊かさ」 「遊び心」
- 例では
- 自己理解や相互理解ができるwevox values cardをプレイしたよ!
- 私が大切にしている価値観はこれ!
- 「卓越性」 「影響力」 「違いをつくる」 「豊かさ」 「遊び心」
まとめ
以上、なにかに使えるかなあ、分からないがお試しと今日のお遊び記録。