0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

ローマ字から漢字かな交じりに

Last updated at Posted at 2024-05-07

mecab-skksvについて

mecabが一発で自然なかな交じり文を出力するためにどうしたらいいのでしょうか?格闘してみました。

梅棹式かなづかいを復習しときます

このルールに従ってひらがなだけの文をかいておけば、すこしはMeCabの精度があがるのでは?

  • よんだひとにわかってもらえるようにかく
  • 耳で聞いただけで意味がわかるようにこころがける
  • やさしいことばで正確に自分がいいたいことをあらわすことばをさがしてつかう
  • むずかしい漢語や同音異義語のおおい漢語はさける
  • 単文連続でかくようにこころがける

漢字を音よみと、限定された訓よみにつかう.

漢字とかなのつかいわけの基本原則は、漢語は漢字で書き、和語はかなで書く.
むつかしい漢語はさけ、できるだけやさしいことばをつかう。
和語の場合、「きる」(切る、着る)や、「にる」(煮る、似る)のように、意味が>>判読しにくいときには、漢字をつかうこともゆるす。

‐ 切る→切断する
‐ 着る→着用する
‐ 煮る→煮詰める、煮込む
‐ 似る→似通わせる

こうすればさらにMeCabにやさしいとおもいます。

やまとことばがつかえるときにつかう

しちょうできる きかんが もうのこりすくなく,
5/3が しちょうせいげん の さいしゅうび

-> 市長できる 機関が もう残り少なく, 5/3が 市長制限 の 最終日

みききできる おひにちが すでに のこりすくなく,
5/3 が その おわりのひ です.

-> 見聞きできる お日にちが すでに 残り少なく, 5/3 が その 終りの日 です.

日本語とは?

日本語は、最後に来る(述語)以外はみんな(補足部)とかんがえると、

(補足部)-(補足部)-(補足部)-(補足部)-(述語)

たとえば「京都まで新幹線であしたいく」のように
原則として、補足部はながい順にならべる.

しかしmecabが得意とする出現順ってのがあるとおもう。

「うめさおじしんましんのしんてんをみることもなく, たかいした」
→ 「梅棹自身マシンの進展を見ることもなく, 他界した」

これでいける!!

ましんのしんてんをみることもなく, たかいしてしまったうめさお.
->
マシンの進展を見ることもなく, 他界してしまった梅棹.

もとはつぎのようだ。「梅棹は機器の進展を見ずに他界してしまった」
ダメ要素は、

  • 助詞の"は”をつかってる
  • 機器って同音異義語がある。(危機etc)
  • からくりとすればいいかな?

同音異義語のおおい漢語はさける。

うめさおじしんからくりのしんてんをみることもなく, たかいした
-> 梅棹自身カラクリの進展を見ることもなく, 他界した

おまけ:助詞の"は(わ)"をつかわないようにする

"は (わ)" をなるべくつかわないようにしましょう.
MeCabが助詞の「は」を"歯"と変換することがあまりにも多いです.

おまけ:長いけどもMeCabがんばった例

ひとつのしんぷるせんてんすのなかに しんぷるせんてんすが
"いれこ"となっているものをかかないようにする。
また、せつぞくしでつないだだけのへいれつしたながいぶんしょうを
かかないようにする。
くてんがうてるなら、うつ
一つのシンプルセンテンスの中にシンプルセンテンスが"入れ子"と
なっているものを書かないようにする。
また、接続詞でつないだだけの並列した長い文章を書かないようにする。
句点が打てるなら、打つ

単文(=シンプルセンテンス)とか複文(≒入れ子文)っていうのは、ジャーゴンだからしかたないですかね?単文(以下SSとする)みたいなかんじ?

せんご、あめりか による せんりょうしはいが はじまったときだ. えいぶんたいぷ をつかえたあめりかじん.
それにたいし、てがきのにっぽんじん. ずっと すくない あめりかじんのかずで おなじりょうの じむしょりを
こなした. れきぜんとした ちがいだった. しかし、にっぽんも そのご, せかいに かんたる けいざいたいこくに
なった. ちゃいなもじかなまじり-ぶん を いじ したまま, それを なしとげた. じむしょりのうりょく って
それほどのもんだいじゃない. そんな ひはんも あるだろう. うめさお が それにこたえて いわく, 
にっぽん の じむしょり にたずさわる ひとのかず が おうべい より ずっと おおく, それが けっかんを
おぎなった と.
戦後、アメリカ による 占領支配が 始まった時だ. 英文タイプ を使えたアメリカ人. それに対し、
手がきの日本人. ずっと 少ない アメリカ人の数で 同じ量の 事務処理を こなした. れきぜんとした 
違いだった. しかし、日本も その後, 世界に 冠たる 経済大国に なった. チャイナ文字かな交じり-文 ヲ
維持 したまま, それを 成し遂げた. 事務処理能力 って それほどの問題じゃない. そんな 
批判も あるだろう. 梅棹 が それに答えて いわく, 日本 の 事務処理 に携わる 人の数 が 
欧米 より ずっと 多く, それが 欠陥を 補った と.

むかしからおもっていたが、漢字って同音異義語がおおくて、つかいたくない単語No1にちかい。しかし、いいかえられない。チャイナ文字だと苦肉の策感が半端ない。真名? 本字? 男文字?

KKMB=漢字かな交じり文 みたいにどこかでことわって、つかうしかないですか?

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?