YujiHamada3
@YujiHamada3 (裕史 濵田)

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

日本語の単語をきれいにするやり方

タイトルがわかりづらく申し訳ありません。良い日本語がわかっておりません。
やりたいことととしては例えば

  • キャベシ
  • キャペツ
  • キャベッ

と言った単語を正解の"キャベツ"という単語に置き換える手法です。
簡単な日本語の単語の間違えを直すだけです。文ではなく単語の修正を考えています。
単語のジャンルはある程度限定することは可能です、例えば食品や電化製品などという具合です。

こういった処理は機械学習が得意なのかな?程度にしか考えられない程度です。
有料サービスでももちろんいいので良いアプローチの仕方があれば教えていただけますと幸いです。

0

2Answer

Comments

  1. @YujiHamada3

    Questioner

    確かにその発想なかったです…
    googleのapi利用してもしかして拾うというのはかなり使えそうです!
    ありがとうございます!!

僕も詳しくはないですが...編集距離を用いるのが良さそうだと感じました。
編集距離とは、2つの単語の類似度を示すものです。詳しくはこちら
単語のジャンルはある程度絞り込める=正解の単語データがある程度絞り込める
ということだと思うので、正解データ全てに対する編集距離を調べる→もっとも編集距離が小さいものへ置き換えると良いのではないかと思いました。

1Like

Comments

  1. @YujiHamada3

    Questioner

    レーベンシュタイン距離というもの全く知りませんでした!!
    これで解決ということはないとは思うのですが、現状よりははるかに簡単に精度をあげられそうです!回答本当にありがとうございました!

Your answer might help someone💌