YujiHamada3
@YujiHamada3 (裕史 濵田)

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

日本語の単語をきれいにするやり方

タイトルがわかりづらく申し訳ありません。良い日本語がわかっておりません。
やりたいことととしては例えば

  • キャベシ
  • キャペツ
  • キャベッ

と言った単語を正解の"キャベツ"という単語に置き換える手法です。
簡単な日本語の単語の間違えを直すだけです。文ではなく単語の修正を考えています。
単語のジャンルはある程度限定することは可能です、例えば食品や電化製品などという具合です。

こういった処理は機械学習が得意なのかな?程度にしか考えられない程度です。
有料サービスでももちろんいいので良いアプローチの仕方があれば教えていただけますと幸いです。

0

3Answer

Comments

  1. @YujiHamada3

    Questioner

    確かにその発想なかったです…
    googleのapi利用してもしかして拾うというのはかなり使えそうです!
    ありがとうございます!!

僕も詳しくはないですが...編集距離を用いるのが良さそうだと感じました。
編集距離とは、2つの単語の類似度を示すものです。詳しくはこちら
単語のジャンルはある程度絞り込める=正解の単語データがある程度絞り込める
ということだと思うので、正解データ全てに対する編集距離を調べる→もっとも編集距離が小さいものへ置き換えると良いのではないかと思いました。

1Like

Comments

  1. @YujiHamada3

    Questioner

    レーベンシュタイン距離というもの全く知りませんでした!!
    これで解決ということはないとは思うのですが、現状よりははるかに簡単に精度をあげられそうです!回答本当にありがとうございました!

とんちんかんなことを言っていたら申し訳ありません
方法が思い浮かんだので書きます

1.使う可能性のある文字を全て画像化します
2.入力された"単語の文字の画像データ"と"全ての文字の画像データ"との差を全パターン計算します
3.その差が小さい順に文字を入れ替えます
4.あとは使用する可能性のある単語の一覧から検索し、該当する単語に置き換えるという方法

使用する可能性のある単語と入力された単語の差でも良いかもしれません

1Like

Comments

  1. 使用する可能性のある単語の一覧さえあれば自分でコードを書けると思います
  2. @YujiHamada3

    Questioner

    コメントありがとうございます!たしかに画像化することで見た目の似ている単語を引っ張ってこれそうですね!
    一つの候補として考えてみます!ありがとうございます!

Your answer might help someone💌