LoginSignup
0
0

住所の表記ゆれを生成AIで何とかできないか(お試し編-補足)

Last updated at Posted at 2023-09-14

振り返り

前回、表記ゆれと不正解を見分けられそう(表記ゆれを一致と判断できそう)という結論にしたのですが、よくよく見なおしてみれば、不正解のデータは値を2つ「も」変えていました。

これはいかんということで、変更は「1つ」にして、確認してみます。

データ

ということで、こんなデータで確認することにしました。

sentences = [
    # 正解
    "東京都港区海岸一丁目2番3号",
    # 表記ゆれ
    "東京都港区海岸一丁目2番3号",
    "東京都港区海岸一丁目二番三号",
    "東京都港区海岸1丁目2番3号",
    "東京都港区海岸1丁目2番3号",
    "東京都港区海岸1-2-3",
    "東京都港区海岸1-2-3",
    # 不正解
    "東京都港区海岸一丁目1番3号",
    "東京都港区海岸一丁目1番3号",
    "東京都港区海岸一丁目一番三号",
    "東京都港区海岸1丁目1番3号",
    "東京都港区海岸1丁目1番3号",
    "東京都港区海岸1-1-3",
    "東京都港区海岸1-1-3",

    "東京都港区海岸一丁目1番1号",
    "東京都港区海岸一丁目1番1号",
    "東京都港区海岸一丁目一番一号",
    "東京都港区海岸1丁目1番1号",
    "東京都港区海岸1丁目1番1号",
    "東京都港区海岸1-1-1",
    "東京都港区海岸1-1-1"
]

結果発表♪

東京都港区海岸一丁目2番3号
1 東京都港区海岸一丁目2番3号 2.22044605e-16
2 東京都港区海岸一丁目二番三号 6.11741123e-02
3 東京都港区海岸1丁目2番3号 7.29590979e-03
4 東京都港区海岸1丁目2番3号 7.29590979e-03
5 東京都港区海岸1-2-3 5.00328437e-02
6 東京都港区海岸1-2-3 5.00328437e-02
7 東京都港区海岸一丁目1番3号 5.38945823e-02
8 東京都港区海岸一丁目1番3号 5.38945823e-02
9 東京都港区海岸一丁目一番三号 9.56757672e-02
10 東京都港区海岸1丁目1番3号 5.95731232e-02
11 東京都港区海岸1丁目1番3号 5.95731232e-02
12 東京都港区海岸1-1-3 7.40203657e-02
13 東京都港区海岸1-1-3 7.40203657e-02
14 東京都港区海岸一丁目1番1号 2.45641245e-01
15 東京都港区海岸一丁目1番1号 2.45641314e-01
16 東京都港区海岸一丁目一番一号 2.57492124e-01
17 東京都港区海岸1丁目1番1号 2.58257453e-01
18 東京都港区海岸1丁目1番1号 2.58257453e-01
19 東京都港区海岸1-1-1 2.06726289e-01
20 東京都港区海岸1-1-1 2.06726289e-01

image.png

ほぼ表記ゆれと同じ値になってしまいました(泣)

今後の課題

ということで、「表記ゆれ」vs「数字1つ違い」が次のテーマになります。
「表記ゆれ」のコサイン距離を縮めるか、「数字1つ違い」のコサイン距離を大きくするか、ちょっと考えてみます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0