振り返り
前回、表記ゆれと不正解を見分けられそう(表記ゆれを一致と判断できそう)という結論にしたのですが、よくよく見なおしてみれば、不正解のデータは値を2つ「も」変えていました。
これはいかんということで、変更は「1つ」にして、確認してみます。
データ
ということで、こんなデータで確認することにしました。
sentences = [
# 正解
"東京都港区海岸一丁目2番3号",
# 表記ゆれ
"東京都港区海岸一丁目2番3号",
"東京都港区海岸一丁目二番三号",
"東京都港区海岸1丁目2番3号",
"東京都港区海岸1丁目2番3号",
"東京都港区海岸1-2-3",
"東京都港区海岸1-2-3",
# 不正解
"東京都港区海岸一丁目1番3号",
"東京都港区海岸一丁目1番3号",
"東京都港区海岸一丁目一番三号",
"東京都港区海岸1丁目1番3号",
"東京都港区海岸1丁目1番3号",
"東京都港区海岸1-1-3",
"東京都港区海岸1-1-3",
"東京都港区海岸一丁目1番1号",
"東京都港区海岸一丁目1番1号",
"東京都港区海岸一丁目一番一号",
"東京都港区海岸1丁目1番1号",
"東京都港区海岸1丁目1番1号",
"東京都港区海岸1-1-1",
"東京都港区海岸1-1-1"
]
結果発表♪
| 東京都港区海岸一丁目2番3号 | ||
|---|---|---|
| 1 | 東京都港区海岸一丁目2番3号 | 2.22044605e-16 |
| 2 | 東京都港区海岸一丁目二番三号 | 6.11741123e-02 |
| 3 | 東京都港区海岸1丁目2番3号 | 7.29590979e-03 |
| 4 | 東京都港区海岸1丁目2番3号 | 7.29590979e-03 |
| 5 | 東京都港区海岸1-2-3 | 5.00328437e-02 |
| 6 | 東京都港区海岸1-2-3 | 5.00328437e-02 |
| 7 | 東京都港区海岸一丁目1番3号 | 5.38945823e-02 |
| 8 | 東京都港区海岸一丁目1番3号 | 5.38945823e-02 |
| 9 | 東京都港区海岸一丁目一番三号 | 9.56757672e-02 |
| 10 | 東京都港区海岸1丁目1番3号 | 5.95731232e-02 |
| 11 | 東京都港区海岸1丁目1番3号 | 5.95731232e-02 |
| 12 | 東京都港区海岸1-1-3 | 7.40203657e-02 |
| 13 | 東京都港区海岸1-1-3 | 7.40203657e-02 |
| 14 | 東京都港区海岸一丁目1番1号 | 2.45641245e-01 |
| 15 | 東京都港区海岸一丁目1番1号 | 2.45641314e-01 |
| 16 | 東京都港区海岸一丁目一番一号 | 2.57492124e-01 |
| 17 | 東京都港区海岸1丁目1番1号 | 2.58257453e-01 |
| 18 | 東京都港区海岸1丁目1番1号 | 2.58257453e-01 |
| 19 | 東京都港区海岸1-1-1 | 2.06726289e-01 |
| 20 | 東京都港区海岸1-1-1 | 2.06726289e-01 |
ほぼ表記ゆれと同じ値になってしまいました(泣)
今後の課題
ということで、「表記ゆれ」vs「数字1つ違い」が次のテーマになります。
「表記ゆれ」のコサイン距離を縮めるか、「数字1つ違い」のコサイン距離を大きくするか、ちょっと考えてみます。
