振り返り
前回、表記ゆれと不正解を見分けられそう(表記ゆれを一致と判断できそう)という結論にしたのですが、よくよく見なおしてみれば、不正解のデータは値を2つ「も」変えていました。
これはいかんということで、変更は「1つ」にして、確認してみます。
データ
ということで、こんなデータで確認することにしました。
sentences = [
# 正解
"東京都港区海岸一丁目2番3号",
# 表記ゆれ
"東京都港区海岸一丁目2番3号",
"東京都港区海岸一丁目二番三号",
"東京都港区海岸1丁目2番3号",
"東京都港区海岸1丁目2番3号",
"東京都港区海岸1-2-3",
"東京都港区海岸1-2-3",
# 不正解
"東京都港区海岸一丁目1番3号",
"東京都港区海岸一丁目1番3号",
"東京都港区海岸一丁目一番三号",
"東京都港区海岸1丁目1番3号",
"東京都港区海岸1丁目1番3号",
"東京都港区海岸1-1-3",
"東京都港区海岸1-1-3",
"東京都港区海岸一丁目1番1号",
"東京都港区海岸一丁目1番1号",
"東京都港区海岸一丁目一番一号",
"東京都港区海岸1丁目1番1号",
"東京都港区海岸1丁目1番1号",
"東京都港区海岸1-1-1",
"東京都港区海岸1-1-1"
]
結果発表♪
東京都港区海岸一丁目2番3号 | ||
---|---|---|
1 | 東京都港区海岸一丁目2番3号 | 2.22044605e-16 |
2 | 東京都港区海岸一丁目二番三号 | 6.11741123e-02 |
3 | 東京都港区海岸1丁目2番3号 | 7.29590979e-03 |
4 | 東京都港区海岸1丁目2番3号 | 7.29590979e-03 |
5 | 東京都港区海岸1-2-3 | 5.00328437e-02 |
6 | 東京都港区海岸1-2-3 | 5.00328437e-02 |
7 | 東京都港区海岸一丁目1番3号 | 5.38945823e-02 |
8 | 東京都港区海岸一丁目1番3号 | 5.38945823e-02 |
9 | 東京都港区海岸一丁目一番三号 | 9.56757672e-02 |
10 | 東京都港区海岸1丁目1番3号 | 5.95731232e-02 |
11 | 東京都港区海岸1丁目1番3号 | 5.95731232e-02 |
12 | 東京都港区海岸1-1-3 | 7.40203657e-02 |
13 | 東京都港区海岸1-1-3 | 7.40203657e-02 |
14 | 東京都港区海岸一丁目1番1号 | 2.45641245e-01 |
15 | 東京都港区海岸一丁目1番1号 | 2.45641314e-01 |
16 | 東京都港区海岸一丁目一番一号 | 2.57492124e-01 |
17 | 東京都港区海岸1丁目1番1号 | 2.58257453e-01 |
18 | 東京都港区海岸1丁目1番1号 | 2.58257453e-01 |
19 | 東京都港区海岸1-1-1 | 2.06726289e-01 |
20 | 東京都港区海岸1-1-1 | 2.06726289e-01 |
ほぼ表記ゆれと同じ値になってしまいました(泣)
今後の課題
ということで、「表記ゆれ」vs「数字1つ違い」が次のテーマになります。
「表記ゆれ」のコサイン距離を縮めるか、「数字1つ違い」のコサイン距離を大きくするか、ちょっと考えてみます。