前回、初めての投稿で今回で2回目になります。
(https://qiita.com/MyKey0229/items/dc41c1c5021d24363908)
1つ前の分析で、全体の層の適合率の平均値が0.87で、最後から6層(6~11)の平均値は0.93でした。
分析の結果、6文目("we usually have a similar document on the minor capital works”)があまりいい影響を及ぼしていないのではという結果になりました。
そこで、今回は、例文を変更してみます。
モデルが判別できる文章、できない文章は何であるのかを見てみたいと思います。
[変更1]
まずは、
"we usually have a similar document on the minor capital works”
を
"Simultaneously, there are case-studies showing in more depth how social resources are mobilised and capital accumulated in both the' formal' and' informal' economies"
という文に変更してみました。
その結果、
0層目:0.78
[0.5 0.75 1. 0.5 0.75 0.75 0.75 0.75 0.75 0.5 1. 1. 1. 0.75 1. ]
1層目:0.92
[1. 1. 1. 0.75 0.75 1. 0.75 0.75 1. 0.75 1. 1. 1. 1. 1. ]
2層目:0.93
[1. 1. 1. 0.75 1. 1. 0.75 0.75 1. 0.75 1. 1. 1. 1. 1. ]
3層目:0.95
[1. 1. 1. 1. 1. 1. 0.75 0.75 1. 0.75 1. 1. 1. 1. 1. ]
4層目:0.95
[1. 1. 1. 1. 1. 1. 0.75 0.75 1. 0.75 1. 1. 1. 1. 1. ]
5層目:0.97
[1. 1. 1. 1. 1. 1. 0.75 0.75 1. 1. 1. 1. 1. 1. 1. ]
6層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
7層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
8層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
9層目:0.98
[1. 1. 1. 1. 0.75 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. ]
10層目:0.97
[1. 1. 1. 0.75 0.75 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. ]
11層目:0.97
[1. 1. 1. 0.75 0.75 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. ]
全体の層の適合率の平均値が、0.95、最後の6層の適合率の平均値が0.99となりました。
9~11層目の4番目(5文目)に着目してみると、一貫して0.75という数値になっているため、まだまだ改善の余地がありそうです。
[変更2]
次に、5文目("Spurs have beaten them in their last nine visits to the capital")を
"Lake area is a holiday and recreation centre just outside the city of Brno the capital of Moravia"
に変更して再度分析をしてみます。
その結果、
0層目:0.77
[0.5 0.75 0.75 0.5 0.75 0.75 0.75 0.75 0.75 0.5 1. 1. 1. 0.75 1. ]
1層目:0.92
[1. 1. 0.75 0.75 1. 1. 0.75 0.75 1. 0.75 1. 1. 1. 1. 1. ]
2層目:0.93
[1. 1. 1. 0.75 1. 1. 0.75 0.75 1. 0.75 1. 1. 1. 1. 1. ]
3層目:0.95
[1. 1. 1. 1. 1. 1. 0.75 0.75 1. 0.75 1. 1. 1. 1. 1. ]
4層目:0.95
[1. 1. 1. 1. 1. 1. 0.75 0.75 1. 0.75 1. 1. 1. 1. 1. ]
5層目:0.97
[1. 1. 1. 1. 1. 1. 0.75 0.75 1. 1. 1. 1. 1. 1. 1. ]
6層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
7層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
8層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
9層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
10層目:0.98
[1. 1. 1. 0.75 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. ]
11層目:0.98
[1. 1. 1. 0.75 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. ]
全体の層の適合率の平均値が、0.95、最後の6層の適合率の平均値が0.99となりました。
6~9層目では適合率が1.0といい数値が出ていると思います。
10~11層目の3番目(4文目)に着目してみると、まだ0.75という数値になっているため、もう一押し改善できそうです。
[変更3]
続いて、4文目("unnelers were working on Thames Water's 250 million ring main round the capital”)を
"No trip to Holland is complete without a trip to the historical capital Amsterdam"
に変更してみます。
その結果、
0層目:0.8
[0.5 0.75 0.75 0.5 0.75 1. 0.75 0.75 0.75 0.5 1. 1. 1. 1. 1. ]
1層目:0.93
[1. 1. 0.75 0.75 1. 1. 0.75 0.75 1. 1. 1. 1. 1. 1. 1. ]
2層目:0.97
[1. 1. 1. 1. 1. 1. 0.75 0.75 1. 1. 1. 1. 1. 1. 1. ]
3層目:0.97
[1. 1. 1. 1. 1. 1. 0.75 0.75 1. 1. 1. 1. 1. 1. 1. ]
4層目:0.97
[1. 1. 1. 1. 1. 1. 0.75 0.75 1. 1. 1. 1. 1. 1. 1. ]
5層目:0.98
[1. 1. 1. 1. 1. 1. 0.75 1. 1. 1. 1. 1. 1. 1. 1. ]
6層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
7層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
8層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
9層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
10層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
11層目:1.0
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
全体の層の適合率の平均値が、0.96、最後の6層の適合率の平均値が1.0となりました。
現在のモデルでは、以上までの例文ならうまく判別することができたと思います。
[次の課題]
前回と今回で、capitalを中心に多義を孕む英単語(名詞)をBERTで分析してきました。
次回以降では、別の品詞で同様な分析を行なってみようと思います。