今回、BERTを使って、名詞の多義語を含む英語の文章を学習させ、その単語ベクトルを出し、意味分類を行います。
https://qiita.com/jovyan/items/4c4920a6e25333920006#%E5%95%8F%E9%A1%8C%E8%A8%AD%E5%AE%9A
こちらの分析を参考にさせていただきました。
[1]今回対象とする名詞
ロングマン現代英英辞典(LDOCE)によると名詞capitalには以下の3つの意味があるとされています。(https://www.ldoceonline.com/jp/dictionary/capital)
- city (街)
- money (お金、紙幣、資本)
- letter (文字)
※他にも意味がありますが、今回はこの3つに絞ります。
[2]データ
今回は、BNC (British National Corpus)という大規模なイギリス英語コーパスから、上記の意味を含んでいる文をそれぞれ5文ずつこちらで無作為に選びました。(https://www.english-corpora.org/bnc/)
1)city
・Mahdi Mohammed loyalists were holding out in the northern fringes of the capital
・The city of Brisbane, capital and chief port of Queensland, is named after Sir Thomas Makdougall Brisbane
・Before they left the Irish capital, they told how pure joy replaced unbearable anguish when they learned their little girl
・tunnelers were working on Thames Water's 250 million ring main round the capital
・Spurs have beaten them in their last nine visits to the capital
2)money
・we usually have a similar document on the minor capital works
・The British bourgeoisie is going to have to look elsewhere for capital appreciation
・Hence a preference as to dividend will not imply a preference as to capital
・if they are given a preferential right to a return of capital they are presumed to be non-participating in surplus assets
・the company may merge the relevant share capital
3)letter
・For ease of recognition we denote polynomials in Zx by capital letters
・what we have done is is is print our names in capital letters there
・the Rapporteur felt able to declare, in a passage set in capital letters
・Do not go to EuroDisney, or patronise anywhere or anything with a capital letter in the middle of its name
・the generic name always starts with a capital letter
・a grammatical sentence is expected to begin with a capital letter and end with a full stop and people are expected to write in sentences
[3]環境
今回、Google Colaboratoryで行いました。
また、tensorflowのバージョンは1.15.5です。
BERTのModelは、’uncased_L-12_H-768_A-12’を使います。
[4]結果
結果をヒートマップで表示してみました。
1~5文目がcity(首都)を意味するcapitalを含んでいる文、6~10文目がmoney(お金、資本、資金)を意味するcapitalを含んでいる文、11~15文目がletter(大文字)を意味するcapitalを含んでいる文です。
ヒートマップを見てみると、意味分類はできているように見えます。
今回に限ると、letter(大文字)を含む文はほとんどが0.8~1.0と濃い赤を示している一方、city(首都)とmoney(お金、資本、資金)を含む文はある程度のグラデーションが確認できるため、3つの意味の中では、cityとmoneyはより近い関係にあると思われます。
続いて、各層(0~11)における適合率を調べてみました。
0層目: 0.75
[0.5 1. 1. 0.5 0.75 0.5 0.75 0.5 0.75 0.5 1. 1. 1. 0.75 0.75]
1層目: 0.83
[0.75 1. 1. 0.5 0.75 0.25 0.75 0.75 1. 0.75 1. 1. 1. 1. 1. ]
2層目: 0.83
[1. 1. 1. 0.75 0.75 0. 0.75 0.75 0.75 0.75 1. 1. 1. 1. 1. ]
3層目 0.85
[1. 1. 1. 1. 1. 0. 0.75 0.5 0.75 0.75 1. 1. 1. 1. 1. ]
4層目: 0.85
[1. 1. 1. 1. 1. 0. 0.75 0.5 0.75 0.75 1. 1. 1. 1. 1. ]
5層目: 0.87
[1. 1. 1. 1. 1. 0. 0.75 0.75 0.75 0.75 1. 1. 1. 1. 1. ]
6層目: 0.88
[1. 1. 1. 1. 1. 0. 1. 0.75 0.75 0.75 1. 1. 1. 1. 1. ]
7層目: 0.92
[1. 1. 1. 1. 1. 0.25 1. 1. 0.75 0.75 1. 1. 1. 1. 1. ]
8層目: 0.9
[1. 1. 0.75 1. 0.75 0.25 1. 1. 1. 0.75 1. 1. 1. 1. 1. ]
9層目: 0.92
[1. 1. 0.75 1. 0.75 0.25 1. 1. 1. 1. 1. 1. 1. 1. 1. ]
10層目: 0.92
[1. 1. 1. 0.75 0.75 0.25 1. 1. 1. 1. 1. 1. 1. 1. 1. ]
11層目: 0.88
[1. 1. 1. 0.75 0.75 0. 1. 0.75 1. 1. 1. 1. 1. 1. 1. ]
上記より適合率は7、9、10層目が0.92と高い結果になりました。 ですが、これら3つの層において、6文目("we usually have a similar document on the minor capital works”)が0.25という低い数値を出していることが見て取れます。つまり、6文目が例文としてはあまり良くない、改善の余地があるということが言えそうです。
また、全体の層の平均値は0.87で、最後から6層(6~11)の平均値は0.93でした。
[5]今後の課題
「capital」におけるより良いモデルを作成するために例文を変更して、よりいいモデルが作られるようにしていこうと思います。
今回の結果を踏まえて、今後は
1)他の多義を含む名詞で検証した場合どのような結果になるのか
2)他の多義を含む品詞(助動詞など)で検証した場合どのようになるのか
の2つを検証していく必要があるかと思います。