文間接続関係の推定性能に関する人間とBERTの比較

Last updated at 2024-01-05Posted at 2023-12-05

概要

私が所属するAIPowerhouseの自然言語処理の研究グループでは、「文章を書く力」を測る試験問題が増えてきている現況に鑑み、文章作成を指導する側のサポートに資するAIの開発を進めています。
本記事では、言語処理学会第２９回年次大会で発表した、文間の接続関係を推定するAIの研究について紹介します。

背景

自然言語処理の世界において、二文の間の関係推定は、文章要約や文章生成などの様々なタスクに応用される重要な処理とされています¹。これまでにも計算機に文間接続関係を推定させる様々な取り組みがありました。
山本らは、単語と構文的要素に基づく大量のテキストデータを使用した統計的手法を提案しています²。斎藤らは、統計的手法の改善のため、被験者に対し、テキスト全体を提示した条件と二文だけの情報を提示した条件の2通りにおける接続関係の推定結果から接続関係間の近さを定量化し、SVM（Support Vector Machine）を使った二値分類によって得られる近さと同じ傾向になることを示しています³。我々は、このような計算機による分析と人間の認知の比較が、計算機モデルの性能向上の糸口を得るアプローチになると考えています。
このほかに、SVMの手法を用いて、二文に加えて前後各二文から品詞、文間類似度、係り受けの構文パタン等の素性を取り出し、多値分類を行ったものがあります⁴。近年では、再帰的ニューラルネットワークを用いて文の概念ベクトルを計算、文間接続関係をRAE（Recursive Auto Encoder）を用いて同定する試みも行われていますし⁵、趙らは、BERTのMasked Language Modelを用いて、少量データではありますが、マスクされた箇所に入る最も高い確率の接続詞を推定するという手法を提案しています⁶。
ただ、深層学習等によるSOTAが様々なタスクで達成されてからは、斎藤らが行ったような認知との比較が行われた研究は少ないように思われます。そこで、私たちは、大量のテキストデータを学習したBERTモデルによる文間接続関係の推定結果と人間による推定結果を比較し、モデルの性能改善のポイントについて考察しました。本記事では、この研究の一部を紹介します。

接続関係の定義

先行研究¹と同様、接続関係の推定にあたり、接続関係の種類を同じくする接続表現のいずれを選んでもよいと仮定しました。この仮定に基づき、接続関係の推定問題を、“接続関係種類の分類問題”と置き換えることとしました。
接続関係の種類を定義するため、石黒⁷を参考に、形態素解析器MeCabに辞書として登録されている接続詞を分類し、同文献で提案されている接続表現をそれぞれの種類に加えて表1を得ました。なお、複数の接続関係の種類に見られる表現は、その表現が表れる文間接続関係の推定が困難になることから、取り扱わないこととしました。

表1　接続関係の種類

種類	接続表現の例
順接	そして，そこで，このため，そのため
逆接	しかし，ただ，だが，でも
対比	これに対して，一方，他方
並列	また，そのうえで，まして
列挙	まず，まずは，一つは
例示	たとえば，とりわけ，事実，実際
補足	なぜなら，ちなみに，ただし
換言	すなわち，ようするに，それよりも
結論	このように，結局，とにかく
転換	さて，ところで，そういえば

BERTモデルによる接続関係の推定

■　データ
文法誤りが混在したテキストデータを扱わないようにするため、校正・校閲が為された新聞記事データを用いることとしました。具体的には，毎日新聞6年分の記事データ⁸から、表1で定義した接続表現が記載されている、51,790件の二文を取り出し、接続表現に該当する部分をマスクしました。なお、モデル学習時のバイアスを避けるため、データ件数は，接続関係間で偏りがないようにしています。それぞれの二文には、正解となる接続関係をラベリングしました。

■ モデル
東北大学から提供されているBERT Pre-trained Model（ https://github.com/cl-tohoku/bert-japanese/releases/tag/v2.0 ）を用いて，図1に示す構成としました。二文を[SEP]トークンで結合したうえで、Pre-trained Modelにインプットし、全結合層で処理して得られる出力値と、One-hot encodingした正解データをBinary Cross Entropy Logitlossで比較することで、文間接続関係を学習させました。

図1 BERTモデル構成

■ 実験結果
用意したデータの約75%を用いて、5分割交差検証を実施しました。テストデータとして用意した残りの約25%の12,948件のデータを用いて、BERTモデルが接続関係を推定した結果を確認しました。
ここでは、混同行列の詳細を掲載しませんが、並列が正解となる接続関係を対比と誤分類する傾向や、補足や対比が正解となる接続関係を逆接と誤分類する傾向が見られました。
接続関係ごとのRecall、Precision、およびF値は表2のとおりです。表2から，列挙について、RecallもPrecisionも、さらに、F値が全接続関係の中で高いことが分かりました。また、接続関係を順接に誤分類する傾向を裏付けるように、PrecisionとF値は順接が最も低くなっていることが分かりました。

表 2 BERTモデルの分類結果（Recall，Precision，F値）

	順接	逆接	対比	並列	列挙	例示	補足	換言	結論	転換
Recall	0.51	0.47	0.53	0.42	0.61	0.53	0.44	0.51	0.56	0.59
Precision	0.39	0.44	0.52	0.64	0.69	0.47	0.59	0.54	0.51	0.52
F値	0.44	0.45	0.53	0.51	0.65	0.50	0.53	0.50	0.53	0.56

校正・校閲経験者による接続関係の推定

■ タスク
実験には、校正・校閲の経験者や国語教員免許の保有者など22名の方にご参加いただきました。BERTモデルのパフォーマンスの評価に使用したテストデータのうち、接続関係1種類あたり40件、合計400件を取り出し、接続表現の部分を（　）でマスクした二文を被験者に提示、（　）に入るのに相応しい接続関係を選択するようにお願いしました。

■ 実験結果
全般的に，BERTモデルと同様に、接続関係を順接であると誤回答する傾向が見られました。また、補足や対比が正解となる接続関係を逆接と誤回答する傾向も確認されました。
一方で、BERTモデルで見られるような、並列を対比として誤分類する傾向はこの実験では見られませんでした。
表3は，被験者それぞれの回答結果のRecall、Precision、およびF値の平均値を算出したものです。BERTモデルと同様に、順接のPrecisionが低いという共通点が見られるのですが、表2と比較して逆接のRecallが大きく異なることが分かりました。図2に、同じ400問に対するBERTの分類結果と、被験者による回答結果の分布を示しています。図2から，被験者のほうが，逆接をより多く選択していることが明らかとなりました。

表 3 被験者の回答結果（Recall，Precision，F値）

	順接	逆接	対比	並列	列挙	例示	補足	換言	結論	転換
Recall	0.56	0.71	0.52	0.48	0.45	0.43	0.32	0.42	0.41	0.33
Precision	0.31	0.45	0.53	0.47	0.65	0.51	0.46	0.66	0.43	0.61
F値	0.39	0.55	0.52	0.46	0.51	0.45	0.37	0.50	0.41	0.41

ちなみに、被験者回答の平均正解率をみると、BERTモデルは、校正・校閲経験者に比肩する正解率を達成できていたことが分かりました。
ここまでの結果を纏めますと、

BERTモデルによる接続関係の推定性能は、校正・校閲経験者に比肩することが分かった。
BERTモデル、校正・校閲経験者ともに、接続関係を順接として誤分類してしまう傾向や、補足や対比を逆接に誤分類する傾向が見られた。
校正・校閲経験者の回答では，接続関係を逆接として誤回答する傾向がより強く見られた。BERTモデルで見られるような、並列を対比と誤分類する傾向は校正・校閲経験者の回答結果では見られなかった。

図 2 モデルと被験者による予測・回答の分布

おわりに

本記事でご紹介のとおり、BERTモデルにより、校正・校閲経験者に比肩する、接続関係の推定精度を実現できたものの、人間には見られない、BERTモデルの誤分類の傾向があることについては、改善の余地があると考えています。発表論文では、どのような余地があるのか、考察をしていますので、詳しくは、そちらをご覧ください（最近は、GPT™による推定能力についても研究しています）。
このような研究で気を付けなければならないのは、①言語学的に、特定の接続関係が、他の接続関係を代替しうる可能性がある、②人間がこれまで目にしてきた接続表現とその頻度が被験者実験の回答に認知的なバイアスをもたらしている可能性がある　など、工学だけでなく様々な領域の知を統合しながら進める必要があるという点が挙げられます（もちろん、BERTにとって短絡的に判断してしまったケースがないか考察することも必要不可欠です）。それだけ、言語処理の世界は、様々な分野と密接にかかわる魅力的な領域でしょう。一緒に研究したい方、ぜひご連絡ください。

※本記事は、言語処理学会全国大会（２０２３）において当社が発表した「人間とBERTによる文間接続関係の同定の比較と性能検証」を一部改変して紹介したものです。
※GPTは、米 OpenAI OpCo , LLC の商標です。

（著者）
AI Powerhouse 相澤　祐一

＜参考文献＞

山本和英, 齋藤真実．用例利用型による文間接続関係の同定．自然言語処理, Vol.15, No.3, 2008． ↩ ↩²
齋藤真実, 山本和英, 関根聡．大規模テキストを用いた2文接続関係の同定．言語処理学会第12回年次大会, pp.969-972, 2006． ↩
齋藤真実, 山本和英, 関根聡．文間接続関係の自動同定のための人間による同定分析, NL174-12, pp.65-70, 2006. ↩
若山裕介, 内海彰．SVMを用いた接続関係の同定，人工知能学会全国大会論文集, 2012． ↩
大塚淳史, 平野徹, 宮崎千明, 東中竜一郎, 牧野俊朗, 松尾義博．Recursive AutoEncoder を用いた文間の接続関係推定．人工知能学会全国大会論文集, 2015． ↩
趙一, 曹鋭, 白静, 馬ブン, 新納浩幸．BERTのMasked Language Modelを用いた二文間の接続関係の推定．言語資源活用ワークショップ発表論文集, Vol.5, pp.181-188, 2020． ↩
石黒圭．「接続詞」の技術．実務教育出版, 2016． ↩
毎日新聞記事データ集 2017年版，2018年版，2019年版，2020年版，2021年版，2022年版． ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up