はじめに
慣用句といえば「猿も木から落ちる:その道にすぐれた者でも、時には失敗することがあるということのたとえ1」というように、背景の出来事や知識(例:猿は木登りが上手い)を前提にした表現のことを指します。
これらの表現は比喩的な表現となっていて文字通りの意味として用いられていないことが多く、自然言語処理的には難しい対象であることには間違いないでしょう。
今回は事前学習された日本語BERTのモデルが、すでにどの程度慣用句に対しても意味表現を獲得しているのか調べてみたいと思いました。
慣用句とその説明を集める
以下のリンクに掲載されている慣用句を対象にしました。
これらの慣用句に対して、Weblio類語辞書の「意義素」の説明をその慣用句の説明として収集しました。
慣用句のベクトルと説明文のベクトルの類似度
文の埋め込み表現はSentence BERTを利用させていただきます。
例えば、「井の中の蛙」の埋め込みベクトルと「小さな領域に囚われて広い世界を知らないさま」の埋め込みベクトルの類似度を測ることで、その慣用句の意味を捉えられているかということを定量化することにします。
対象の慣用句は合計で541個になりました。
ベクトルの類似度はコサイン類似度を用います。
結果
実際の例を見てみたいと思います。
まず、全体的に見て少数精鋭である類似度0.6以上の例です。
# ('慣用句-説明', コサイン類似度)
('汗をかく-汗が出ること', 0.9206893),
('汗を流す-汗が出ること', 0.9176176),
('怒り心頭に発する-怒りの感情をたかぶらせること', 0.88858783),
('煙を立てる-ものに火がついて煙が立つこと', 0.87552994),
('恥の上塗り-恥をかいたさらにその上に恥をかくこと', 0.87510234),
('病を得る-病にかかること', 0.8627183),
('雷が落ちる-雷の直撃を受けること', 0.839962),
('怖気を震う-恐ろしさに震えたり寒気を感じたりするさま', 0.7928447),
('恥をかく-恥ずかしい思いをすること', 0.791155),
('種を蒔く-植物が芽吹くよう土に種をおくこと', 0.790225),
('肩が凝る-肩の部分に強ばったような違和感を覚えること', 0.78237593),
('言うなれば-ある意味では、言ってみれば', 0.75719595),
('年が改まる-新しい年になること', 0.756077),
('思いが届く-自分の思いを相手によく伝えること', 0.74621177),
('耳が早い-物事を聞きつけるのが早い様子', 0.7367195),
('胸が痛む-悲しみや心配ごとなどで胸が圧迫されたようになること', 0.72759753),
('歯を食いしばる-悔しさの表現などで歯を食いしばるさま', 0.724127),
('望みを託す-何らかのものを夢や希望などの対象とすること', 0.72242683),
('悔いの八千度-悔いが残る状態', 0.7214806),
('歯切れがいい-言い回しの調子が快さを感じさせるさま', 0.7156522),
('実が入る-果実や穀物などが十分に実ること', 0.7154342),
('意に介する-気遣う、あるいは興味を示す', 0.7136552),
('時間を割く-その物事に取り掛かるためのまとまった時間を確保すること', 0.7046604),
('恐れをなす-恐ろしいという気持ちを抱くこと', 0.6996939),
('弓を引く-弓などで目標に向かって矢を飛ばすこと', 0.6879698),
('待ちに待った-人や物事を心から待っていたさま', 0.68699783),
('力の限り-力に任せて物事を行うさま', 0.6831332),
('軒を並べる-民家などが多く密集している状態のこと', 0.6806612),
('雲行きが怪しい-先行きに暗雲が立ち込めているさま', 0.6805252),
('耳に入れる-人の話などに耳を傾けること', 0.66881835),
('面倒を見る-世話をする、または、面倒を見る', 0.66219115),
('逃げを打つ-次の一手として、逃走を選ぶこと', 0.660743),
('胸騒ぎがする-よいことが起きる予感を得て興奮している様子を表す表現', 0.657698),
('癪に障る-苛立ちを感じさせる', 0.64877754),
('菩提を弔う-死後の平安を祈ること', 0.6421624),
('年が明ける-新しい年になること', 0.64122826),
('食が進む-物を食べたいという意欲が増えること', 0.6259891),
('息が切れる-疲労などにより呼吸が乱れること', 0.6239335),
('意に染まない-心情的に従えない様子', 0.6227323),
('冷たくなる-温度が低下すること', 0.6213009),
('動きが取れない-動けない状態になっているさま', 0.62001765),
('気が合う-考え方などが似ており、付き合いやすいさま', 0.6178312),
('悪態をつく-面と向かって人を悪く言うこと', 0.6177034),
('頬を染める-興奮などで頬を赤く染めること', 0.6145178),
('不幸中の幸い-災難があったものの取り返しのつかないことにはならなくてよかったという表現', 0.61162764),
('思いも寄らない-予想または予期されない', 0.6106563),
('言い得て妙-ものの性質をよく言い表しており、かつ面白みがあるような言葉の選び方のこと', 0.60953313),
('胸がつかえる-悲しみや心配ごとなどで胸が圧迫されたようになること', 0.6050648),
('訳が違う-事情が違い同様には扱えないさま', 0.6038321),
('後先になる-順序が入れかわること', 0.6022623),
('幸いにして-幸運にも、運よく', 0.600992),
('無きに等しい-ほんの僅かしかなく、ほぼ無いと見なせるさま', 0.60056764),
('悦に入る-大きな自己満足、満足または喜びで何かを考えまたは見つめる\u3000\u3000689', 0.60031277),
これらは、慣用句と説明文で出てくる単語がほぼ同じであったり、慣用句がほとんど一つの現象のみを指しているということであったりが分かると思います。
「冷たくなる-温度が低下すること」や「菩提を弔う-死後の平安を祈ること」、「意に介する-気遣う、あるいは興味を示す」などは、慣用句と説明文で出てくる表現が異なっていますが正しく意味の近さを捉えられているように見えます。
類似度0.4から0.5あたりの慣用句
('涙を誘う-観客が泣いてしまうような演出のこと', 0.51410145),
('魂が抜ける-いきいきとした様子や気力が失われること', 0.513165),
('幕が下りる-舞台の公演などが終わること', 0.51264274),
('昼夜を分かたず-仕事などを夜も休むことなく行うさま', 0.51202005),
('店をたたむ-商売や店をやめること', 0.51067126),
('異彩を放つ-物事が周囲に比べてよく目立つさま', 0.50437874),
('帳尻を合わせる-物事が上手くいくように調整を行うこと', 0.5021307),
('舌が回る-よどみなくすらすらと言葉を発するさま', 0.49900302),
('耳が痛い-人の言葉が精神的に動揺するものであるさま', 0.49639958),
('話が合う-人の意思疎通が上手くいき、互いによく理解し合えること', 0.49570832),
('物議を醸す-人の迷惑になるような事件を起こすこと', 0.49435997),
('意地になる-強い態度に出て自分の考えを曲げなくなること', 0.49147174),
('罪を着せる-本来責任や罪のない人にそれを負わせること', 0.48873666),
('余りと言えば-通常であるか適当な限度を上回っている', 0.48553115),
('非業の最期-悔しい気持ちの残る死のこと', 0.4829182),
('名が売れる-大きな物事を成し遂げて、世間に広く名が知られるようになること', 0.48080456),
('馬鹿になる-精神状態が異常になるさま', 0.47877017),
('底が知れない-見当がつけられないほど甚だしいさま', 0.47862267),
('酒に呑まれる-酒に酔って意識がはっきりしなくなること', 0.47732994),
('本気になる-心底からの取り組みに変わるさま', 0.4765798),
('面目を失う-名誉に傷がつけられること', 0.47575662),
('尻餅をつく-立っている状態からつまづくなどして横になること', 0.47558093),
('膝が笑う-膝が安定して胴を支持できずに震えるさま', 0.47332343),
('真に迫る-見ている人に強いリアリティや感情を呼び起こすようであるさま', 0.46913102),
('舌先三寸-心のこもっていない、うわべだけの物言いのこと', 0.46543047),
('反旗を翻す-他人に対して強く反抗すること', 0.46515512),
('否が応でも-納得がいかないながらも他に選択肢がなく、そうするしかないさま', 0.4651534),
('非業の死-悔しい気持ちの残る死のこと', 0.46210027),
('知恵を借りる-良い案があれば教えてほしいと相談すること', 0.4616169),
('無に帰する-再び何もない状態になる', 0.46046492),
('争って-互いの力を比べ合うさま', 0.45995334),
('一目置く-相手が優れていることを認めていること', 0.45931298),
('雲泥の差-大きな隔たりがあるさま', 0.45816225),
('世話になる-いずれ恩返しすべきと認める助力を得ること', 0.45784694),
('頬をふくらます-不満のありそうな表情をするさま', 0.45696136),
('等閑に付す-物事に対して充分な注意を払わないさま', 0.4569572),
('一糸乱れず-複数のものが完全に同調して行動しているさま', 0.45604056),
('腹を決める-ある物事を行うことを強く心に決めること', 0.4538382),
('苦もなく-容易さをもって', 0.45335066),
('芸が細かい-出来具合いが細かく丁寧であるさま', 0.45228156),
('腕に覚えがある-自身の能力に自信があるさま', 0.4521864),
('抜き差しならない-退いたり回避したりできない苦境にあるさま', 0.45216388),
('指折り数える-ものの数を調べること', 0.44822985),
('先に立つ-先に進み案内役となること', 0.4475208),
('見て見ぬ振り-知っていながら知らないふりをすること', 0.44585145),
('息が合う-考え方などが似ており、付き合いやすいさま', 0.44372198),
('思う壷にはまる-相手の意図した通りに動かされてしまうこと', 0.44109783),
('謎を解く-分からない物事を考えて明らかにすること', 0.4406479),
('息が詰まる-その場にいるにはどうにも気まずいさま', 0.44007328),
('憂き身を窶す-一つのことに集中して他を顧みないさま', 0.439828),
('バトンを渡す-前任者の業務や役割を別の人に受け渡すこと', 0.43943533),
('紙一重の差-小さな差異のこと', 0.43900084),
('軒を争う-民家などが多く密集している状態のこと', 0.43591034),
('手前味噌-自分をほめあげること', 0.435507),
('弘法にも筆の誤り-上手な人も時には誤りをおかすという表現', 0.4343734),
('眼中に無い-対象とみなすに値しないさま', 0.43422225),
('待てば甘露の日和あり-焦らずに待っていれば、やがていい機会に恵まれるということわざ', 0.4326594),
('馬鹿にならない-人を軽んじることができにくいさま', 0.42693844),
('短気は損気-急がずに慎重にやれという言い回し', 0.4266519),
('意地を通す-心に決めたことを他からの圧力に負けずに押し通すこと', 0.42599896),
('灰にする-遺体を形式に則って焼くこと', 0.42545107),
('待てど暮らせど-期待している事がいつまでたっても実現しないさま', 0.4253325),
('宙を飛ぶ-ものが空気中を漂うこと', 0.42452988),
('良薬口に苦し-注意されるのは不愉快だが自分のためになるという表現', 0.42338172),
('面倒をかける-相手の思い通りに動かずに相手を困らせること', 0.42273194),
('間が悪い-物事を行うのによい機会でないさま', 0.42020208),
('先を越す-相手が行うよりも早く行動を起こすさま', 0.4186318),
('背筋が寒くなる-恐ろしいという気持ちを抱くこと', 0.41826114),
('身から出た錆-自分の行いで自ら苦境に陥ること', 0.4176624),
('言うことを聞く-暴れずに相手の言う事によく従うこと', 0.41761425),
('お眼鏡にかなう-立場が上の者から一定の評価を得るさま', 0.41464803),
('気が大きい-性質と心が小さくない', 0.41438606),
('話が付く-協議や契約などがまとまること', 0.41288117),
('死なば諸共-相手との関係が深く、死ぬ時は一緒という状況にあること', 0.4124895),
('取るに足らない-重要度が低いさま', 0.41230363),
('念の為-安心しきらないことを表す表現', 0.4109139),
('朱に染まる-大量の血が出ること', 0.41049257),
('呆気にとられる-驚きのあまり呆然となること', 0.40716255),
('必要に迫られる-あるものがないと物事がうまくいかなくなること', 0.40632266),
('腰が強い-張りや弾力があるさま', 0.40503755),
('筋がいい-物事を行う上での才能や見込みがあるさま', 0.4043663),
「涙を誘う」や「名が売れる」など慣用句内に比喩的な表現が使われているものがあります。
次に一つ山ができていた類似度0.2あたりの慣用句を見てみます。
('宝の持ち腐れ-所持していてもその真価を発揮できないさま', 0.26510847),
('固唾を呑む-唾液を飲む動作', 0.2636071),
('力になる-物事がはっきりした良い結果を生み出すこと', 0.26146448),
('性に合う-物が違和感なく扱えるさま', 0.25777194),
('血がたぎる-意欲が盛んになって興奮すること', 0.2573795),
('蒔かぬ種は生えぬ-何か行動を起こしたり、努力をしなくては良い結果は得られないという表現', 0.256383),
('首を切る-労働者との雇用契約を解除すること', 0.25574332),
('財布の紐を締める-あまり金を使わないように気をつけること', 0.255457),
('止めを刺す-ゲームなどで劣勢の相手に攻撃をしかけて勝敗を覆しがたいものにすること', 0.25526696),
('顔が立つ-栄誉を損なわずに事をなすさま', 0.25521815),
('食うか食われるか-相手を倒すかこちらが倒されるか、ギリギリの戦いであるさま', 0.2551158),
('腸が煮えくり返る-非常に腹立たしいさま', 0.25486025),
('一筋縄ではいかない-交渉や取引などで、自分の有利になるように持っていくのがうまいさま', 0.25393224),
('矢面に立つ-相手からの攻撃の対象となること', 0.25348902),
('多とする-能力や価値があるものと見なす', 0.25334254),
('一から十まで-説明などを細かなところまで詳しく行うさま', 0.2520089),
('向かう所敵なし-強さや勢いにおいて、他のどれよりも上回っているさま', 0.2512403),
('掌中の珠-大切にしているもののこと', 0.24979286),
('顔色を窺う-人に気に入られるために卑屈な行動をとること', 0.24937813),
('肩で風を切る-勢いづいた振る舞いをするさま', 0.24909864),
('最初で最後-素晴らしく上手くいったことを形容する言い方', 0.2490207),
('寝ても覚めても-一日のうち該当しない時間のないさま', 0.24771786),
('意地でも-とにかく必要な', 0.24636094),
('取るに足りない-社会的地位または質において低いまたは劣る', 0.24631247),
('単刀直入-回避や妥協なしに', 0.2460297),
('毒気を抜かれる-呆れるなどして言う言葉がないさま', 0.2452209),
('袖にする-邪魔な者を追い払うこと', 0.24428011),
('向こうを張る-物事に対して反対の意思を示すこと', 0.24300466),
('渋皮が剥ける-特に女性において一層美しくなること', 0.24218825),
('間髪を容れず-非常に短時間のうちに事が進行するさま', 0.24210805),
('食指が動く-ものに対して欲を持つこと', 0.242006),
('辻褄が合う-物事が理屈にかなっているさま', 0.23999153),
('ローマは一日にして成らず-物事が短い期間では完成しないさま', 0.23911464),
('天に唾する-神仏をも恐れぬ振る舞いをすること', 0.23834895),
('快刀乱麻を断つ-複雑な問題などを見事に解決すること', 0.23823747),
('実にや-真実、事実または現実に従って', 0.23774707),
('痺れを切らす-これ以上は我慢の限界であるさま', 0.23709759),
('口裏を合わせる-複数の人などの間で意志を互いに伝え合うこと', 0.23702417),
('眼鏡にかなう-立場が上の者から一定の評価を得るさま', 0.2357329),
('横車を押す-到底無理であることを人に要求して困らせること', 0.23473519),
('割に合う-ある物事が、目的の為の利益を与えること', 0.23463179),
('鼻息が荒い-物事に取り組む強い意欲があるさま', 0.23458694),
('切った張った-人に力で危害を加える行為のこと', 0.23351923),
('兜の緒を締める-緊張感を持って事に当たるさま', 0.23196435),
('旅の恥はかき捨て-物事が自分が関わらなくなった後にどうなっても構わないという意味の表現', 0.23040183),
('如何にか-若干の明らかでない方法または状態で', 0.22771801),
('後ろ髪を引かれる-未練や心残りがあるさま', 0.22767285),
('否でも応でも-選択権がなく', 0.22703211),
('亀の甲より年の劫-長年の経験が貴く価値があることのたとえ', 0.22677363),
('白日の下に晒す-隠されていたものを公知の状態にすること', 0.22661202),
('指一本も差させない-物事に対して他人に干渉させないという思いでいるさま', 0.22640415),
('朱を入れる-文章の間違いを指摘したり修正したりすること', 0.22619872),
('臍を固める-物事を行う意志を決めること', 0.2258992),
('旗色が悪い-勝負の途中において負けている状態のこと', 0.22541963),
('例の-いつもと同じパターン', 0.22513719),
('裏を取る-捜査などで証拠を他の面から確実なものとすること', 0.22474556),
('身に余る-勝負して勝てる見込みが殆どないさま', 0.22362456),
('売り言葉に買い言葉-言葉による言い争いのこと', 0.22356404),
('地獄で仏に会ったよう-困窮しているときの願ってもない助け', 0.22139934),
('一山当てる-一度の行動で劣勢の状況を逆転することをもくろむこと', 0.22125469),
('釘を刺す-人に対して、事前に注意を促すこと', 0.22052015),
('骨が折れる-目的を達成するために苦労がいること', 0.22026062),
('所嫌わず-どこでも、どこにでも、またはどこまでも', 0.21969855),
('爪を研ぐ-相手を倒そうと準備をして待つこと', 0.21961746),
('矛を収める-妥協して勝負を取りやめること', 0.21783735),
('股に掛ける-全国各地や世界各国を忙しく行き来するさま', 0.21711662),
('前車の轍を踏む-前の人と同じ過ちを繰り返すこと', 0.21707244),
('世話が焼ける-何かと手助けしてやる必要があるさま', 0.21701895),
('面の皮が厚い-恥を恥とも思わないでいるさま', 0.21601532),
('踏んだり蹴ったり-被害や不運が重なること', 0.21554734),
('横紙破り-物事を無理に押し通そうとすること', 0.21444404),
('冥利に尽きる-今の立場に幸せを感じる', 0.21411707),
('食うや食わず-経済的に苦しい状態のこと', 0.21012989),
('腹が黒い-心中では悪いことを考えているさま', 0.20944819),
だんだん「ローマは一日にして成らず」や「前車の轍を踏む」、「後ろ髪を引かれる」など背景知識が存在しているようなものや慣用句全体が比喩的なものが増えてきます。
ただ、「一日」と「短い期間」、「前車の轍」と「前の人」のように慣用句と説明文の間に意味的な共通点を見出せる表現が存在しているものがあることも特徴のようです。
最後は類似度が0.1を下回っているものを見てみます。
('神掛けて-完全にそして資格なしで', 0.098452345),
('竜頭蛇尾-期待が高かった割に内容が薄いさま', 0.09772302),
('骨抜きにされる-異性などの魅力にひきつけられるさま', 0.09701406),
('月とすっぽん-大きな優劣の差があること', 0.09544875),
('旗を巻く-戦いに敗れたことを表明すること', 0.09504455),
('波に乗る-物事や人物を取り巻く状況が良くなること', 0.09236882),
('干天の慈雨-将来が暗いと思われた中で、希望となる物事の存在が明らかになること', 0.0906298),
('提灯に釣り鐘-大きな優劣の差があること', 0.09031941),
('豚に真珠-価値の分らないものに価値あるものを与える無駄さ', 0.090203114),
('兎の登り坂-作業がよく進み、片付くさま', 0.090071894),
('業を煮やす-相手の行為などに対して、これ以上耐え忍ぶことが出来ない状態であるさま', 0.08953563),
('猫の手も借りたい-こなすべき仕事が多くて慌しいさま', 0.088122584),
('オブラートに包む-相手を強く刺激しないように言葉を選ぶさま', 0.086827815),
('馬の耳に念仏-価値の分らないものに価値あるものを与える無駄さ', 0.08445874),
('根に持つ-過去の出来事に関して嫌悪や憎悪を感じること', 0.08310709),
('石に齧りついても-とにかく必要な', 0.08194133),
('猫の額-空間的に非常に狭い場所のこと', 0.081469126),
('茶茶を入れる-あざけるか、ふざけてからかう', 0.07738335),
('雪と墨-極めて大きな差のこと', 0.0744076),
('白を切る-知っているのに知らないふりをすること', 0.074137695),
('砂上の楼閣-計画者がコントロールできない不安定なファクターに依存する思索的な計画', 0.073241234),
('お茶の子さいさい-容易ですぐできるさま', 0.07225767),
('火の車-事業がうまく行っていない様子', 0.06837528),
('年寄りの冷や水-自らを破滅に追い込むような行為のこと', 0.06831275),
('高嶺の花-地位や身分の違いから接点を持てない相手のこと', 0.06421757),
('灰汁が抜ける-激しい人間性が以前に比べて穏やかになること', 0.06421462),
('立つ鳥跡を濁さず-物事を終えた後に、物事を行う前の状態に戻すこと', 0.055872526),
('白玉楼中の人となる-人の死をより文学的に言い換えた表現', 0.055123813),
('猿も木から落ちる-上手な人も時には誤りをおかすという表現', 0.051272087),
('コップの中の嵐-集団の内部で起こり、外部にはそれほどの影響を及ぼさない争いのこと', 0.042529337),
('石橋を叩いて渡る-物事に際して注意を払うこと', 0.042471044),
('蛙の面に水-どんなに酷いことをされても平気でいること', 0.042325776),
('油を売る-本来やるべきことと異なることに時間を費やすこと', 0.03942819),
('青菜に塩-突然何らかの理由で消沈すること', 0.03887484),
('汗水流す-労働に勤しむさま', 0.032491818),
('道草を食う-本来やるべきことと異なることに時間を費やすこと', 0.032235812),
('根も葉もない-意見や議論などにそれを裏付ける証拠や根拠がないさま', 0.03209277),
('元の木阿弥-物事に完全に失敗して何も得られないこと', 0.028881904),
('水魚の交わり-以前から良く知っていて親しい間柄であること', 0.028748315),
('棚から牡丹餅-思いがけず良いことが起こるという意味の表現', 0.017938497),
('畳の上の水練-現実的な価値や意味がないもの', 0.017778734),
('油を絞る-部下や生徒、子どもなどを激しい口調で諭すこと', 0.014465544),
('餅は餅屋-専門家が最も優れているという表現', 0.0032232944),
('堂に入る-手つきや動作がこなれていて違和感のないさま', -0.0020024818),
('泥をかぶる-他人のために、敢えて困難な状況に陥ること', -0.002093867),
('夜も日も明けない-必要不可欠であるさま', -0.008848845),
('蛇の道は蛇-専門家が最も優れているという表現', -0.020891342),
('月に叢雲花に風-良い物事にはとかく邪魔が入りやすいということ', -0.023206087),
('此処一番-マタドールが雄牛を殺す闘牛の瞬間', -0.058929157)
この辺りに来ると慣用句全体がメタファー的に扱われるもののみになります。そして、慣用句に使われている単語と説明文に使われている単語が大きく異なり、知らないと意味が全く分からないというものが多いということが分かります。
おわりに
結果としてBERTでは比喩の度合いのようなものは類似度を調べることにより分かるが、比喩的な慣用句はあまり意味的な学習をされてはいないようでした。例えば「汗水流す-労働に勤しむさま」は類似度が低かったのですが、おそらく頻度的には多い表現であるものの、意外にも「汗水」と「労働」が結びついてないんだなということが分かります。