はじめに
大規模言語モデル(LLM)の開発において、事前学習とファインチューニングは不可欠なプロセスです。これらのステップにより、LLMは新しい知識を効率的に習得し、より高度なタスクに対応できるようになります。
LLMの知識習得の効果を評価する方法の一つは、特定の知識を必要とする問題を解かせてみることです。さらに、LLMが情報をどのように理解しているかは、固有表現認識で明らかにできます。
本記事では、固有表現認識を中心に解説してきます。
固有表現認識(NER)とは
固有表現認識(NER)は、テキスト内の特定の情報(人名、地名、組織名など)である固有表現を自動的に識別し、カテゴリーに分類する技術です。
固有表現は、(1)MUCの定義(2)IREXの定義(3)拡張固有表現階層の定義など様々な定義があります。
以下でそれぞれについて解説していきます。
MUC
まずは最もシンプルなMUCの定義を述べます。MUCは以下の7つのカテゴリーで固有表現を定義されます。
MUCのカテゴリー | 具体例1 | 具体例2 | 具体例3 |
---|---|---|---|
人名 (Person) | 「田中太郎」は日本の学生です。 | 「アンジェリーナ・ジョリー」が新しい映画に出演します。 | 「バラク・オバマ」はアメリカの元大統領です。 |
場所 (Location) | 「東京タワー」は日本のランドマークです。 | 「エベレスト山」は世界で最も高い山です。 | 「セントラルパーク」はニューヨークにあります。 |
組織 (Organization) | 「Google」は技術企業です。 | 「国際連合」は国際機関です。 | 「東京大学」は日本の大学です。 |
日付 (Date) | 「2023年1月1日」に新年が始まります。 | 「7月4日」はアメリカの独立記念日です。 | 「第二次世界大戦」は「1939年9月1日」に始まりました。 |
時間 (Time) | 「午前9時」に会議が始まります。 | 「夜8時半」に映画が始まります。 | 「午後3時15分」に電話会議があります。 |
金額 (Money) | 「500ドル」で新しいスマートフォンを購入しました。 | 「1000円」で昼食を食べました。 | 「2万5千ユーロ」は車の価格です。 |
パーセンテージ (Percentage) | 「50%」の割引が適用されました。 | 「10%」の増税が予定されています。 | 「成績が25%向上」しました。 |
また固有表現認識は、入れ子を考慮するかどうかで手法が異なります。
入れ子を考慮する場合は、「東京タワー」という言葉に対して「東京」「東京タワー」という2つの重複した固有表現を許容します。
以降では入れ子を考慮せずに固有表現認識を行っていきます。
入れ子を考慮する場合の固有表現認識はNested NER、考慮しない場合はFlat NERといいます。
IREX
IREXはMUCに固有物名(ARTIFACT)を加えた8つのカテゴリーで固有表現が定義されます。
固有物名とは人間が作り出した具体物•抽象物であり、「モナ・リザ」「吾輩は猫である」「ロミオとジュリエット」などが固有物名となります。
ただ固有物名は、定義が難しいです。例えば「吾輩は猫である」は固有物名ですが、文脈(ここでは時代といった方がわかりやすいかも)によっては「吾輩」「猫」というように固有表現を定義できます。
固有物名の定義の困難さについては以下の論文で詳述されています。
拡張固有表現階層
MUCやIREXの定義は7,8カテゴリーと数が少なく、詳細な固有表現は定義できていません。例えばMUCやIREXでは先述した「東京タワー」と「エベレスト」では、場所という性質で同一の固有表現で定義されますが、実際にLLMの知識習得の確認をしたい場合は、もっと細かく固有表現を分けて欲しいです。
拡張固有表現階層は、大きく名前、時間表現、数値表現に分かれた固有表現を階層化したものです。
拡張固有表現階層現在も更新されており、2023年12月最新版(バージョン9)は以下になります。
上図より、拡張固有表現階層はMUCやIREXに比べて固有表現の種類が非常に多いことがわかります。先述した「東京タワー」と「エベレスト」についても「施設名」「地名」というように、しっかり分類できることがわかります。
また固有表現の粒度を荒くしたい場合は、ある固有表現の一つ上の階層の固有表現を参照すれば良いので、簡単に調整は可能です。
以上より、LLMが情報をどのように理解しているかは拡張固有表現階層をベースにした固有表現認識が最も有効だと考えられます。
おわりに
本記事では固有表現認識に解説し、LLMが情報をどのように理解しているかの確認では、拡張固有表現階層をベースにした固有表現認識が有効であると述べました。
次回以降、拡張固有表現階層をベースにした固有表現認識を実践ベースで紹介していきます。
(本当はアドベントカレンダーに間に合わせたかったのですが、間に合いませんでした。無念。。。)