はじめに
- 本記事はARISE analytics Advent Calendar 2022の5日目です。
- 昨日は@moririnzさんのレガシーエンジニアのためのモダンエンジニアことはじめ
- 明日は@Sho_TakamineさんのApache EChartsを使って簡単グラフ描画
Legal NLPとは
法律をテキストとして捉え、自然言語処理(Natural Language Processing, NLP)の対象とする分野です。
具体的な例として日本では契約文書を対象とした検索等を行うスタートアップ企業が複数存在し、そちらも大変興味深いですが、本記事では特にスイスの裁判例を対象として複数言語の判例分析を行った論文を紹介します。
内容
本記事では Swiss-Judgment-Prediction: A Multilingual Legal Judgment Prediction Benchmark を紹介します。
-
タスク
-
概要
- 多言語裁判例のアノテーション付きデータセット作成、テキスト分類タスク、トークン長の長い文章に対応したベースラインモデル作成を実施
- ケースがより複雑になるにつれ(事実が長くなるにつれ)、パフォーマンスが低下する
- 法律分野はモデル性能と関係がない
- どの州の事件かはモデル性能と関係がない
おわりに
以下の点が興味深かったです。
- スイスの法制度は州ごとに異なるようだが(参考:スイスの法制度の概要)、モデル性能に州ごとの差がない
- 言語が異なる場合でもモデルの性能に差がない
- 法律の分野が異なる場合でもモデルの性能に差がない
以上はモデルが表面的な情報のみで判断しているのではないかという、法律に限らず考えられてきた(cf. Probing Neural Network Comprehension of Natural Language Arguments)ことと同じことが考えられそうです。言語、法律用語、州の制度差に影響を受けないのは面白いと思いました。