こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です!
今日は契約書の更新差分の比較をGPT-3とGoogle Document AIを使ってやってみたいと思います。
概要
異なるバージョンの契約書をPDF解析システムとGPT-3を使って自動的に比較し、リスクなどの検討も自動で出力する仕組みを作る。
Colab
使い方
- Document AIの準備 (作成方法など詳しくは後述)
- Google CloudのDocument AIでプロセッサを作成する
- プロセッサ一覧から作成したプロセッサを選び、予測エンドポイントをコピーする
- json形式のAPIキーファイルをダウンロードしておく
- OpenAI APIキーの準備
- すべてのセルを実行
- 比較したいドキュメントを貼り付ける
- 注意
- 業務で使う場合、OpenAI等のオプトアウトを事前に適用する必要があります
差分比較が自動でできると何が嬉しいのか
契約書では細かい文言の修正等があり、ときには数十箇所におよぶ。重要箇所の見逃しのリスクもあるため、まとめて見ておきたい
やりたいこと
- 2つの契約書における差分を明文化する
- 修正された部分がどのようなリスクを生むか検討する
どのように契約書の差分を取るか検討する
契約書は通常pdfで渡されます。文字埋め込みがあることがほとんどであるため、それを前提として良いでしょう。むずかしそうなのが、同一セクションをどうやって判別するかというところです。手法としては以下が考えられます。
- レイアウト検知系の処理をかけて、かつパラグラフを表す文字列を突合させる
- pdfからテキストを抽出し、テキストからパラグラフ単位に分け、パラグラフ同士の類似性から同一セクションを判定する
今回は簡単のため、前者を利用します。
レイアウト検知ライブラリを選ぶ
LayoutParser
以前論文のレイアウト検知に使ったLayoutParserを使ってみます。
事前学習モデルとしては Publaynet の mask_rcnn_X_101_32x8d_FPN_3x
を使いました。
やはり、科学論文向けの model であるため、検出精度は低めです。
Azure Form Recognizer
以前の記事で使ったAzureのForm Recognizerを使ってみると、文字列はすべて取得されますが、レイアウト検知としては粒度が細かすぎる状態となってしまいました。
Google Document AI
一方、Google の Document AIを用いると期待通りの結果となりました。
今回は差分比較について行いたいので、レイアウト検出はこちらに任せます。
Google Document AI
上記ページから Document AI のプロセッサを作成しておきます。
基本的な使い方はLayerXさんのブログ記事や公式のドキュメントを参考にすると良いです。
実装
契約書を作る
契約書がなければ話が始まらないのですが、実験で使いやすい雛形がないためGPT-3に生成してもらいます。
また、今回は差分の自動検討のため、これに修正を加えたものを用意する。
主な修正点は以下。
- 第1条の業務委託内容に
継続的な保守
を追加 - 第3条の
支払い条件:業務完了後、30日以内に支払う。
という条件を削除 - 第6条(秘密保持)をすべて削除
- 第8条の免責事項の
以下のような事由によって損害が生じた場合でも
という表現を以下のような事由によって損害が生じた場合に限り
に変更
作成した契約書と修正契約書を以下に掲載します。
Document AIでOCRしてパラグラフを分解する
処理等はドキュメントにある通り実装します(詳しい実装を見たい場合はColab参照のこと)。
エンドポイントパーサだけ工夫しました。
from urllib.parse import urlparse
import re
def parse_endpoint(endpoint_url):
result = urlparse(endpoint_url)
path = result.path
parts = re.split(r"/", path)
project_id = parts[3]
location = parts[5]
processor_id = parts[7].split(":")[0]
return location, project_id, processor_id
パラグラフに分ける
これもドキュメント通りではありますが、それぞれのparagraphをテキストにします。
layout_to_textの実装はこちらのドキュメントのままです。
a_paragraph_texts = [layout_to_text(paragraph.layout, a_document.text) for paragraph in a_document.pages[0].paragraphs]
b_paragraph_texts = [layout_to_text(paragraph.layout, b_document.text) for paragraph in b_document.pages[0].paragraphs]
パラグラフを突合させる
上記までで、修正前・修正後それぞれのpdfの各パラグラフの文章が取れているので、
編集距離(特にレーベンシュタイン距離)を使って、対応する条項をペアにし、対応しない条項をそれぞれdelete_paragraph、add_paragraphに入れます。
import Levenshtein
pair_paragraphs = []
delete_paragraphs = []
add_paragraphs = []
for a_paragraph in a_paragraph_texts:
is_match = False
for index, b_paragraph in enumerate(b_paragraph_texts):
lev_ratio = Levenshtein.ratio(a_paragraph, b_paragraph)
# 0.75未満のものは新規追加項とみなす
if lev_ratio > 0.75:
pair_paragraphs.append([a_paragraph, b_paragraph])
b_paragraph_texts.pop(index)
is_match = True
if not is_match:
delete_paragraphs.append(a_paragraph)
add_paragraphs = b_paragraph_texts
GPT-3を使って対応する条項の変更ポイントを見る
以下のような簡単なプロンプトを用意しました。
def prompt_template_change_risk(before, after):
return f"""以下は契約書における変更内容である
## 変更前
{before}
## 変更後
{after}
## タスク
Q: 変更された内容とこの変更による委託先側のリスクについて簡潔に答えよ
A:"""
def prompt_template_append_risk(text):
return f"""以下は契約書における追加内容である
## 追加内容
{text}
## タスク
Q: 追加された内容による委託先側のリスクについて簡潔に答えよ
A:"""
def prompt_template_delete_risk(text):
return f"""以下は契約書における削除内容である
## 削除内容
{text}
## タスク
Q: この内容が削除されたことによる委託先側のリスクについて簡潔に答えよ
A:"""
やっていないこと
- 複数ページ対応などはしていません
後記
- DocumentAIおよびGPT-3を使うと簡単に契約書差分比較ができることがわかってよかった
- いっぽうで、契約書の解釈として怪しい部分もある
- プロンプトエンジニアリングがんばるともっといい感じにできそう
- 上記のような法務AI系だとGVA assistさんやLegalForceさんがあるみたいです。あまり知らない領域だったのですが、メチャクチャ便利になっててビビりました