はじめに
こんにちは。論文を読んだ結果の紹介記事です。
今回紹介するのは、「有価証券報告書からの経営者による経営環境と企業業績に関する因果認知の抽出」という論文です。
- タイトル: 有価証券報告書からの経営者による経営環境と企業業績に関する因果認知の抽出
- 出典: 陳 穎, et al.; 人工知能学会第二種研究会資料 2024
- URL: https://www.jstage.jst.go.jp/article/jsaisigtwo/2024/FIN-033/2024_163/_article/-char/ja
概要
本研究の目的は、経営者の認知パターンを定量化するために、有価証券報告書から因果関係を抽出し分類することである。
日本の有価証券報告書から経営者の CCBizEnv(Causal Cognition of Business and Environment)を抽出するために、ファイナンスの専門家によるアノテーションが付けられたデータセットを作成した。この方法は、事前に設定された「手がかり」を用いて因果関係に関する文を抽出し、CC-BizEnv でファインチューニングされた事前学習済み自然言語モデル(Pre-trained LanguageModel; PLM)が、ファイナンスのテキストから「内部要因」「外部要因」「ポジティブな結果」「ネガティブな結果」を分類する。
本研究では、知識レベルが異なる専門家によるアノテーションと、LLM を用いたアノテーションのファインチューニング効果を比較した。その結果、豊富なアノテーション経験と高度な専門知識を持つアノテーターによって作成された教師データで学習済みモデルは、アノテーションの経験がなく、ファイナンスの基礎知識を持つアノテーターやLLM によって作成された教師データで学習済みモデルに比べ、より高い分類精度を示した。また、CC-BizEnv でファインチューニングされた BERT は、他の PLM と比較して、因果関係の認識において優れた性能を示すことが分かった。
特徴
-
データセットCCBizEnvを以下の方法で作成した。
- フィルタリング手法
因果関係の存在を示す「手がかり」表現(四つの因果関係パターン)に該当する文を抽出する。 - アノテーション
初心者2名がアノテーション後、熟練者1名が確認する。- ファイナンスの基礎知識を持っているが、アノテーションの経験がない初心者2名
- 高度な専門知識を持ち、30k 件以上のアノテーション経験がある熟練者1名
- フィルタリング手法
-
文での「内部要因」「外部要因」「ポジティブな結果」「ネガティブな結果」の分類精度の評価
- BERTのファインチューニングの手法とほかの手法(ELECTRA, LSTM, Bi-LSTM-CRF)を比較し、BERTの分類精度のF1スコアが最も良い結果となった。
- 人手で作成したデータセットCCBizEnvと、大規模言語モデル(Claude-3.5-Sonnet, GPT3.5-Turbo, GPT-4o)を比較し、CCBizEnvのF1スコアが最も良い結果となった。
所感
- GPT-4oがClaude-3.5-SonnetやGPT3.5-Turboによるアノテーションのデータセットによるファインチューニングが最も分類精度が悪い結果が意外だった。大規模言語モデルを用いた完全に自動でのアノテーションではなく人手によるチェックを入れるなどが必要と思われる。
想定される適用例
- ファイナンスの分野のテキスト中から、精度の高い経営者の因果認知を抽出する。