More than 1 year has passed since last update.

弥生Advent Calendar 2023

EMNLP2023の論文からChatGPTが世界に与えた影響を分析してみる

Last updated at 2023-12-19Posted at 2023-12-16

はじめに

この記事は弥生 Advent Calendar 2023の17日目の記事です。

こんにちは、最近弥生株式会社にジョインしたsiida36です。弥生ではR&D室の創設に参画し、ビッグデータを活用してお客様に届けられる価値を創造するポジションに就いております。その一環として技術調査にも携わっており、特にNLP（自然言語処理分野）を中心としてstate-of-the-artな技術の動向調査をしています。

そこで本日は、先日開催されたEMNLP2023というカンファレンスの論文を調査した結果をご紹介したいと思います。EMNLPはNLPにおけるトップカンファレンスの一つであり、採択論文からその年一年間のNLPの動向をざっくりと知ることができるため、ChatGPTがNLPにどのような影響を与えたのかを分析していきたいと思います。

論文のタイトルから流行のトピックを分析

まずは簡単に論文のタイトルを対象にして、出現した単語の頻度の差分から調べてみます。対象とするデータは次の論文のタイトルです。

EMNLP2023の本会議に投稿された論文: 1,048件
EMNLP2022の本会議に投稿された論文: 829件

また頻度を取る単語は名詞または動詞のみを対象とし、さらに大文字を小文字に揃えた上で動詞は基本形に修正します。

前年から増えた単語

前年から減った単語

考察

集計結果からは次の事実がわかります。

言語モデル（Large Language Model, LLM）の増加が著しい
- 他にも頻度上位にはEvaluation, ChatGPT, HallucinationなどLLM関連の単語が並ぶ
一方で従来の応用タスクは人気が減少する傾向にある
- Question Answering, Summarization, Translationなど
- また関連する単語としてAttentionやPre-training/trainedなども並ぶ

以上のことから推測するに、これまで取り組まれていた応用タスクはChatGPTの登場による煽りを受け、研究テーマとして選択されにくかった、または採択されにくかったと考えられます。この流れが一過性のトレンドに過ぎないのか、あるいは今後も継続するのかはまた別として、この１年におけるGPTが与えた影響の大きさを物語っていると考えられます。

個人的にもGPTに乗っかる方向で研究テーマを選択するという決定には納得感があります。一方でKnowledge GraphなどはLLMとの組み合わせで論文が増えるのかと思ったのですが、逆に減った単語として上位にランクインしていた点が興味深いです。

アブストからLLMに関するトピックの分析

さて、タイトルの単語頻度の推移による分析では、LLMに関する採択論文が大きく増えていることが示されました。それではLLMのどのような話題がホットなトピックであるのか、深掘りしていきたいと思います。

深掘りにあたっては、タイトルに次の文字列を含む論文のアブストをデータソースとして活用しました。大文字小文字は区別せず、複数形も含めます。

Large Language Model
LLM

アブストに出現する単語の頻度を単純に集計

LLMやlanguageやmodelに、methodやperformanceやapproachが多い、、

ふむふむ。なるほど！

もちろんこれでは情報量に乏しく、何とも言えません。LLMに関するトピックがあまり読み取れず、LLM以外の論文でも同じような集計結果となりそうです。

全論文で頻出の単語をフィルタリング

そこで、EMNLP2023本会議採択論文1,048件すべてのアブストからも単語頻度を集計し、全論文で頻出の単語を割り出して除外することにします。まずは全論文から算出した頻出単語を出してみましょう。

全論文のアブストから集計した単語頻度を見ると、NLPの論文では非常によく見かけるような単語が上位にランクインする結果となりました。これらの単語は今回LLM論文のトピックを分析する上ではノイズになるので、フィルタリングしてしまいます。

それでは全論文の頻度上位の単語を何単語か除外した上で、あらためてLLM関連の論文のアブストから単語頻度を集計して上位の単語を見てみましょう。除外する単語の閾値は、決め打ちで50単語、100単語、200単語として結果を見比べてみます。

50単語フィルタ

100単語フィルタ

200単語フィルタ

上位200単語あたりまでフィルタしていくと、いい感じにLLMの論文らしい単語が炙り出されてきたようです。まだ閾値を決める余地は残されていそうですが、一旦はこのデータから価値のある分析を出すことができそうなので進めていきます。

それでは上記のグラフで見える化した、２００単語フィルタ後の頻度上位２０件の単語について、何件かピックアップして見てみましょう。

Quantization
- ここでは主に8bitの浮動小数点でLLMの計算を行うこと
- 元々32bitで計算するところを16bitにすることで高速化することが知られていたが、さらに８bitにまで精度を落とす試みが流行る
- LLMの高速化において重要となる
Hallucination
- LLMが正しくない結果を生成することで、いかに抑制するかが焦点となる
- 次の二種類に分けられる
  - intrinsic hallucination: 客観的事実や過去の発言と明らかに矛盾した発言をするもの
  - extrinsic hallucination: 「神の存在」のような正しさを立証できないことをあたかも真実だというもの
CoT
- Chain-of-Thoughtのこと
- 複雑なタスクを解決する過程の思考の重なりを表す
- ChatGPTを用いたプロンプトエンジニアリングの性能向上に役立つ

ChatGPTで話題となったHallucinationやChain-of-Thoughtが頻度の上位に出てきた点は私も予想していましたが、それらに増してQuantizationが使用されていることが興味深いです。今回の集計方法ではアブスト内の使用頻度のみを見ているため差し引いて考える必要はありますが、LLMにおけるQuantizationがこれほどまでに注目を浴びている点が興味深いです。

EMNLP2023論文読み

ここまでの分析で、EMNLP2023の主要なトピックがLLMであり、さらにQuantizationやHallucinationが注目されていることが定量的に示されました。

それでは、この分析で取り上げたトピックを含む論文を何本か読んでみることで、実際にそうしたトピックがどのような背景で書かれたのかを感じ取り、この一年間におけるNLPの情勢を深掘りしていきたいと思います。

トピック： Quantization

三本の論文を紹介します。LLMの高速化だけではなく、重みの保護という観点でもQuantizationを行う手法が提案されていました。Quantizationというテーマで、このように多様な社会課題に取り組めるのものだと感心します。

EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs

著者
- Hanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang
課題
- 従来のQuantizationでは訓練データの一部のサンプルを使用することで、未知のケースやタスクへの一般化に影響を与える可能性があった
アプローチ
- 外れ値をあえて保持することでQuantizationによる情報の損失を抑える
結果
- 元のモデルと比較して同等の性能のQuantizedモデルを得られた

Zero-shot Sharpness-Aware Quantization for Pre-trained Language Models

著者
- Miaoxi Zhu, Qihuang Zhong, Li Shen, Liang Ding, Juhua Liu, Bo Du, Dacheng Tao
課題
- LLMのQuantizationにおいては訓練データを活用する手法がよく用いられるが、訓練データにアクセスできない場合の対応が必要となる
アプローチ
- 敵対的生成学習によりZero-shotかつQuantizedなLLMを作成する
結果
- ベースラインと比べ最大+6.98の平均GLUEスコア増加を実現した

Watermarking LLMs with Weight Quantization

※本会議ではなくfindingsの論文ですが、発想が面白かったため紹介します。

著者
- Linyang Li, Botian Jiang, Pengyu Wang, Ke Ren, Hang Yan, Xipeng Qiu
課題
- オープンソースLLMのライセンスに違反する悪意ある使用を防ぐために、モデルの重みを保護する必要がある
アプローチ
- FP32でのみ機能し、Quantizedされた場合には隠される電子透かしを導入する
結果
- GPT-NeoやLLaMAなどのオープンソースLLMに電子透かしを入れることに成功した

トピック: Hallucination

こちらも三本の論文を紹介します。Hallucinationは概念が提唱されてからあまり年月が経っていないこともあり、直接的に抑制する方法だけではなく評価する方法や検出する方法から色々と検討されているイメージを受けました。評価のベースラインが固まってくることで、今後抑制に向けた検出がより盛んになるものかと思われます。

HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

著者
- Junyi Li, Xiaoxue Cheng, Xin Zhao, Jian-Yun Nie, Ji-Rong Wen
課題
- LLMがどのような内容で、どの程度の頻度でHallucinationを引き起こすかを理解する必要がある
アプローチ
- 人手によるアノテーションのついたHallucination評価用データセットを作成する
結果
- 30,000件のHallucinatedなサンプルを含むデータセットHaluEvalを公開した

Hallucination Mitigation in Natural Language Generation from Large-Scale Open-Domain Knowledge Graphs

著者
- Potsawee Manakul, Adian Liusie, Mark Gales
課題
- Hallucination対策の一環としてKnowledge Graphを用いたアプローチが研究されているが、既存の研究ではグラフの形状が限られていた
アプローチ
- 多様な形状のグラフ構造を持つデータセットを作成する
- さらに構文解析の結果、対応するグラフに該当しない箇所をトリミングする手法を提案した
結果
- データセットGraphNarrativeを公開した
- またトリミングによってHallucinationを抑制できることを確認した

Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus

著者
- Tianhang Zhang, Lin Qiu, Qipeng Guo, Cheng Deng, Yue Zhang, Zheng Zhang, Chenghu Zhou, Xinbing Wang, Luoyi Fu
課題
- Hallucinationの検出には外部知識の参照や一貫性の検証といったアプローチが取られてきたが、効率の悪さが課題となっている
アプローチ
- 情報量の大きいキーワードに焦点を当ててHallucinationを検出する方法を提案する
結果
- 外部のデータを参照することなくベースラインの精度を上回ることに成功した

トピック： CoT (Chain-of-Thought)

最後にCoTを取り上げます。こちらも三本の論文を紹介します。CoTの論文ではマルチホップQAの研究と関連した話題になることが多いですね。またHallucination同様に新しい概念なので、評価方法に関してもまだまだ固まり切ってはいないという印象を受けました。

Dialogue Chain-of-Thought Distillation for Commonsense-aware Conversational Agents

著者
- Hyungjoo Chae, Yongho Song, Kai Ong, Taeyoon Kwon, Minjin Kim, Youngjae Yu, Dongha Lee, Dongyeop Kang, Jinyoung Yeo
課題
- 対話において、一般常識のような暗黙の情報を含みつつ一貫性のある応答を生成し続けることは難しい
アプローチ
- 有用な根拠を選択的に蒸留するためのアライメントフィルタを活用する蒸留フレームワークを提案する
- 応答生成のため、信頼性のあるChain-of-Thoughtの根拠を提供する
結果
- 一貫性と情報量を両立させた応答を生成することを可能とした

The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning

著者
- Seungone Kim, Se Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye, Jamin Shin, Minjoon Seo
課題
- LLMと比較して100Bパラメータ未満の言語モデルは、未知のタスクを解決する際にChain-of-Thoughtによる推論において性能が劣化する
アプローチ
- CoT Collectionと呼ばれるチューニング用データセットを導入する
結果
- 4つのドメイン固有タスクにおいてベースラインを上回るfew-shot学習能力を示した

ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness

著者
- Archiki Prasad, Swarnadeep Saha, Xiang Zhou, Mohit Bansal
課題
- Chain-of-Thoughtから得られる結果には注目が集まっているものの、CoTそのものに対する理解や評価は進んでいない
アプローチ
- Chainの正確さと情報量を評価する指標ReCEvalを提案する
結果
- ReCEvalにより高評価を得たChainを用いることで下流タスクでの性能を改善した

まとめ

ChatGPTが公開されてから、LLMという言葉もすっかりバズワードとなった印象を受けますが、その世相を反映するかのようにEMNLP2023ではLLMに関する論文の採択数が大きく増加することとなりました。一方でMachine　Translationのような一部の応用タスクの採択数は数を減らし、研究者の目線の向き先を感じ取ることができました。

そしてLLMの大きな課題であるQuantizationやHallucinationがホットなトピックとして注目を集めていることが数値で示されました。ただし実際に論文を読んでみると、評価指標やデータセットに関する議論も多く、それらの新たな概念はまだまだ手探りなところもあるのだなと思いました。

しかし今回分析した論文は６月に投稿されたものなので、この記事を執筆している１２月時点では各分野の研究が急速にアップデートされていることには注意が必要です。秋ごろに見かけた情報を見る限りは、Hallucinationなどはより研究が進んでいるようなイメージがあります。

こうしてみるとEMNLP2023の論文を分析したことで、ChatGPTの与えた影響の大きさを伺い知ることができたものの、EMNLPでさえその一端しか掴めていないように思います。あまりに影響力が大きく、触発されたビッグテックや研究者の研究速度が早すぎるので、採択論文の公開を待つよりもプレプリントサーバーを使っていかないと技術の動向を追いきれないと感じています。

さて弥生では一緒に働く仲間を募集しています。特に私の所属しているR&D室では、新たな価値を創造するために技術調査から企画、PoC、MVP作成に至るまで幅広い業務を担当しており、最先端の技術を用いて事業会社の意思決定に関わる貴重な機会が得られます。弥生で働くことに興味がありましたら、求人一覧をぜひご覧ください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up