【人工知能学会全国大会2024参加報告】大規模言語モデルの最新研究：予測モデル生成から効率的評価、蒸留モデルの活用まで

Last updated at 2024-06-14Posted at 2024-06-14

こんにちは、皆さん。プロダクト開発本部の浅岡です。

先日、2024年度の人工知能学会全国大会(JSAI 2024)に参加してきましたので、最先端の人工知能研究についてお届けします。
会期は5月28日から31日、今年はアクトシティ浜松(静岡県浜松市)とオンラインのハイブリッド形式で開催されました。私は会場に足を運びましたが、想定よりも広い会場で迷子になることもありました。各セッションでは、研究者が熱心に自らの成果を発表し、「ここまでできるようになったんだぞ」という思いが伝わってきました。
また、個人の時間では、浜松の名物である餃子やお櫃うなぎ茶漬けを味わうことができ、人工知能の学びと美味しい食事を楽しむ有意義な4日間を過ごしました。

さて、今回は特に大規模言語モデルがデータをどのように把握しているのかを構造的にアウトプットするための方法や学習に必要なデータが足りていない時のアプローチ、持続的に精度を保つためのアプローチなど、今後の人工知能を利用したシステム運用には必要不可欠なテーマについて、特に興味深かった研究を3つ紹介したいと思います。

田中冬馬、江本直史、弓林司 - 大規模言語モデルの論理構造の把握能力と予測モデルの生成

近年、OpenAIが発表したChatGPTを皮切りに、大規模言語モデル（LLM）の研究が人工知能研究の中で注目を集めています。LLMは、大量のテキストデータを用いて訓練され、多岐にわたる自然言語処理タスクにおいて高い性能を発揮しています。著者らは、その中でもLLMが持つ「論理構造把握能力（AULS）」に着目し、その一連の研究は、LLMの持つIn-Context Learning（ICL）能力に触発されています。ICLとは、ラベル付きデータセットを用いて未知のデータに対するラベルを推論する能力のことです。

これまでの研究では、TransformerがICLの能力を学習によって獲得することが示され、LLMを用いたコード生成も盛んに行われてきました。しかし、これらは主にタスク実行のためのコード生成に焦点を当てており、データのみから予測モデルを生成するという観点が十分に検討されていませんでした。また、ICLは確率揺らぎの影響を受けやすく出力が安定しないため、LLMがデータ構造を理解しているかどうかを検証することが難しいです。

そこで本研究では、LLMのAULSを検証するために新しい手法として、従来のICLに代わる「帰納バイアス学習（Inductive-Bias Learning: IBL）」を提案しました。LLMが持つAULSを評価し、その能力を定量化することで、LLMがデータの論理構造をどの程度把握し、それに基づいて予測モデルを生成できるかを明らかにすることを目的としています。IBLは、LLMがラベル付きデータセットを受け取り、そのデータ構造を表現するコードを生成する能力を指します。ICLと異なり、IBLではデータセットに基づく推論のためのコード（Code Model）を生成することで、LLMがデータを“どのように考えたか”を構造的に確認することができます。

具体的な手順については、まずデータから予測モデルを生成するためのプロンプトテンプレートを設計し、各LLMに同一のプロンプトを与えます。このプロンプトには、説明変数からラベルを予測するためのコードを生成する具体的な指示が含まれます。次に、scikit-learnの擬似データ生成メソッドを用いて、二値分類タスク用のデータセットを4種類作成し、これらのデータセットを用いて各LLMの性能をAUC（Area Under the Curve）で評価します。評価は異なるデータ量で実施し、平均AUCとそのばらつきを算出することで、LLMの性能と安定性を定量的に評価します。

検証には、scikit-learnのメソッドを使用して二値分類タスク用のデータセットを4種類作成し、各データセットについて異なるデータ量（300から500）で評価を実施しました。次に、OpenAIのGPT-4-Turbo、GPT-3.5-Turbo、GoogleのGemini Proを使用し、プロンプトに基づいて予測モデルを生成しました。再現性を確保するために、OpenAIのモデルにはseed値を固定しました。その後、生成されたモデルの性能をAUCで評価し、平均AUCとその標準偏差を算出しました。結果として、GPT-4-Turboが最も高い性能を示し、平均AUCは0.949、標準偏差は0.026でした。次にGPT-3.5-Turboが平均AUC 0.903、標準偏差 0.030で続き、GoogleのGemini Proは平均AUC 0.852、標準偏差 0.009と安定した性能を示しました。データセットごとの比較では、GPT-4-Turboが最高のAUCを示しましたが、ばらつきが大きかったです。一方で、Gemini Proは安定した性能を発揮しました。LLMが生成した予測モデルと従来の機械学習モデルを比較したところ、従来のモデルは非常に高いAUCを示し、LLMが生成したモデルも高精度ですが、わずかに劣る結果となりました。

これらの結果から、LLMは高精度な予測モデルを生成する能力を持つが、出力の安定性に課題があることが確認されました。特に、GPT-4-Turboは高性能ながらばらつきが大きく、Gemini Proは安定性が高いことが分かりました。本研究を通じて、LLMがデータの論理構造を把握し、高精度な予測モデルを生成できることが確認されましたが、OpenAIのモデルは高い性能を示す一方でばらつきが大きいことが課題として残りました。GoogleのGemini Proは安定した性能を示し、出力の安定性が高いことが分かりました。将来的には、LLMの性能向上により、IBLが従来の機械学習モデルを超える可能性が示唆されました。

人工知能分野では、機械学習や深層学習で作成されたモデルの思考プロセスが不透明である（いわゆる「ブラックボックス」問題）が大きな課題の一つとして知られています。従来の方法では、データ予測を大規模言語モデルに任せていましたが、この研究では、データを予測するためのプログラムを生成させることで、データ予測のプロセスを明確にしようとしています。このアプローチにより、予測の理由を確認できるようになっただけでなく、予測精度も従来の手法に近い結果でした。この研究は、予測結果の透明性を確保する上で非常に有効であると感じました。今後の人工知能の発展において、透明性の確保はますます重要になると考えられるため、その一歩を進める研究として良いものでした。

ZHU HANHUA - ChatGPTを用いたデータ拡張手法によるデータ不足時の大規模言語モデルの効率的評価

自然言語処理（NLP）の分野では、大規模言語モデル（LLM）の急速な発展が見られています。これらのモデルはテキスト生成、質問応答、機械翻訳など多様なタスクで人間に近い性能を示しています。しかし、生成される複雑な文章の評価は難しく、数値を出力するタスクとは異なり、効率的な評価方法が確立されていないことが問題となっています。特に、評価方法が確立されていないため、LLMの最適化は困難であり、既存の評価方法はコスト効率が高いものの、データ不足の状況では精度に欠けるという課題があります。

これまでの研究では、人間による評価が最も効果的とされてきましたが、ChatGPTのような強力なLLMの登場により、LLMを評価に利用する動きが見られるようになりました。例えば、ChatGPTやGPT-4は多言語で自然かつ一貫性のあるテキストを生成する能力を持っており、これを利用してデータ拡張を行う方法が提案されていますが、実行時間とコストの問題が無視されがちです。また、既存の方法には、OpenAIのサーバーへの接続が必要で実行時間とコストが増大すること、十分なデータ収集が困難で評価の精度に影響を与えること、そしてBLEUのような評価指標が文字通りの違いしか考慮せず信頼性に欠けるといった問題があります。

本研究では、データが不足している環境でもLLMを効率的に評価する方法を提案しました。ChatGPTを用いたデータ拡張手法により限られたデータから十分なデータを生成し、そのデータを用いてLLMを評価するモデルを微調整することを目指します。この方法により、評価の精度を向上させ、実行時間とコストを削減することが期待されます。提案手法では、生成とリライトの2つの戦略を組み合わせてデータ拡張を行います。まず、参照文書から質問と回答のペアを生成し、ChatGPTによって評価された正しいデータのみをトレーニングに使用します。さらに、同じ文脈で異なる回答を生成するためにリライトプロセスを適用し、汎用的な評価モデルのトレーニングを行います。

評価の検証には、日本語の質問応答タスクを用います。実験では、文書のみが利用可能な状況でも、提案手法によって生成された質問と回答を用いてトレーニングされたLLMが、ChatGPT3.5を上回り、ChatGPT4の評価性能の92%をわずか8%の実行時間で達成することが示されました。これにより、データが不足している状況でも高い評価精度が得られることが確認されました。研究全体を通して、ChatGPTを用いたデータ拡張手法がデータ不足の状況でのLLMの評価において有効であることが示されました。この手法により、実行時間とコストを削減しつつ高い評価精度を達成することができました。今後の研究では、他のタスクへの適用やさらなるデータ拡張戦略の改善が期待されます。
モデルを作成する際に直面する最大の課題の一つは、学習に用いるデータの不足です。私自身もデータが足りずにプロジェクトを断念した経験があるため、この問題には強く共感しています。そのため、この研究のタイトルを見たときには非常に興味を惹かれました。この研究では、大規模言語モデル（LLM）を用いて不足しているデータを生成し、その中から品質の良いデータのみを選んで学習に使用するというアプローチが取られています。LLMをこのような形で活用する方法は面白く、その可能性に非常に興味が湧きました。データ不足の問題に対して、この研究は非常に有望な解決策を示しており、今後の応用が期待されます。新しい技術や方法論がどのように実践されるか、引き続き注目していきたいと思います。

河野慎、河村和紀 - 知識蒸留した代理モデルの対照学習によるモデル性能評価

現実世界で運用される機械学習システムは、運用時のデータ分布の変化に伴う分布シフトによって性能が低下することがあります。この性能低下を検出し、適切な対策を講じるためには、運用データのラベル付けを継続的に行う必要がありますが、これは非常に高コストであり現実的ではありません。そのため、ラベルのないテストデータに対してモデルの性能を別の指標で評価する研究が注目を集めています。

本研究では、システム運用時の利用を想定したAutoEvalに焦点を当てます。AutoEvalはデータ拡張を用いて大量のデータセットを合成し、メタセットを基にモデルの精度を推定しますが、メタセットの質に依存し、少量のメタセットを作成して事前検証を行う必要があり、運用上好ましくないという問題があります。他方で、AutoEvalの枠組みを応用した手法としてCAMEが提案されています。CAMEは対照精度と識別精度の相関を利用してメタセットの質に依存せずラベルなしデータでのモデル評価を可能にしますが、標的モデルの学習時にマルチタスク学習を必要とするため、既に学習済みのモデルや重みしか公開されていないモデルには適用できないという制約があり、依然として実用的とは言えません。

そこで本研究では、蒸留した代理モデルの対照学習によるモデル推定CoLDS（Contrastive Learning of Distilled Surrogate）を提案しました。CoLDSは、評価対象のモデルを知識蒸留を通じて代理モデルに変換し、その代理モデルに対して逆向き訓練を行うことでラベルなしデータ上での性能を推定します。この手法は、以下の手順を踏みます。

知識蒸留：評価対象モデルから代理モデルへの知識蒸留を行います。これにより、代理モデルは評価対象モデルの特性を引き継ぎます。
対照学習：代理モデルに対して対照学習を適用し、性能評価のためのメトリクスを取得します。
性能推定：得られたメトリクスを使用して、ラベルのないデータ上でのモデルの精度を推定します。

以上の手順により、事前訓練されたモデルを含む広範なモデルに対して適用可能な性能評価が可能となります。

提案手法CoLDSの有効性を検証するため、CIFAR-10データセットを使用し、DenseNet-161、DenseNet-121、ResNet-18などの異なるモデルを対象に実験を行いました。実験結果から、CoLDSは既存の手法と比較して優れた性能を示しました。特にDenseNet-161モデルに対する実験では、提案手法が他の手法よりも高い精度でテストデータ上の性能を推定できることが確認されました。また、他のモデルに対しても一貫した結果が得られました。

これらの実験結果から、提案手法CoLDSはラベルなしデータ上でのモデル性能推定において非常に有望であることが示されました。特に、事前訓練されたモデルに対する適用可能性が高く、広範な実運用環境での適応性が確認されました。今後の研究では、さらに多様なデータセットやモデルに対する検証を進め、提案手法の汎用性と実用性を高めることが重要であると考えられます。

本研究は、分布シフトによって性能が低下する問題に対し、ラベルなしデータでモデルの性能を評価するための方法として、対照学習を用いた知識蒸留の手法を採用した点が興味深いです。従来の手法では、メタセットの質に依存したり、マルチタスク学習が必要だったりと実用的な制約がありましたが、CoLDSはこれらの制約を克服する可能性を示しています。特に、知識蒸留を通じて代理モデルを生成し、そのモデルを対照学習することで、ラベルなしデータ上での性能を推定できる点は、広範な実運用環境での適応性が高く非常に有望であると感じました。

おわりに

これからの社会では、大規模言語モデルや生成AIはシステムの基盤として必要不可欠なものになってくると思います。私は、大学で人工知能を専攻してきましたが、大規模言語モデルはあまり扱ってなかったので、今回の大会に参加したことは非常に意義深いものでした。それと同時に、自分の知識の未熟さを痛感しました。自分の知識を過信していたわけではないですが、人工知能の領域は私が想像していた以上に広く、深いことを改めて実感しました。また、聴講参加を通して、自分がまだ知らない世界の最先端で活躍している上司に対する尊敬の念と、この分野に挑戦する未来に高揚感を抱きました。

最後に、JSAI 2024に関わったすべての方々に感謝申し上げます。この貴重な経験をありがとうございました。

お知らせ

お知らせですが、弊社が主催するイベント「db tech showcase 2024」が7月11日から12日にかけて開催されます。このイベントでは、人工知能以外の技術にも焦点を当てた内容をご用意しています。参加費は無料ですので、ぜひお気軽にご参加ください。皆様のご来場を心よりお待ちしております。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Why not login to Qiita and try out its useful features?