はじめに
2025年に開催されている 松尾研LLMコンペ2025 では、「HLE(Humanity Last Exam)」および「DNA(Do Not Answer)」と呼ばれる特殊な評価問題を解く高性能な大規模言語モデル(LLM)の開発が競われています。このコンペティションでは、スコアの 9割がHLE問題によって決定されます。特にHLEの約40%は数学分野の超難問で構成されており、数学の解答率向上が勝敗を大きく左右します。しかし、既存の最先端LLMでもHLE問題の正答率はわずか20%前後 にしか達しません。つまり、HLEにおける数学の攻略こそが、本コンペ最大の壁であり挑戦課題と言えます。
さらに重要なルールとして、HLEの問題そのものを学習に使用することは禁止されています。そのため、参加者は既存の公開データセットを活用しつつ、工夫を凝らしてモデルの数学的推論力を強化する必要があります。
そこで本記事では、HuggingFaceなどで公開されている既存の数学データセットをベースに、合成データを生成してLLM学習に活用する試行について紹介します。合成データは、単に既存問題を再利用するだけでなく、難易度調整や多様性の拡張を通じてモデルにより深い数理的思考を促すことを狙いとしています。
LLM学習用合成データ作成手法の代表例
近年、大規模言語モデルの学習に必要なデータは、人手で用意するのではなく、モデル自身に生成させるアプローチが主流になりつつあります。その代表的な事例としてよく知られているのが Self-Instruct, Evol-Instruct, Magpie です。
合成事例 | 内容 |
---|---|
Self-Instruct | スタンフォード大学によって提案された手法で、わずか数百件の人手によるシード指示を与えるだけで、モデル自身が新しい指示文と解答を次々と生成していくもの。これにより数十万件規模のデータセットが構築され、Alpacaなどのinstruction-followingモデルの基盤となった。ほとんど「白紙」の状態から多様なタスクを人工的に作り出せる点が特徴。 |
Evol-Instruct | WizardLMプロジェクトで採用された手法。既存の質問をベースに条件を加えて複雑化させたり、多段推論を必要とするように改変してより難しいデータを生成する。完全なゼロ生成ではなく、既存の問いを進化させることで、より複雑な推論に強いモデルを育成できる。 |
Magpie | 数学や推論タスクの難問生成に特化した合成データ基盤。GPT-4クラスのモデルを用い、問題・解答・解説を同時に生成した後、論理一貫性や難易度をフィルタリングして高品質データを構築。既存データでは不足している「難問領域」を人工的に補強し、推論力強化に有効とされている。 |
このように、Self-Instruct, Evol-Instruct, Magpieはいずれも「LLM自身に学習データを作らせる」という共通の方向性を持ちながらも、ゼロから作るのか、既存の問題を進化させるのか、あるいは特定領域の難問に特化するのかという違いがあります。これらの流れからもわかるように、LLM学習用データは従来の「人が作る」から「AIが作る」へと大きくシフトしてきていると考えられます。
HLEレベル数学問題への合成データ作成手法の適用可能性
今回のコンペティションでは、特に数学の超難問がHLE問題の大きな割合を占めており、この分野の解答率向上が勝敗を分けると考えられます。そこで、既存の数学データセットをベースにした合成データ作成を検討しました。具体的には、問題の簡易化 と 難化 という二つの方向性があります。
まず、問題を簡易化する手法 についてです。通常数学データセットには解法を示す「Thinkタグ」が含まれています。このThinkタグを活用し、以下のようにヒントの段階を3段階に分けました。
- 解法ステップをフルに記述したThinkタグ
- 重要度の高いヒントを半分程度だけ残したThinkタグ
- 最重要のヒントのみを残したThinkタグ
このように段階的に情報量を減らしたThinkタグを生成し、学習時に (1) → (2) → (3) と少しずつ割合を増やすようにして学習させることで、モデルが徐々に自力で推論を行えるように促し、汎化性能の向上につなげることが可能と考えます。
一方、問題を難化する手法 についても検討しました。LLMは
• 問題をゼロから論理的に整合性を持って構成すること
• 創造的なひねりや非典型的な条件付け
• 幾何図形を含む空間的なセンス
といった要素が苦手であることが知られています。そこで既存データセットを基盤としつつ、解法ステップを増やして問題をややこしくする 方向性を考えました。
具体的には、既存の数学問題を「解析」「代数」などの分野に分類し、それらを掛け合わせる形で問題を拡張します。例えば、解析の問題に代数的要素を追加する、確率の問題に幾何的要素を加える、といった具合です。この場合、最終的な答えは元の問題と変えずに、解法過程を複雑化させることでモデルにより高度な推論を要求する問題を生成することを目指しました。ただし、この難化手法には課題があります。新しく生成した「ややこしい問題」が本当に元と同じ答えを導くのか、解法の整合性が保たれているのかを検証する必要があります。この点についての取り組みと結果については、次節で詳しく説明します。
数学問題の難化の試行結果
難化の方向性について、具体的な試行を行いました。使用した既存データセットは、AIME (American Invitational Mathematics Examination) の1983年から2024年までの問題です。まず、これらの問題を以下の11分野に分類しました。それらは、「解析」「確率」「幾何」「集合」「数列」「組合せ」「代数」「複素数」「離散数学」「数論」「三角関数」です。
各分野からおおよそ10問程度を抽出し、分野ごとの総当たりで掛け合わせを行いました。たとえば「解析 × 確率」の場合、解析問題に確率的要素を付加することで解法ステップを増やし、最終的な解答は変えずに問題の複雑さを高めるようにしました。この掛け合わせ処理の結果、1189問の難化合成問題が生成されました。その後、整合性の検証を実施し、問題文と解答に矛盾がないかを確認したところ、1047問が正常と判定されました。
さらに、この中から最初の200問を抽出してLLMに解かせたところ、正解数は31問という結果になりました。難化した問題は元よりも解法ステップが増えているため、既存のLLMにとっては大きな挑戦であることが確認されました。以下に作成された難化問題の例を示します。
【難化問題例】
(確率)x(複素数)の例
<元の問題>
円卓に25人の騎士が座っています。この中から3人を選びます。このとき、選ばれた3人のうち少なくとも2人が隣り合っている確率 ( P ) を求めます。そして、( P ) を既約分数で表したとき、その分子と分母の和を求めます。
<難化問題>
方程式 (|z| = 1) で定義されるアルガン平面上の円を考えます。ここで、(z) は、複素数 (z_k = e^{2\pi i k / 25}) ((k=0,1,\ldots,24) で示される (25) 乗根の位置にあるナイトを表します。3 人のナイトをランダムに選択し、少なくとも 2 人が隣接するように除去します。これらの選ばれたナイト (複素数) が、任意のペアの偏角の和が残りのナイトの偏角の和と等しくない円弧を形成する確率 (P) を求めます。(P) を最も単純な形で分数で表すと、分子と分母の和はいくらになりますか。
<解答>
57
<難化の度合い>
元の問題(円卓に25人の騎士 → 隣接確率を求める)は、組合せを扱う典型的な「円環配置+隣接条件」の問題で、解法ステップはシンプルです。難化版(複素数を導入したもの)では、同じ本質的な組合せ問題を「25乗根」「アルガン平面」「偏角の和」といった複素数的な背景に置き換えています。このために:
• 問題の理解フェーズで「複素数の表現 → 実は円卓の座席番号」と対応付けるステップが増える
• 数え上げに入るまでのハードルが高くなる
つまり解答に必要な本質的計算量は同じですが、
• 問題の定義を複素数の言葉に読み替える
• 一見、複素数の和や弧の条件に見えるが、実は隣接条件に帰着することを見抜く
等の必要性が追加されている分、解法ステップは確実に増え、難易度は上がっています。
なお、これらの合成データ作成・検証、また生成された問題の解答はすべて ChatGPT-4o を用いて実施しています。ただし、今回のLLMコンペティションでは、OpenAI社製のモデルはクローズドモデルのため利用は認められていません。その代わりに、コンペ事務局が提示している ホワイトモデルリスト に記載されたモデルのみが利用可能です。今回の予選段階では十分な計算リソースを確保できず、このホワイトモデルリストにあるモデルを使った大規模な実験は実施できませんでしたが、試行としての成果と課題を把握することができました。実際に用いた合成データ作成のプロンプト等が記載されたPythonプログラム等はリンクのgithubに掲載しています。
さいごに
我々のチームが採用したモデルは、ホワイトモデルリストに含まれる Qwen3-235B-A22B です。このクラスのモデルは、既存の公開データセットをすでに十分に学習している可能性が高いと考えられます。
事務局による予選結果の考察でも示されているように、どのチームも事後学習を行うと HLEの点数が一様に低下する傾向がありました。その理由として、比較的容易な問題でファインチューニングを行うと、逆に難易度の高い問題を解く能力が損なわれるのではないか、という指摘がなされています。このことは、既存の数学データセットが実社会で実績のある有用なリソースである一方で、HLEレベルの超難問を攻略するための学習データとしては難易度が不足していることを意味しています。
したがって、既存データセットとHLEクラスの問題との間に存在する「難易度のギャップ」を埋めることが、今後の最大の課題です。本記事で試みたような合成データの生成手法は、そのギャップを補完する有力なアプローチになり得ると考えています。今後は、整合性の高い難化問題の生成や、段階的ヒントの活用といった工夫を取り入れ、HLEレベルの数学問題に対抗できるデータセット作りをさらに進めていく必要があります。
リンク
AIME_1983_2024
https://huggingface.co/datasets/di-zhang-fdu/AIME_1983_2024
Self-Instruct
https://qiita.com/drafts/a9bbf0848286cb9ae0c3/edit
Evol-Instruct
https://arxiv.org/abs/2406.00770
Magpie paper
https://arxiv.org/pdf/2406.08464
aratako
https://zenn.dev/aratako_lm/articles/a5ae43fb2bfbb3
難化数学問題作成のプログラム及びデータ
https://github.com/Atsushi-Mori-Mori/LLM-compe-2025
本プロジェクトは、国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)の「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における基盤モデルの開発プロジェクトの一環として行われます。