5
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

HLE(Humanity’s Last Exam)に挑むための高品質データセット構築ログ(SFT/GRPO)

Last updated at Posted at 2025-10-25

公開リポジトリ:Hugging Face / LLMcompe-Team-Watanabe
https://huggingface.co/LLMcompe-Team-Watanabe/datasets

はじめに

本稿は、Human’s Last Exam(HLE)級の高難度課題に立ち向かうため、Qwen3-32Bの事後学習(SFT/GRPO)用の高品質データセットを収集・整備・公開した記録です。
なお、本稿において紹介するデータセットは、限られたコンペ期間においてキュレーションと前処理を行ったものであり、改善の余地が残っていることはあらかじめご承知おきください。

本記事は、LLMによる原稿を元に、人手により校正して作成しました。


作業したこと

  1. 公開データの収集とライセンスチェック

    • 共通スキーマ:problem / solution / answer
    • 分野横断で候補となるデータを収集し、ライセンスを確認しました。
    • ライセンスは、Hugging Face の記載だけでなく、データ合成やフィルタリングにクローズモデル(ChatGPT、Gemini等)を用いていないか、元論文等を辿ってチェックしました。
    • しかしながら、運営側によるチェックの結果、ライセンス上の問題のあるデータセットが混じっていることが後日判明しました。ライセンスのチェックは、元論文に留まらずさらにその元論文まで遡るなど厳密に行う必要があることを痛感しました。
  2. SFT/GRPO用データセットとしてルールベースで整形

    • SFT整形サンプルLLMcompe-Team-Watanabe/omni_math_rule_preprocess
      → 短答の最終解答を #### の後ろに統一し、思考過程は <think>…</think> に格納するスクリプトにより整形しました。
    • GRPO整形サンプルLLMcompe-Team-Watanabe/grpo_math_dataset
      → ルールベースの正規化スクリプト適用後、その中でさらに高品質なものを人手で抽出しました。
      (反省点)今回は完全一致を正としたため、数学表記ゆれを吸収できずうまく報酬が入りませんでした。
  3. Non-ReasoningデータセットにはCoTを生成・付与 ※本記事では詳細に扱いません

    • Question と Answer を両方 LLM に与えて推論過程を合成
    • 化学/歴史/工学の一部データセットに CoT 付与

※今回は CoTの新規合成は扱いません。対象は 既存データの安全な整形に限定しています。


整形済データセット一覧

タグSFT = 教師あり学習向け、GRPO = 方策最適化向け

Name Domain Tag Size (adopted) License Source Processed (ours) Notes
OpenMathReasoning Math SFT / GRPO 945,090 CC-BY-4.0 https://huggingface.co/datasets/nvidia/OpenMathReasoning …/math_OpenMathReasoning_preprocess_model_filtered テキスト混在あり(要正規化)
AoPS-Instruct Math SFT 283,744 MIT https://huggingface.co/datasets/DeepStudentLlama/AoPS-Instruct …/math_AoPS-Instruct_preprocess_fixed 証明中心
OpenR1-Math-220k Math SFT 220,000 Apache-2.0 https://huggingface.co/datasets/open-r1/OpenR1-Math-220k LLMcompe-Team-Watanabe/OpenR1-Math-fixed 推論トレース付
UGPhysics Physics SFT 11,040 CC-BY-NC-SA-4.0 https://huggingface.co/datasets/UGPhysics/ugphysics …/UGPhysics_preprocess 均質×広範
structured_medical Med SFT 107,033 Apache-2.0 https://huggingface.co/datasets/TachyHealth/structured_medical …/structured_medical_preprocess
medical_cot Med SFT 109,000 Apache-2.0 https://huggingface.co/datasets/blue-blues/medical_cot …/medical_cot_preprocess
ChemData700K Chem SFT 373,928 MIT https://huggingface.co/datasets/AI4Chem/ChemData700K …/ChemData700K_preprocess non-reasoning中心
engineering.stackexchange Eng SFT 5,447 CC-BY-SA-3.0 https://huggingface.co/datasets/bshada/engineering.stackexchange.com …/engineering_stackexchange_qa_preprocess
HiST-LLM History SFT 36,577 CC0-1.0 https://github.com/seshat-db/HiST-LLM …/HiST-LLM
Magpie-Reasoning-V2-CoT Mixed SFT 10,684 CC BY-NC 4.0他(要確認) https://huggingface.co/datasets/Magpie-Align/Magpie-Reasoning-V2-250K-CoT-QwQ …/Magpie-Reasoning-V2-…_preprocess_filtered

得られた学びと課題

  • ライセンスは“疑わしきは使わず”:MIT 等の表記があるデータでも合成依存の疑義が残るものもあります。論文等によりデータ生成工程に遡って厳格に確認しなくてはなりません。
  • SFTにおいては、推論と最終解答の境界を明示して、出力を安定化させました。
  • GRPOにおいては、揺らぎ吸収 → 厳格一致の順に正規化を設計しましたが、それでも報酬がうまく得られませんでした。
    LLM as a Judge を報酬関数に組み込むことを検討

さいごに

本記事は、既存のデータセットを中心に“推論付きSFT/GRPO”のための学習データセットとして収集・加工し、その一部を実際に使用したものです。
作成したデータセットを下記にて公開していますので、ご活用ください。
Hugging Face orghttps://huggingface.co/LLMcompe-Team-Watanabe/datasets

本プロジェクトは、国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)の「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における基盤モデルの開発プロジェクトの一環として行われます。

5
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?