公開リポジトリ:Hugging Face / LLMcompe-Team-Watanabe
https://huggingface.co/LLMcompe-Team-Watanabe/datasets
はじめに
本稿は、Human’s Last Exam(HLE)級の高難度課題に立ち向かうため、Qwen3-32Bの事後学習(SFT/GRPO)用の高品質データセットを収集・整備・公開した記録です。
なお、本稿において紹介するデータセットは、限られたコンペ期間においてキュレーションと前処理を行ったものであり、改善の余地が残っていることはあらかじめご承知おきください。
本記事は、LLMによる原稿を元に、人手により校正して作成しました。
作業したこと
-
公開データの収集とライセンスチェック
- 共通スキーマ:
problem / solution / answer - 分野横断で候補となるデータを収集し、ライセンスを確認しました。
- ライセンスは、Hugging Face の記載だけでなく、データ合成やフィルタリングにクローズモデル(ChatGPT、Gemini等)を用いていないか、元論文等を辿ってチェックしました。
- しかしながら、運営側によるチェックの結果、ライセンス上の問題のあるデータセットが混じっていることが後日判明しました。ライセンスのチェックは、元論文に留まらずさらにその元論文まで遡るなど厳密に行う必要があることを痛感しました。
- 共通スキーマ:
-
SFT/GRPO用データセットとしてルールベースで整形
-
SFT整形サンプル:
LLMcompe-Team-Watanabe/omni_math_rule_preprocess
→ 短答の最終解答を####の後ろに統一し、思考過程は<think>…</think>に格納するスクリプトにより整形しました。 -
GRPO整形サンプル:
LLMcompe-Team-Watanabe/grpo_math_dataset
→ ルールベースの正規化スクリプト適用後、その中でさらに高品質なものを人手で抽出しました。
(反省点)今回は完全一致を正としたため、数学表記ゆれを吸収できずうまく報酬が入りませんでした。
-
SFT整形サンプル:
-
Non-ReasoningデータセットにはCoTを生成・付与 ※本記事では詳細に扱いません
- Question と Answer を両方 LLM に与えて推論過程を合成
- 化学/歴史/工学の一部データセットに CoT 付与
※今回は CoTの新規合成は扱いません。対象は 既存データの安全な整形に限定しています。
整形済データセット一覧
タグ:
SFT= 教師あり学習向け、GRPO= 方策最適化向け
| Name | Domain | Tag | Size (adopted) | License | Source | Processed (ours) | Notes |
|---|---|---|---|---|---|---|---|
| OpenMathReasoning | Math | SFT / GRPO | 945,090 | CC-BY-4.0 | https://huggingface.co/datasets/nvidia/OpenMathReasoning | …/math_OpenMathReasoning_preprocess_model_filtered | テキスト混在あり(要正規化) |
| AoPS-Instruct | Math | SFT | 283,744 | MIT | https://huggingface.co/datasets/DeepStudentLlama/AoPS-Instruct | …/math_AoPS-Instruct_preprocess_fixed | 証明中心 |
| OpenR1-Math-220k | Math | SFT | 220,000 | Apache-2.0 | https://huggingface.co/datasets/open-r1/OpenR1-Math-220k | LLMcompe-Team-Watanabe/OpenR1-Math-fixed | 推論トレース付 |
| UGPhysics | Physics | SFT | 11,040 | CC-BY-NC-SA-4.0 | https://huggingface.co/datasets/UGPhysics/ugphysics | …/UGPhysics_preprocess | 均質×広範 |
| structured_medical | Med | SFT | 107,033 | Apache-2.0 | https://huggingface.co/datasets/TachyHealth/structured_medical | …/structured_medical_preprocess | |
| medical_cot | Med | SFT | 109,000 | Apache-2.0 | https://huggingface.co/datasets/blue-blues/medical_cot | …/medical_cot_preprocess | |
| ChemData700K | Chem | SFT | 373,928 | MIT | https://huggingface.co/datasets/AI4Chem/ChemData700K | …/ChemData700K_preprocess | non-reasoning中心 |
| engineering.stackexchange | Eng | SFT | 5,447 | CC-BY-SA-3.0 | https://huggingface.co/datasets/bshada/engineering.stackexchange.com | …/engineering_stackexchange_qa_preprocess | |
| HiST-LLM | History | SFT | 36,577 | CC0-1.0 | https://github.com/seshat-db/HiST-LLM | …/HiST-LLM | |
| Magpie-Reasoning-V2-CoT | Mixed | SFT | 10,684 | CC BY-NC 4.0他(要確認) | https://huggingface.co/datasets/Magpie-Align/Magpie-Reasoning-V2-250K-CoT-QwQ | …/Magpie-Reasoning-V2-…_preprocess_filtered |
得られた学びと課題
- ライセンスは“疑わしきは使わず”:MIT 等の表記があるデータでも合成依存の疑義が残るものもあります。論文等によりデータ生成工程に遡って厳格に確認しなくてはなりません。
- SFTにおいては、推論と最終解答の境界を明示して、出力を安定化させました。
- GRPOにおいては、揺らぎ吸収 → 厳格一致の順に正規化を設計しましたが、それでも報酬がうまく得られませんでした。
⇒ LLM as a Judge を報酬関数に組み込むことを検討
さいごに
本記事は、既存のデータセットを中心に“推論付きSFT/GRPO”のための学習データセットとして収集・加工し、その一部を実際に使用したものです。
作成したデータセットを下記にて公開していますので、ご活用ください。
Hugging Face org: https://huggingface.co/LLMcompe-Team-Watanabe/datasets
本プロジェクトは、国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)の「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における基盤モデルの開発プロジェクトの一環として行われます。