東大松尾研 LLM開発プロジェクト2025 Team TruthOwl サブリーダー(戦略)の新谷 正嶺です。先にQiitaで公開した拙稿「DNA入門+AI2Lの考え方:安全側の設計をどう実務に落とす?」の続編として、今回はHumanity’s Last Exam(HLE)の要点を整理し、予選(Phase1)を終えた時点での私たちの学びをまとめます。なお本記事はコンペ参加者個人としての振り返りであり、所属機関・主催者を代表するものではありません。
1. HLEとDNAは別のデータセット(今回のコンテストでは評価で重み付けして併用)
まず強調したいのは、Humanity’s Last Exam(HLE)とDo‑Not‑Answer(DNA)は性格の異なる別個のデータセットだという点です。
HLEは、学術の最前線をカバーする2,500問のマルチモーダル・クローズド形式のベンチマークで、MMLUなど既存ベンチの「飽和」に対する次世代の指標として設計されています(複数選択と短答式、画像含む問題もあり)。公開版と過学習検知用の非公開セットが用意され、現行最先端モデルでも正答率が低く留まることが確認されています。
Hugging Faceでcais/hleとして配布されており、形式や分割も確認できます。
一方のDNAは、LLMが危険・規約違反・非許可の質問に対して適切に拒否(Do‑Not‑Answer)できるかを測る安全性評価のデータセットで、939件の指示群を含むことが明示されています。
今回のコンペ予選(Phase1)では、総合点=HLE 9割+DNA 1割で評価されました。HLEは「難問に正しく答え切る力」、DNAは「危ない・不確実・非許可なら答えない力」を測り、能力と安全性の両輪で順位が決まる――その構図がポイントです。
2. TruthOwlの結果
Phase1は9月に終了しました(12チーム中9チームがここで終了)。私が属したTruthOwlは上位3枠に届かずPhase1は終了ですが、私は予選1位の「oNo.1」に合流し決勝(Phase2)にも挑戦しています。結果の細かい内訳は控えますが、限られた元データ(学習量)でも総合点を上げられた数少ないチームだった点は、読者の皆さんに共有したい事実です。
総合点の「元モデル差」:12チーム平均は–1.9%。TruthOwlは +1.6%と改善し、元モデルより総合点を上げた3チームの中で最大でした(他2チームは+0.2%)。
DNAの正答率:79.02% → 95.95%(+16.9%)。上昇幅は全チーム中1位で、正答率そのものも2位。DNAで「答えるべきでない時は答えない」挙動が大幅に整ったことが、総合の下支えになりました。
元モデルの素性や初期性能の違い(伸びしろ)もあり、Phase1の最終通過までには届きませんでしたが、「安全性(DNA)での改善幅」という明確な強みは示せたと考えています。
3. HLEが何を測っているのか(設計思想の要点)
HLEは「人間の学術的推論の最前線」をクローズドな問で測るための設計です。
- 学術専門家が執筆し、複段階のレビューを経て、検索で即答できない・答えが一意で検証容易な問題で構成。
- 短答と多肢、テキストのみと画像付きをミックス。
- モデルの確信度(Calibration)も同時に評価し、「難問に対してわからないと言えるか」も重視――というのが中核です。
公開された集計では、
- Grok 4 ≈25%
- Gemini 2.5 Pro ≈22%
- Claude 4 Opus ≈11%
- GPT‑4o ≈3%
と、SOTAでも低スコア。HLEが従来ベンチと比べて難度を一段引き上げる狙いどおりに機能していることが示唆されます。
4. 「伸びた理由」についての手控えめな考察
何をどこまで学習したのかは各チーム固有の事情があるので、ここでは推測ではなく事実ベースの観察に留めます。
TruthOwlの元モデルはDNAの初期値(約79%)が比較的低めで、伸びしろがありました。
そのうえで、推論を補強しうる数理・理工系の混合データを出力形式を統一して少量学習(主要語彙分布を乱さない範囲)し、最大出力長を4096トークンにして思考展開(CoT)を許容。技術的理由による締め切り直前の方針転換のため、ラストスパート(48時間前後)の厳しい時間制約下での最終提出という条件の中、特別なテクニックに依存せず、ここまでの改善が出た――というのが事実関係です。
ここから言えるのは、「元モデルの弱点(今回はDNA=拒否挙動)にピンポイントに効く仕様を整える」ことが、短期間でも総合点の底上げにつながりうる、という経験知です。加えて、評価側のプロンプトや出力テンプレートが固定される本コンペ設計では、フォーマット逸脱ゼロの運用が思った以上に効く、という実感もありました。
5. 医療系の教育現場ではどう活かすか
医療・ライフサイエンス領域では、「推論の行間を埋める」AIの使い方が価値になります。私の学内講演(2025/2/19, 中部大学 生命健康科学部 FD・SD研修会)では、臨床検査技師コースの国家試験を例に、生成AIが図表のない短文問題で高精度に正答を出すだけでなく、間違えたときでも、前提の齟齬や読み落としを“指摘”してやると正答にたどり着くケースをデモしました(配布資料は研究室サイトで公開)。
HLEも本質は同じです。「すぐ検索できない」「前提が緻密」「答えは一つ」という条件下で、問題文の制約を丹念に読み下す力が問われます。教育の現場では、
- AIに丸投げで完成品を作らせない(AI2L:AI to Learnの原則)
- 人が最終責任を持つために、推論過程を可視化し、根拠の出所を記録する
- わからないときは“答えない”運用を制度化する(DNAの思想)
――という設計を徹底すると、学習支援の価値は享受しつつ、ブラックボックス依存を成果物から排除できます。これはAI2Lの中核で、私の前稿でも詳しく述べました。
6. これからHLEに取り組む人へのヒント(運用寄りの視点)
HLEは「解ける/解けない」の二値だけでなく、モデルの自己評価(Calibration)も問う点が肝です。無理に言い切らせないプロンプト整形・温度設計・出力テンプレートの運用は、思った以上に総合点を押し上げます。また、評価コード・テンプレートは固定という前提下では、フォーマット遵守と逸脱ゼロを早期からSFTで容赦なく叩き込む――この“当たり前”の徹底が、難問ベンチでは再現性のよい伸びにつながります。HLEの狙いと設計の詳細は公式サイトと論文が最も正確なので、まずはここに合わせるのが近道です。
7. おわりに(現在地)
TruthOwlはDNAで +16.9%という明確な改善を実現し、総合でも +1.6%と平均 -1.9%の逆風下で善戦できました。Phase1後、私はoNo.1に合流し、決勝でも「解けるときは解く/危ういときは答えない」を軸に、HLE×DNAという二つの物差しで前に進みます。HLEは“最後の学術試験”を標榜しますが、それは「クローズドな検証問題に限れば」の話。教育・研究・社会実装は、これからが本番です。
参考資料
-
Humanity’s Last Exam 公式サイト(コンセプト、更新情報、難度比較、モデル成績の概観)。
-
HLE 論文(arXiv: 2,500問、マルチモーダル、レビューと校正評価など設計詳細)。
-
HLE データセット(Hugging Face: cais/hle)。
-
Do‑Not‑Answer(DNA)データセット(EACL 2024、939指示、拒否評価の枠組み)。
プロジェクトのクレジット
本プロジェクトは、国立研究開発法人新エネルギー・産業技術開発機構(NEDO)の
「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における
基盤モデルの開発プロジェクトの一環として行われました。