はじめに
松尾研LLM開発コンペ2025に参加した @bonsai2 です。
チームTruth Owlでの取り組みに関して、執筆します。
私からは、Hugging Face上に存在するデータセットに対して、Hugging Face上で完結して分析できる機能Data Studioについて、紹介します。
TL; DR
Hugging Face上で、Data Studioをクリックすると、SQLをかけるので分析する際に便利です。SQLを書くための補助用プロンプトも触った感じ精度が高いので、SQLに慣れていない人でも気軽に利用できるようになっています。
BigQueryを用いたデータ分析と近いことが実現できます。
Data Studioの使い方
今回のコンペの対象データセットであるHugging FaceのHLEデータを例に、使い方を説明します。
※SQLコンソールの詳細な仕様については、以下を参照下さい。
※ SQLの文法については、DuckDB SQLの文法に従っており、以下を参照下さい。
次に、dataset studioを用いた分析例(HLEとDNA)を紹介します。
なお、HLE: Humanity’s Last Exam・DNA: Do Not Answerの略です。
詳細については、以下のリンク先の論文を参照下さい。
HLEの統計分析
HLEデータセットのリンク
0. HLEデータセットのカラム説明
| プロパティ名 | 種類 | 説明 |
|---|---|---|
| id | 文字列/識別子 | 各質問/問題に割り当てられた一意の識別子 |
| question | 文字列 | 問題の本文テキストで、モデルが解答を試みる対象となる問い |
| image | 文字列(URL)/可空 | マルチモーダル問題の場合、解答に必要となる画像のデータがここに含まれる(テキストのみ問題ならnull/空) |
| image_preview | 文字列(URL)/可空 | 上記imageに含まれる画像の表示用プレビュー版(低解像度等) |
| answer | 文字列 | その質問に対する検証済みの正解解答 |
| answer_type | 文字列 | 質問の形式を表します。可能な値には multiple-choice(多肢選択式)または short-answer(短答式/完全一致)がある |
| author_name | 文字列 | その質問を提供した専門分野(主題)の著者/作成者の名前 |
| rationale | 文字列/可空 | 正解に至るまでの論理的な根拠や思考プロセスを説明した文章で、問題の難しさを理解するために役立つ |
| rationale_image | 文字列(URL)/可空 | 上記rationale(思考プロセス)を補足・図解するための画像がある場合のURLで、無ければ空 |
| raw_subject | 文字列 | 問題作成者によって与えられた、より具体で詳細な主題分野 (例: 量子場理論・近代哲学等) |
| category | 文字列 | 標準化された広範な主題カテゴリ(例: Mathematics・Physics・Humanities等) |
| canary | 文字列 | データ汚染(モデル訓練データへの漏れ等)を検出するための特殊文字列で、モデル開発者が本データを意図せず訓練に用いてしまったことを検知する用途がある |
1. 各分野ごとに、画像含む場合と含まない場合の問題数の比較
- 結果
-
考察
- カテゴリ別に見ると、
Physics・Humanities/Social Science・Computer Science/AI・Mathの降順で図を含む割合が20%未満である - 特に、
Mathは問題数が1021件と他のカテゴリよりも10倍近く多く、図なし問題が高い - 図無し問題の正答率向上を目指すならば、
Math・Computer Science/AIの図無し問題に絞り、詳細に分析すべきである
- カテゴリ別に見ると、
2.回答形式(answer_type)別の問題数分布
-
目的
- 記述解答(exactMatch) と 選択式(multipleChoice) の割合を把握する
- 各カテゴリで出題形式に偏りがないかを見る
- 結果
-
考察
-
Mathは圧倒的にexactMatchが多く、選択式は非常に少ない
-
3.カテゴリ×回答形式クロス集計
-
目的
- 各カテゴリ内で、記述・選択の偏りを確認し,カテゴリごとの出題傾向を把握する
- 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/6U1I5es
-
考察
-
Biology・Medicine以外では、記述式 > 選択式で、記述式は選択式の2倍以上である
-
4.質問文の長さ(文字数)の分析
-
目的
- カテゴリごとの問題文の長さを比較する
- 平均より極端に長い or 短いカテゴリに注目
- 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/rFDtU9z
-
考察
-
Engineering・Computer Science/AIが相対的に問題文が長い(平均1,400字) -
Math・Chemistry・Otherは、比較的短い
-
5.回答文の長さ(文字数)分析
-
目的
- 答え自体のボリューム(解答例の詳細さ)をカテゴリや形式ごとに見る
- 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/D4KeRHp
-
考察
- 記述式では、
ChemistryやEngineeringが解答例も長い(20~30字) - 選択式はいずれも、1字(選択肢番号のみ)と揃っている
- 選択肢問題は必ず、選択肢(1桁の記号や番号)を選ばせている
- 記述式では、
6.問題文の語数(単語数)分析
-
目的
- 文字数だけでなく語数ベースで見ることで、実際の文の長さを把握する
- 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/Ptn3nTn
-
考察
-
Engineering・Computer Science/AIが、200~300単語と長い -
Math・Chemistryは100単語程度で短い。中でもChemistryが90単語程度と最も短い-
Mathの方がChemistryよりも、問題文が短いと(私は)思っていたが、意外な結果である
-
-
7.画像の有無 × 回答形式
-
目的
- 画像付き問題が、記述・選択のどちらに多いかを確認し,出題設計上の特徴を探る
- 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/E6Nl6GZ
- 考察
- 画像付きの記述式は264件、画像付きの選択式は78件ある
- 選択式全体(591件)に対し画像付きは、わずか **13%**程度ある
8.ラショナル(rationale)画像の有無
-
目的
- 解説に画像を含む問題はどれくらいあるか(例: ビジュアル解説の必要性)
- 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/NFdK4fg
-
考察
- 解説画像(
rationale_image)付きは約15%と少数派である
- 解説画像(
9.データ作成者(author_name)別の問題数ランキング(上位20)
-
目的
- 誰が多く問題を作成しているか、分布の偏りを把握する
- 上位作成者のカテゴリ傾向を、さらに深掘る
- 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/undefined
-
考察
- Dmitry D氏が391件で圧倒的トップ、次いで Tung N氏である
- 上位作成者のカテゴリ偏りを、さらに分析すると面白いかもしれない
10.データセットの作成者(上位5名)がカテゴリごとに何件作成しているか(author_nameが空は除く)
-
目的
- データ全体における投稿バイアスを確認するため、相対的に多くデータを作成したユーザー(上位5名)が、どのカテゴリに偏っているかを把握する
- 特定の作成者に依存したデータの偏りがあれば、サンプリング補正や重み付けの検討材料とする
-
共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/aXpZI4x

-
考察
- 全体的な所感
- 作成者(上位5名)のうち、
Math・Physics・CS/AIに偏った作成が目立つ一方、Humanities/Social Science・Biology/Medicine・Otherは比較的少数である
- 作成者(上位5名)のうち、
- 作成者ごとの分析
-
Dmitry D氏(総作成数100件以上):
Math(32件)・Physics(29件)に特に偏重- 理系(特に数理寄り)の問題作成に強みがある一方、
Biology/Medicine・Otherはごく少数である - データ全体の
Math・Physics多めの傾向は、こちらの作成者のためである
- 理系(特に数理寄り)の問題作成に強みがある一方、
-
Tung N氏:
Math(43件)、Computer Science/AI(29件)の2カテゴリがメイン-
Math×CS/AIの組合わに強みがある
-
-
Daron A氏:
Mathが圧倒的に多く(50件)、その他はOther(2件) -
Mikhail D氏: 作成数自体は多くないものの、
Other(29件)とHumanities/Social Science(9件)がウエイトを占める-
Other系の多様な作成を行なった一方で、Math・Physicsの作成はほとんど行わず、他の上位者とは真逆の偏りがある
-
-
Alun S氏:
Math(42件)
-
Dmitry D氏(総作成数100件以上):
- 全体的な所感
11.深掘りインサイト: Math vs Engineering vs Computer Science/AIの主要指標比較
-
目的
- 各カテゴリの問題文の長さ・記述式割合・画像付き割合を一括で比較し、出題フォーマットの特徴を定量的に把握する
- それぞれのカテゴリに最適な学習設計(定着チェック・深い理解度テスト・実装演習など)を検討するための根拠とする
-
共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/LgjlenL

-
考察
-
Math- 平均646字と最も短く、記述式が90%超、画像付きは4%のみである
→ 定義・公式の定着度チェックに向く、スピードドリル型の短問演習に最適である
- 平均646字と最も短く、記述式が90%超、画像付きは4%のみである
-
Engineering- 平均1,406字と最長、記述式約70%、画像付き約42%ある
→ 図解やプロセス把握を問う、深い理解度テストに適合
- 平均1,406字と最長、記述式約70%、画像付き約42%ある
-
Computer Science/AI- 平均1,367字と長文寄り、記述式約70%、画像付き約7%ある
→ テキストベースのアルゴリズム理解・擬似コード読解演習に最適。実装演習との組合せがおすすめである
- 平均1,367字と長文寄り、記述式約70%、画像付き約7%ある
-
DNAの統計分析
DNAデータセットのリンク
0. DNAデータセットのカラム説明
| プロパティ名 | 種類 | 説明 |
|---|---|---|
| id | タイトル | 各プロンプトのユニークな識別子 |
| question | テキスト | モデルに入力された有害プロンプト |
| risk_area | テキスト | カンマ区切りで付与されたリスクラベル(例: Information Hazards, Malicious Uses) |
| types_of_harm | テキスト | プロンプトの大分類ハームタイプ(例: Adult Content, Discrimination, Misinformation) |
| specific_harms | テキスト | より詳細なハーム例(例: Self-Harm, Propaganda, Insult) |
| GPT4_response | テキスト | GPT-4がプロンプトに対して実際に返した回答文 |
| GPT4_harmful | 整数(0/1) | 正しく拒否できたか(1=回答してしまった、0=回答できないと回答) |
| GPT4_action | 整数(1–5) | モデルの回答の有害度レベル(1=最低,…,5=最高) |
| ChatGPT_response | テキスト | ChatGPT が返した回答文 |
| ChatGPT_harmful | 整数(0/1) | 正しく拒否できたか(1=回答してしまった、0=回答できないと回答) |
| ChatGPT_action | 整数(1–5) | モデルの回答の有害度レベル(1=最低,…,5=最高) |
| Claude_response | テキスト | Claudeが返した回答文 |
| Claude_harmful | 整数(0/1) | 正しく拒否できたか(1=回答してしまった、0=回答できないと回答) |
| Claude_action | 整数(1–5) | モデルの回答の有害度レベル(1=最低,…,5=最高) |
| ChatGLM2_response | テキスト | ChatGLM2 が返した回答文 |
| ChatGLM2_harmful | 整数 (0/1) | 正しく拒否できたか(1=回答してしまった、0=回答できないと回答) |
| (ChatGLM2_action | 整数 (1–5) | モデルの回答の有害度レベル(1=最低,…,5=最高) |
| llama2-7b-chat_response | テキスト | Llama2-7b-Chatが返した回答文 |
| llama2-7b-chat_harmful | 整数(0/1) | 正しく拒否できたか(1=回答してしまった、0=回答できないと回答) |
| llama2-7b-chat_action | 整数(1–5) | モデルの回答の有害度レベル(1=最低,…,5=最高) |
| vicuna-7b_response | テキスト | Vicuna-7b が返した回答文 |
| vicuna-7b_harmful | 整数(0/1) | 正しく拒否できたか(1=回答してしまった、0=回答できないと回答) |
| vicuna-7b_action | 整数(1–5) | モデルの回答の有害度レベル(1=最低,…,5=最高) |
1.害のタイプ(types_of_harm)の分布
-
目的
- どの種類の害(成人向けコンテンツ・差別発言)が多いかを把握し、Fine-tune用データを増やす優先順位を決める
- 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/gi4VW2I
-
結果
-
上位3種
- 機密情報漏洩(組織・政府向け): 14.5%
- 違法行為支援: 14.1%
- 個人情報漏洩(個人向け): 11.9%
-
下位
- 成人向けコンテンツ: 3%
-
上位3種
-
考察
- 現状は、情報漏洩・違法支援系プロンプトが半数以上を占め、Fine-tuneの追加データもまずはこの領域のバリエーション強化が効果的と考えられる
- 一方で、成人向けコンテンツは少数派で、モデルによってはここでの見逃しが目立つため、補強すると全体の安全性が底上げされる
2.リスク領域(risk_area)分割集計
-
目的
-
risk_areaはカンマ区切りの複数ラベルで、各ラベルごとの出現頻度を見て全体の重点領域を特定したい
-
- 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/KmBp6Zs
-
結果
-
上位3ラベル
- Information Hazards: 26.4%
- Malicious Uses: 25.9%
- Discrimination・Exclusion・Toxicity・Hateful: 各18.7%(重複集計)
-
下位
- Human-Chatbot Interaction Harms: 12.5%
-
上位3ラベル
-
考察
- 情報ハザード・悪用可能性がデータセットの柱
- 一方で、医療リスク・セキュリティ・人-チャットボット間相互作用等は、相対的に少なく、これらの領域を拡充することで、モデルの汎用性が向上する
3.プロンプト長(文字数)分布
-
目的
- モデルに与えているプロンプト長の頻度を把握したい
-
共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/1SvXy3T
-
- 平均: 58.9文字
- 中央値: 53文字
- 最小・最大: 19~197文字
-
追加分析: 各文字数バケットごとのサンプル数
-
考察
- プロンプト長は、200文字の範囲で収まる
- 長文プロンプト(150~200文字程度)は稀少で、長文での判断耐性を鍛えるために、長文例を追加するとよいと考えられる
4.モデル別有害プロンプト誤答率
-
目的
- GPT-4・ChatGPT・Claudeの各モデルが、有害プロンプトを拒否できなかった割合を比較し、モデルによる誤答率を調査
- 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/UpD3BtW
-
結果
-
考察
- ChatGLM2が、他モデルの4~6倍の誤答率である
- GPT-4/Claude/ChatGPTは、誤答率2%前後と比較的堅牢で、これらのモデルでも弱点となるプロンプトのタイプを以下でさらに分析する
5.モデル別プロンプト長ごとの失敗率
-
目的
- 長いプロンプトほど誤答が増えるかを確認し、長文による害がある場合は、長文の学習を強化すべきか判断したい
-
共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/OcEhcZv
-
- プロンプト長の分布(最小19・中央値53・平均59・最大197文字)に合わせ、以下より細かい4区分で誤答率を確認する
-
< 50: 中央値(53字)より少し下のごく短い区間 -
50-99: 中央値~平均(約59字)程度の短め~中程度 -
100-149: やや長めのミドルレンジ -
150-197: 最大値程度の長文寄り
-
- プロンプト長の分布(最小19・中央値53・平均59・最大197文字)に合わせ、以下より細かい4区分で誤答率を確認する
-
考察
-
ChatGLM2の弱点が鮮明
- 全バケットで誤回答率が最も高く、特に50–99字で11.2%とピークになっている
- 長文(100字以上)でも約7%の見逃しが続いており、長さに関わらず、弱点になっている
-
GPT-4・Claude・ChatGPT は長文に強い
- 特に100–149および150–197字では、GPT-4とChatGPTは誤回答ゼロである
- Claudeも長文バケットで誤回答はほぼ皆無である
-
中〜短文( < 100字)における微妙な差
- < 50字: GPT-4(2.8%) > ChatGPT(2.3%) > Claude(2.1%)
- 50–99字: GPT-4(2.5%) > Claude(1.5%) > ChatGPT(1.0%)
- いずれも誤回答率は低いが、ChatGPTが最も堅牢である
-
長文のデータ数がそもそも少ないので、この評価で妥当かどうかは定かではない
- 150–197字バケットはサンプル数が少ない(13/939件)
- 長文バケットに対するChatGLM2の誤回答(7.7%)を安定して評価するには、追加の長文サンプルが必要である
-
ChatGLM2の弱点が鮮明
6.害タイプ×モデル誤答率クロス集計
-
目的
- どの
types_of_harmでモデルが誤って回答してしまうか(harmful=1)を特定し、データ追加のターゲットを決めたい
- どの
- 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/aSiJbJB
-
結果
- Adult Content: GPT-4 32.1%、ChatGLM2/ChatGPT 25%と高い
- Disseminating false or misleading information: ChatGLM2 20.7%
- Reducing the cost of disinformation campaigns: ChatGLM2 17.5%、GPT-4 12.5%、ChatGPT 7.5%
-
考察
- 成人向けコンテンツと偽情報拡散支援系は、特に誤回答が多い
- これらを重点的にカバーするサンプルをFine-tuneデータに加えることで、モデルの安全拒否性能を改善できる可能性がある
7.specific_harms(細分類した害タイプ)頻度
-
目的
- 特定の害の例(
specific_harms)の出現頻度を押さえ、漏れなくカバーするための調査
- 特定の害の例(
- 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/kKiEbzL
-
結果
-
上位
- Insult: disrespect / offend questions (37件)
- Emotional reliance on chatbot (31件)
- Advice on psychotic disorders (28件)
- Rumors / Unverified information (25件)
- Unreliable Experts / Propaganda…
-
上位
-
考察
- 侮辱・チャットボット依存・精神科相談・噂拡散・プロパガンダ等、幅広い細分類が存在する
- 頻度の低い項目(例: Self-Harm 20件程度)もモデルは見逃しやすい可能性が高く、優先度を付けてカバーすると効果的と考えられる
まとめ
Data Studioを用いたHLE・DNAデータセットの統計分析を紹介しました。
本記事を通して、Hugging Faceブラウザ上で完結したデータ分析ができるData Studioの利便性について、興味を持って頂けますと幸いです。
本プロジェクトは、国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)の「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における基盤モデルの開発プロジェクトの一環として行われます。








