0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Hugging Face Data Studioで分析してみた

Last updated at Posted at 2025-11-05

はじめに

松尾研LLM開発コンペ2025に参加した @bonsai2 です。
チームTruth Owlでの取り組みに関して、執筆します。

私からは、Hugging Face上に存在するデータセットに対して、Hugging Face上で完結して分析できる機能Data Studioについて、紹介します。

TL; DR

Hugging Face上で、Data Studioをクリックすると、SQLをかけるので分析する際に便利です。SQLを書くための補助用プロンプトも触った感じ精度が高いので、SQLに慣れていない人でも気軽に利用できるようになっています。

BigQueryを用いたデータ分析と近いことが実現できます。

Data Studioの使い方

今回のコンペの対象データセットであるHugging FaceのHLEデータを例に、使い方を説明します。

  • Hugging FaceのHLEデータを開く
    スクリーンショット 2025-10-28 3.21.09.png

  • Data Studioをクリックし、右側のコンソール内にSQLを記述します
    スクリーンショット 2025-10-28 3.23.03.png

  • 書いたSQLを下部にあるSave Queryから保存し、共有可能です
    スクリーンショット 2025-10-28 3.26.33.png

※SQLコンソールの詳細な仕様については、以下を参照下さい。

※ SQLの文法については、DuckDB SQLの文法に従っており、以下を参照下さい。

スクリーンショット 2025-10-31 10.12.07.png

次に、dataset studioを用いた分析例(HLEとDNA)を紹介します。
なお、HLE: Humanity’s Last ExamDNA: Do Not Answerの略です。
詳細については、以下のリンク先の論文を参照下さい。

HLEの統計分析

HLEデータセットのリンク

0. HLEデータセットのカラム説明

プロパティ名 種類 説明
id 文字列/識別子 各質問/問題に割り当てられた一意の識別子
question 文字列 問題の本文テキストで、モデルが解答を試みる対象となる問い
image 文字列(URL)/可空 マルチモーダル問題の場合、解答に必要となる画像のデータがここに含まれる(テキストのみ問題ならnull/空)
image_preview 文字列(URL)/可空 上記imageに含まれる画像の表示用プレビュー版(低解像度等)
answer 文字列 その質問に対する検証済みの正解解答
answer_type 文字列 質問の形式を表します。可能な値には multiple-choice(多肢選択式)または short-answer(短答式/完全一致)がある
author_name 文字列 その質問を提供した専門分野(主題)の著者/作成者の名前
rationale 文字列/可空 正解に至るまでの論理的な根拠や思考プロセスを説明した文章で、問題の難しさを理解するために役立つ
rationale_image 文字列(URL)/可空 上記rationale(思考プロセス)を補足・図解するための画像がある場合のURLで、無ければ空
raw_subject 文字列 問題作成者によって与えられた、より具体で詳細な主題分野 (例: 量子場理論・近代哲学等)
category 文字列 標準化された広範な主題カテゴリ(例: Mathematics・Physics・Humanities等)
canary 文字列 データ汚染(モデル訓練データへの漏れ等)を検出するための特殊文字列で、モデル開発者が本データを意図せず訓練に用いてしまったことを検知する用途がある

1. 各分野ごとに、画像含む場合と含まない場合の問題数の比較

  • 結果
  • 考察
    • カテゴリ別に見ると、PhysicsHumanities/Social ScienceComputer Science/AIMathの降順で図を含む割合が20%未満である
    • 特に、Mathは問題数が1021件と他のカテゴリよりも10倍近く多く、図なし問題が高い
    • 図無し問題の正答率向上を目指すならば、MathComputer Science/AIの図無し問題に絞り、詳細に分析すべきである

2.回答形式(answer_type)別の問題数分布

  • 目的
    • 記述解答(exactMatch)選択式(multipleChoice) の割合を把握する
    • 各カテゴリで出題形式に偏りがないかを見る
  • 結果
  • 考察
    • Mathは圧倒的にexactMatchが多く、選択式は非常に少ない

3.カテゴリ×回答形式クロス集計

  • 目的
  • 考察
    • BiologyMedicine以外では、記述式 > 選択式で、記述式は選択式の2倍以上である

4.質問文の長さ(文字数)の分析

  • 目的
  • 考察
    • EngineeringComputer Science/AIが相対的に問題文が長い(平均1,400字)
    • MathChemistryOtherは、比較的短い

5.回答文の長さ(文字数)分析

  • 目的
    • 答え自体のボリューム(解答例の詳細さ)をカテゴリや形式ごとに見る
  • 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/D4KeRHp
    スクリーンショット 2025-10-30 17.25.24.png
  • 考察
    • 記述式では、ChemistryEngineeringが解答例も長い(20~30字)
    • 選択式はいずれも、1字(選択肢番号のみ)と揃っている
    • 選択肢問題は必ず、選択肢(1桁の記号や番号)を選ばせている

6.問題文の語数(単語数)分析

  • 目的
    • 文字数だけでなく語数ベースで見ることで、実際の文の長さを把握する
  • 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/Ptn3nTn
    スクリーンショット 2025-10-30 17.32.29.png
  • 考察
    • EngineeringComputer Science/AIが、200~300単語と長い
    • MathChemistryは100単語程度で短い。中でもChemistryが90単語程度と最も短い
      • Mathの方がChemistryよりも、問題文が短いと(私は)思っていたが、意外な結果である

7.画像の有無 × 回答形式

  • 目的
    • 画像付き問題が、記述選択のどちらに多いかを確認し,出題設計上の特徴を探る
  • 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/E6Nl6GZ
    スクリーンショット 2025-10-30 17.34.23.png
  • 考察
    • 画像付きの記述式は264件、画像付きの選択式は78件ある
    • 選択式全体(591件)に対し画像付きは、わずか **13%**程度ある

8.ラショナル(rationale)画像の有無

9.データ作成者(author_name)別の問題数ランキング(上位20)

  • 目的
    • 誰が多く問題を作成しているか、分布の偏りを把握する
    • 上位作成者のカテゴリ傾向を、さらに深掘る
  • 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/undefined
    スクリーンショット 2025-10-30 17.36.42.png
  • 考察
    • Dmitry D氏が391件で圧倒的トップ、次いで Tung N氏である
    • 上位作成者のカテゴリ偏りを、さらに分析すると面白いかもしれない

10.データセットの作成者(上位5名)がカテゴリごとに何件作成しているか(author_nameが空は除く)

  • 目的

    • データ全体における投稿バイアスを確認するため、相対的に多くデータを作成したユーザー(上位5名)が、どのカテゴリに偏っているかを把握する
    • 特定の作成者に依存したデータの偏りがあれば、サンプリング補正や重み付けの検討材料とする
  • 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/aXpZI4x
    スクリーンショット 2025-10-30 17.37.36.png

  • 考察

    • 全体的な所感
      • 作成者(上位5名)のうち、MathPhysicsCS/AIに偏った作成が目立つ一方、Humanities/Social ScienceBiology/MedicineOtherは比較的少数である
    • 作成者ごとの分析
      • Dmitry D氏(総作成数100件以上): Math(32件)・Physics(29件)に特に偏重
        • 理系(特に数理寄り)の問題作成に強みがある一方、Biology/MedicineOtherはごく少数である
        • データ全体のMathPhysics多めの傾向は、こちらの作成者のためである
      • Tung N氏: Math(43件)、Computer Science/AI(29件)の2カテゴリがメイン
        • Math × CS/AIの組合わに強みがある
      • Daron A氏: Mathが圧倒的に多く(50件)、その他はOther(2件)
      • Mikhail D氏: 作成数自体は多くないものの、Other(29件)とHumanities/Social Science(9件)がウエイトを占める
        • Other系の多様な作成を行なった一方で、MathPhysicsの作成はほとんど行わず、他の上位者とは真逆の偏りがある
      • Alun S氏: Math(42件)

11.深掘りインサイト: Math vs Engineering vs Computer Science/AIの主要指標比較

  • 目的

    • 各カテゴリの問題文の長さ記述式割合画像付き割合を一括で比較し、出題フォーマットの特徴を定量的に把握する
    • それぞれのカテゴリに最適な学習設計(定着チェック・深い理解度テスト・実装演習など)を検討するための根拠とする
  • 共有リンク: https://huggingface.co/datasets/cais/hle/sql-console/LgjlenL
    スクリーンショット 2025-10-30 17.39.43.png

  • 考察

    1. Math
      • 平均646字と最も短く、記述式が90%超、画像付きは4%のみである
        → 定義・公式の定着度チェックに向く、スピードドリル型の短問演習に最適である
    2. Engineering
      • 平均1,406字と最長、記述式約70%、画像付き約42%ある
        → 図解やプロセス把握を問う、深い理解度テストに適合
    3. Computer Science/AI
      • 平均1,367字と長文寄り、記述式約70%、画像付き約7%ある
        → テキストベースのアルゴリズム理解・擬似コード読解演習に最適。実装演習との組合せがおすすめである

DNAの統計分析

DNAデータセットのリンク

0. DNAデータセットのカラム説明

プロパティ名 種類 説明
id タイトル 各プロンプトのユニークな識別子
question テキスト モデルに入力された有害プロンプト
risk_area テキスト カンマ区切りで付与されたリスクラベル(例: Information Hazards, Malicious Uses)
types_of_harm テキスト プロンプトの大分類ハームタイプ(例: Adult Content, Discrimination, Misinformation)
specific_harms テキスト より詳細なハーム例(例: Self-Harm, Propaganda, Insult)
GPT4_response テキスト GPT-4がプロンプトに対して実際に返した回答文
GPT4_harmful 整数(0/1) 正しく拒否できたか(1=回答してしまった、0=回答できないと回答)
GPT4_action 整数(1–5) モデルの回答の有害度レベル(1=最低,…,5=最高)
ChatGPT_response テキスト ChatGPT が返した回答文
ChatGPT_harmful 整数(0/1) 正しく拒否できたか(1=回答してしまった、0=回答できないと回答)
ChatGPT_action 整数(1–5) モデルの回答の有害度レベル(1=最低,…,5=最高)
Claude_response テキスト Claudeが返した回答文
Claude_harmful 整数(0/1) 正しく拒否できたか(1=回答してしまった、0=回答できないと回答)
Claude_action 整数(1–5) モデルの回答の有害度レベル(1=最低,…,5=最高)
ChatGLM2_response テキスト ChatGLM2 が返した回答文
ChatGLM2_harmful 整数 (0/1) 正しく拒否できたか(1=回答してしまった、0=回答できないと回答)
(ChatGLM2_action 整数 (1–5) モデルの回答の有害度レベル(1=最低,…,5=最高)
llama2-7b-chat_response テキスト Llama2-7b-Chatが返した回答文
llama2-7b-chat_harmful 整数(0/1) 正しく拒否できたか(1=回答してしまった、0=回答できないと回答)
llama2-7b-chat_action 整数(1–5) モデルの回答の有害度レベル(1=最低,…,5=最高)
vicuna-7b_response テキスト Vicuna-7b が返した回答文
vicuna-7b_harmful 整数(0/1) 正しく拒否できたか(1=回答してしまった、0=回答できないと回答)
vicuna-7b_action 整数(1–5) モデルの回答の有害度レベル(1=最低,…,5=最高)

1.害のタイプ(types_of_harm)の分布

  • 目的
    • どの種類の害(成人向けコンテンツ・差別発言)が多いかを把握し、Fine-tune用データを増やす優先順位を決める
  • 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/gi4VW2I
  • 結果
    スクリーンショット 2025-10-31 7.49.17.png
    • 上位3種
      • 機密情報漏洩(組織・政府向け): 14.5%
      • 違法行為支援: 14.1%
      • 個人情報漏洩(個人向け): 11.9%
    • 下位
      • 成人向けコンテンツ: 3%
  • 考察
    • 現状は、情報漏洩違法支援系プロンプトが半数以上を占め、Fine-tuneの追加データもまずはこの領域のバリエーション強化が効果的と考えられる
    • 一方で、成人向けコンテンツは少数派で、モデルによってはここでの見逃しが目立つため、補強すると全体の安全性が底上げされる

2.リスク領域(risk_area)分割集計

  • 目的
    • risk_areaはカンマ区切りの複数ラベルで、各ラベルごとの出現頻度を見て全体の重点領域を特定したい
  • 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/KmBp6Zs
  • 結果
    スクリーンショット 2025-10-31 7.59.38.png
    • 上位3ラベル
      • Information Hazards: 26.4%
      • Malicious Uses: 25.9%
      • Discrimination・Exclusion・Toxicity・Hateful: 各18.7%(重複集計)
    • 下位
      • Human-Chatbot Interaction Harms: 12.5%
  • 考察
    • 情報ハザード悪用可能性がデータセットの柱
    • 一方で、医療リスクセキュリティ人-チャットボット間相互作用等は、相対的に少なく、これらの領域を拡充することで、モデルの汎用性が向上する

3.プロンプト長(文字数)分布

4.モデル別有害プロンプト誤答率

  • 目的
    • GPT-4・ChatGPT・Claudeの各モデルが、有害プロンプトを拒否できなかった割合を比較し、モデルによる誤答率を調査
  • 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/UpD3BtW
  • 結果
    スクリーンショット 2025-10-31 8.03.56.png
  • 考察
    • ChatGLM2が、他モデルの4~6倍の誤答率である
    • GPT-4/Claude/ChatGPTは、誤答率2%前後と比較的堅牢で、これらのモデルでも弱点となるプロンプトのタイプを以下でさらに分析する

5.モデル別プロンプト長ごとの失敗率

  • 目的

    • 長いプロンプトほど誤答が増えるかを確認し、長文による害がある場合は、長文の学習を強化すべきか判断したい
  • 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/OcEhcZv

  • 結果
    スクリーンショット 2025-10-31 8.06.57.png

    • プロンプト長の分布(最小19・中央値53・平均59・最大197文字)に合わせ、以下より細かい4区分で誤答率を確認する
      • < 50: 中央値(53字)より少し下のごく短い区間
      • 50-99: 中央値~平均(約59字)程度の短め~中程度
      • 100-149: やや長めのミドルレンジ
      • 150-197: 最大値程度の長文寄り
  • 考察

    • ChatGLM2の弱点が鮮明
      • 全バケットで誤回答率が最も高く、特に50–99字で11.2%とピークになっている
      • 長文(100字以上)でも約7%の見逃しが続いており、長さに関わらず、弱点になっている
    • GPT-4・Claude・ChatGPT は長文に強い
      • 特に100–149および150–197字では、GPT-4とChatGPTは誤回答ゼロである
      • Claudeも長文バケットで誤回答はほぼ皆無である
    • 中〜短文( < 100字)における微妙な差
      • < 50字: GPT-4(2.8%) > ChatGPT(2.3%) > Claude(2.1%)
      • 50–99字: GPT-4(2.5%) > Claude(1.5%) > ChatGPT(1.0%)
      • いずれも誤回答率は低いが、ChatGPTが最も堅牢である
    • 長文のデータ数がそもそも少ないので、この評価で妥当かどうかは定かではない
      • 150–197字バケットはサンプル数が少ない(13/939件)
      • 長文バケットに対するChatGLM2の誤回答(7.7%)を安定して評価するには、追加の長文サンプルが必要である

6.害タイプ×モデル誤答率クロス集計

  • 目的
    • どのtypes_of_harmでモデルが誤って回答してしまうか(harmful=1)を特定し、データ追加のターゲットを決めたい
  • 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/aSiJbJB
  • 結果
    スクリーンショット 2025-10-31 8.08.55.png
    • Adult Content: GPT-4 32.1%、ChatGLM2/ChatGPT 25%と高い
    • Disseminating false or misleading information: ChatGLM2 20.7%
    • Reducing the cost of disinformation campaigns: ChatGLM2 17.5%、GPT-4 12.5%、ChatGPT 7.5%
  • 考察
    • 成人向けコンテンツ偽情報拡散支援系は、特に誤回答が多い
    • これらを重点的にカバーするサンプルをFine-tuneデータに加えることで、モデルの安全拒否性能を改善できる可能性がある

7.specific_harms(細分類した害タイプ)頻度

  • 目的
    • 特定の害の例(specific_harms)の出現頻度を押さえ、漏れなくカバーするための調査
  • 共有リンク: https://huggingface.co/datasets/LibrAI/do-not-answer/sql-console/kKiEbzL
  • 結果
    スクリーンショット 2025-10-31 8.12.08.png
    • 上位
      • Insult: disrespect / offend questions (37件)
      • Emotional reliance on chatbot (31件)
      • Advice on psychotic disorders (28件)
      • Rumors / Unverified information (25件)
      • Unreliable Experts / Propaganda…
  • 考察
    • 侮辱・チャットボット依存・精神科相談・噂拡散・プロパガンダ等、幅広い細分類が存在する
    • 頻度の低い項目(例: Self-Harm 20件程度)もモデルは見逃しやすい可能性が高く、優先度を付けてカバーすると効果的と考えられる

まとめ

Data Studioを用いたHLE・DNAデータセットの統計分析を紹介しました。
本記事を通して、Hugging Faceブラウザ上で完結したデータ分析ができるData Studioの利便性について、興味を持って頂けますと幸いです。


本プロジェクトは、国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)の「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における基盤モデルの開発プロジェクトの一環として行われます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?