@d94231(Nom)Team Coffee

「それ本当なん？」を追い続けたら、気づけばデータサイエンスが身についていた

Posted at 2026-06-19

〜Kaggleが続かなかった私の問い駆動学習法〜

はじめに

私はデータサイエンスを勉強しようと思って始めたわけではない。

「それ本当なん？」 を確かめたかっただけだ。

暑いから秋物が売れない？
万博には経済効果がある？
不況でもペット支出は削られにくい？

そんな話を公開データで追いかけていたら、気づけば API 取得・前処理・可視化・仮説検証・記事執筆が普通にできるようになっていた。

この記事では、その過程で自然に出来上がった 「問い駆動学習法」 を紹介する。体験談ではなく、読者が真似できる型 として書く。

1. なぜ Kaggle が続かなかったのか

Titanic や Iris は確かに勉強になる。私も一通り触った。

しかし続かなかった。理由は単純で、「何を知りたいのか」 がなかったからだ。

実は Kaggle だけではない。当時は e-Stat の複数分野からランダムにデータを選び、45 組以上のランダムな相関 を探したこともあった。相関は見つかった。だが面白くなかった。

なぜなら、「誰のための分析なのか」 が自分でも分からなかったからだ。

転機になったのは、統計学を学ぼうと決めた日ではない。「暑いから秋物が売れない。本当なのか？」 というニュースへの違和感だった。

2. 1 つの問いが、次の問いを生んだ

秋物分析を始めた。気温と衣料品支出の関係を調べた。17 年分の気温・検索・購買データを並べても、「気温だけで秋物商戦を説明できる」 という仮説は、データとしては支持されにくかった。

では本当の原因は何なのか。家計構造か。所得か。他の支出項目か。

秋物分析の 「本当の原因は何か？」 を追ううちに、関心は個別商品ではなく 家計構造そのもの へ広がっていった。

家計調査 541 品目のスクリーニング
ペット関連支出の分析
スポーツ月謝の分析
おにぎり専門店・家事代行の分析

秋物分析は 1 本の記事で終わらなかった。問いを追い続けた結果、5 本以上のシリーズ になった。

今振り返ると、データサイエンスを学んでいたのではない。問いを追い続けていただけ だった。

3. 私が辿り着いた「問い駆動学習ループ」

私が現在も回しているサイクルはシンプルだ。

この方法の良いところは、統計・Python・AI を個別に勉強しなくても、問いを追う過程で必要なスキルが自然に身につく ことだ。カリキュラムを設計するより、問いを 1 周回す 方が早い場合もある。

[問い] → [公開データ] → [観察] → [LLM] → [発信]
   ↑__________________________________________|
                  次の問い

各段階でやること（秋物シリーズでの例）

段階	やること	秋物シリーズでの例
問い	違和感を言語化する	「暑いから秋物が売れない？」
公開データ	必要なデータを取得する	気象庁・家計調査・e-Stat
観察	まず分析しない。グラフを眺める	気温と支出が一致しない
LLM	仮説・検証方法の壁打ち	「他の説明変数はないか？」
発信	短くまとめて公開する	第 1 弾公開 → 次の問いが生まれる

ポイントは 2 つ ある。

観察の前に結論を出さない（グラフを描いて、違和感を探す）
発信が次の問いを生む（説明しようとすると、理解が深まる）

LLM はコード生成器として使うこともある。ただし本記事で強調したいのは、理解を深める相談相手 としての使い方だ（§5）。

4. データは分析する前に、まず友達になれ

私が一番学んだのは、高度な分析手法より観察だった。

家計調査 541 品目を何度も見ているうちに、「今月はスポーツ月謝だけ変だ」 という違和感を覚えるようになった。後に調べると、スポーツ月謝はコロナ期に大きく落ち込み（実質 -29.3%）、回復も鈍かった。

先に違和感があり、後から分析が来た。

季節性、外れ値、構造変化——こうした感覚は、本や教材だけでは身につきにくい。同じデータを何度も見続けると、「今月は何か変だ」 が分かるようになる。これは統計学の教科書には載っていないが、分析の現場では非常に重要な感覚 だ。

私はこれを 「データと友達になる」 と呼んでいる。統計学はもちろん重要だ。しかし、同じデータを 100 回見ることでしか得られない感覚もある。

5. LLM はプログラマーではなく、研究室の先輩だった

AI 駆動開発で LLM にコードを書いてもらうこともある。しかし本当に価値を感じたのは、別の使い方だった。

例えば、こういう相談だ。

「この相関、メタデータ列同士の疑似相関ではない？」
「万博の対照群を置くなら兵庫と愛知、どちらが適切？」
「この欠損パターンは、系列終端の問題ではないか？」

LLM は答えを出す機械ではない。研究室の優秀な先輩 だ。仮説を壊してくれる。見落としを指摘してくれる。自分一人では気づけない 「言えること／言えないこと」 の線引きを手伝ってくれる。

少なくとも私にとっては、この役割を果たしてくれたのが LLM だった。だから私に合った学び方は、コンペではなく問い だった。

この考え方は、以前書いた 「AIは、問いを立ててはくれない。」 という記事にも繋がっている。LLM は非常に優秀だが、何を知りたいかを決めるのは人間の役割 だ。問い → データ → LLM という順番を守ることが、この学習法の前提になる。

6. この学習法で何が身についたか

最初は、

CSV の文字化けで止まる
API 取得が怖い
統計用語が分からない

状態だった。

今振り返ると、転機は ランダム探索の失敗 だった。相関を探すこと自体が目的になると続かなかった。一方で 「秋物は本当に気温のせいなのか？」 という問いは、541 品目分析や万博分析へと自然に広がっていった。

時期	やったこと	身についたこと	次に生まれた問い
1 月	ランダム相関探索（45 組以上）	仮説なき分析の限界	何を知りたいのか？
3 月	家計調査 541 品目スクリーニング	API・前処理・時系列比較	削られない支出は何か？
6 月	万博経済効果の検証	比較設計・対照群・記述的 DiD 的発想	経済効果はどう測るべきか？

比較設計の感覚を深めたのは、万博分析だけではない。「大分は医療分散度1位」は本当か？ では、22 年分の時系列データで自分の結論を壊しにいった。失敗 → 気づき → 成熟、という流れの「成熟」側に当たる分析だ。

勉強のために勉強したわけではない。問いがスキルを引き寄せた のである。

7. もし明日から始めるなら

良い問いの条件（3 つ）

世間で「当たり前」になっている
公開データ（e-Stat・気象庁・家計調査など）で追える
Yes/No で終わらず、次の問いが生まれる

最初の 1 週間

日	やること
Day 1	今日気になったニュースから、問いを 1 行で書く
Day 2	公開データのソースを 1 つ特定する
Day 3	グラフを 1 枚描く（分析しない）
Day 4	LLM に仮説・見落としを相談する
Day 5	「言えること／言えないこと」を 3 行で整理する
Day 6	300 字でまとめる
Day 7	次の問いを 1 つメモする

これだけで十分だ。完璧な分析より、問いを 1 周回す ことを優先してほしい。

おわりに

振り返ると、私が学んでいたのは統計学でも LLM でもなかった。学んでいたのは、「それ本当なん？」を確かめる方法 だった。

世の中には 「みんなそう言っているから正しいこと」 がたくさんある。でも公開データを見てみると、案外そうでもない。

公開データがあり、LLM という相談相手がいる今、そのハードルは以前より低い。Kaggle が続かなくても、コンペの順位が取れなくても、問題ない。

次にニュースを見て違和感を覚えたら、一度立ち止まってみてほしい。

「それ本当なん？」

学びはそこから始まる。

今日の問い

最近よく聞く「〇〇は当たり前」という話で、あなたが 「それ本当なん？」 と思うものは何だろうか。コメントで教えてほしい。