〜Kaggleが続かなかった私の問い駆動学習法〜
はじめに
私はデータサイエンスを勉強しようと思って始めたわけではない。
「それ本当なん?」 を確かめたかっただけだ。
- 暑いから秋物が売れない?
- 万博には経済効果がある?
- 不況でもペット支出は削られにくい?
そんな話を公開データで追いかけていたら、気づけば API 取得・前処理・可視化・仮説検証・記事執筆が普通にできるようになっていた。
この記事では、その過程で自然に出来上がった 「問い駆動学習法」 を紹介する。体験談ではなく、読者が真似できる型 として書く。
1. なぜ Kaggle が続かなかったのか
Titanic や Iris は確かに勉強になる。私も一通り触った。
しかし続かなかった。理由は単純で、「何を知りたいのか」 がなかったからだ。
実は Kaggle だけではない。当時は e-Stat の複数分野からランダムにデータを選び、45 組以上のランダムな相関 を探したこともあった。相関は見つかった。だが面白くなかった。
なぜなら、「誰のための分析なのか」 が自分でも分からなかったからだ。
転機になったのは、統計学を学ぼうと決めた日ではない。「暑いから秋物が売れない。本当なのか?」 というニュースへの違和感だった。
2. 1 つの問いが、次の問いを生んだ
秋物分析を始めた。気温と衣料品支出の関係を調べた。17 年分の気温・検索・購買データを並べても、「気温だけで秋物商戦を説明できる」 という仮説は、データとしては支持されにくかった。
では本当の原因は何なのか。家計構造か。所得か。他の支出項目か。
秋物分析の 「本当の原因は何か?」 を追ううちに、関心は個別商品ではなく 家計構造そのもの へ広がっていった。
- 家計調査 541 品目のスクリーニング
- ペット関連支出の分析
- スポーツ月謝の分析
- おにぎり専門店・家事代行の分析
(関連記事:日本は貧しくなったのか?家計データで検証したら"全く違う結論"になった)
秋物分析は 1 本の記事で終わらなかった。問いを追い続けた結果、5 本以上のシリーズ になった。
今振り返ると、データサイエンスを学んでいたのではない。問いを追い続けていただけ だった。
3. 私が辿り着いた「問い駆動学習ループ」
私が現在も回しているサイクルはシンプルだ。
この方法の良いところは、統計・Python・AI を個別に勉強しなくても、問いを追う過程で必要なスキルが自然に身につく ことだ。カリキュラムを設計するより、問いを 1 周回す 方が早い場合もある。
[問い] → [公開データ] → [観察] → [LLM] → [発信]
↑__________________________________________|
次の問い
各段階でやること(秋物シリーズでの例)
| 段階 | やること | 秋物シリーズでの例 |
|---|---|---|
| 問い | 違和感を言語化する | 「暑いから秋物が売れない?」 |
| 公開データ | 必要なデータを取得する | 気象庁・家計調査・e-Stat |
| 観察 | まず分析しない。グラフを眺める | 気温と支出が一致しない |
| LLM | 仮説・検証方法の壁打ち | 「他の説明変数はないか?」 |
| 発信 | 短くまとめて公開する | 第 1 弾公開 → 次の問いが生まれる |
ポイントは 2 つ ある。
- 観察の前に結論を出さない(グラフを描いて、違和感を探す)
- 発信が次の問いを生む(説明しようとすると、理解が深まる)
LLM はコード生成器として使うこともある。ただし本記事で強調したいのは、理解を深める相談相手 としての使い方だ(§5)。
4. データは分析する前に、まず友達になれ
私が一番学んだのは、高度な分析手法より 観察 だった。
家計調査 541 品目を何度も見ているうちに、「今月はスポーツ月謝だけ変だ」 という違和感を覚えるようになった。後に調べると、スポーツ月謝はコロナ期に大きく落ち込み(実質 -29.3%)、回復も鈍かった。
先に違和感があり、後から分析が来た。
季節性、外れ値、構造変化——こうした感覚は、本や教材だけでは身につきにくい。同じデータを何度も見続けると、「今月は何か変だ」 が分かるようになる。これは統計学の教科書には載っていないが、分析の現場では非常に重要な感覚 だ。
私はこれを 「データと友達になる」 と呼んでいる。統計学はもちろん重要だ。しかし、同じデータを 100 回見ることでしか得られない感覚もある。
5. LLM はプログラマーではなく、研究室の先輩だった
AI 駆動開発で LLM にコードを書いてもらうこともある。しかし本当に価値を感じたのは、別の使い方だった。
例えば、こういう相談だ。
- 「この相関、メタデータ列同士の疑似相関ではない?」
- 「万博の対照群を置くなら兵庫と愛知、どちらが適切?」
- 「この欠損パターンは、系列終端の問題ではないか?」
LLM は答えを出す機械ではない。研究室の優秀な先輩 だ。仮説を壊してくれる。見落としを指摘してくれる。自分一人では気づけない 「言えること/言えないこと」 の線引きを手伝ってくれる。
少なくとも私にとっては、この役割を果たしてくれたのが LLM だった。だから私に合った学び方は、コンペではなく問い だった。
この考え方は、以前書いた 「AIは、問いを立ててはくれない。」 という記事にも繋がっている。LLM は非常に優秀だが、何を知りたいかを決めるのは人間の役割 だ。問い → データ → LLM という順番を守ることが、この学習法の前提になる。
6. この学習法で何が身についたか
最初は、
- CSV の文字化けで止まる
- API 取得が怖い
- 統計用語が分からない
状態だった。
今振り返ると、転機は ランダム探索の失敗 だった。相関を探すこと自体が目的になると続かなかった。一方で 「秋物は本当に気温のせいなのか?」 という問いは、541 品目分析や万博分析へと自然に広がっていった。
| 時期 | やったこと | 身についたこと | 次に生まれた問い |
|---|---|---|---|
| 1 月 | ランダム相関探索(45 組以上) | 仮説なき分析の限界 | 何を知りたいのか? |
| 3 月 | 家計調査 541 品目スクリーニング | API・前処理・時系列比較 | 削られない支出は何か? |
| 6 月 | 万博経済効果の検証 | 比較設計・対照群・記述的 DiD 的発想 | 経済効果はどう測るべきか? |
比較設計の感覚を深めたのは、万博分析だけではない。「大分は医療分散度1位」は本当か? では、22 年分の時系列データで自分の結論を壊しにいった。失敗 → 気づき → 成熟、という流れの「成熟」側に当たる分析だ。
勉強のために勉強したわけではない。問いがスキルを引き寄せた のである。
7. もし明日から始めるなら
良い問いの条件(3 つ)
- 世間で「当たり前」になっている
- 公開データ(e-Stat・気象庁・家計調査など)で追える
- Yes/No で終わらず、次の問いが生まれる
最初の 1 週間
| 日 | やること |
|---|---|
| Day 1 | 今日気になったニュースから、問いを 1 行で書く |
| Day 2 | 公開データのソースを 1 つ特定する |
| Day 3 | グラフを 1 枚描く(分析しない) |
| Day 4 | LLM に仮説・見落としを相談する |
| Day 5 | 「言えること/言えないこと」を 3 行で整理する |
| Day 6 | 300 字でまとめる |
| Day 7 | 次の問いを 1 つメモする |
これだけで十分だ。完璧な分析より、問いを 1 周回す ことを優先してほしい。
おわりに
振り返ると、私が学んでいたのは統計学でも LLM でもなかった。学んでいたのは、「それ本当なん?」を確かめる方法 だった。
世の中には 「みんなそう言っているから正しいこと」 がたくさんある。でも公開データを見てみると、案外そうでもない。
公開データがあり、LLM という相談相手がいる今、そのハードルは以前より低い。Kaggle が続かなくても、コンペの順位が取れなくても、問題ない。
次にニュースを見て違和感を覚えたら、一度立ち止まってみてほしい。
「それ本当なん?」
学びはそこから始まる。
今日の問い
最近よく聞く「〇〇は当たり前」という話で、あなたが 「それ本当なん?」 と思うものは何だろうか。コメントで教えてほしい。
関連記事(問い駆動学習の実例)
この勉強法は、実際に次の分析で機能した。興味のあるテーマから読んでほしい。
失敗から学んだこと
「それ本当なん?」の実例
AI との付き合い方
比較設計・検証
本記事は Qiita お題「AI・データサイエンスを学ぶ上で良かった勉強法を共有しよう!」への投稿を想定して執筆した。