第0章:導入 ― データで世界を見る
0.1 Titanic データセットとは
0.2 データで「過去」を読むとはどういうことか
0.3 本書の構成と学び方
0.4 データ分析の学習ロードマップ
0.5 探究:なぜ Titanic は教材として優れているのか
第1章:データと変数
1.1 データとは何か
1.2 個体と変数
1.3 質的変数と量的変数
1.4 Titanic データの変数一覧
1.5 変数が表す社会的意味
1.6 例題:変数を分類しよう
1.7 演習:新しい変数を考えてみよう
1.8 探究:データを見る前の「仮説」構築 ― 誰が生き残ったと予想するか?
第2章:度数分布と生存率
2.1 度数分布表
2.2 ヒストグラム
2.3 割合と生存率
2.4 Titanic 全体の生存率
2.5 統計的な見方の基本
2.6 例題:生存率を求めよう
2.7 演習:男女別生存率
2.8 応用:箱ひげ図(Box Plot)で外れ値と分布の「歪み」を捉える
第3章:2変数の関係
3.1 クロス集計表
3.2 条件付き確率
3.3 性別と生存率
3.4 年齢と生存率
3.5 階級と生存率
3.6 例題:条件付き生存率
3.7 演習:年齢階級別生存率
第4章:確率と予測の考え方
4.1 確率とは何か
4.2 確率モデル
4.3 予測とは何をしているか
4.4 Titanic を確率モデルで表す
4.5 探究:予測と占いの違い
第5章:データの前処理と特徴量設計
5.1 欠損値とは
5.2 外れ値
5.3 数値化の考え方
5.4 カテゴリ変数の数値化
5.5 Titanic データの前処理
5.6 例題:欠損処理
5.7 演習:性別を数値に変換
5.8 応用:特徴量エンジニアリング ― 敬称や家族数から「新たな変数」を生む
5.9 実践:変数の相関関係を確認する(ヒートマップの活用)
第6章:関数としての機械学習
6.1 生存 = f(x) の意味
6.2 多変数関数
6.3 入力と出力
6.4 学習とは何か
6.5 訓練データとテストデータ
6.6 探究:過学習(オーバーフィッティング)の恐怖 ― 「カンニング」するAIを防ぐ
第6.5章:ロジスティック回帰の数学
6.5.1 なぜ直線ではなく S 字なのか
6.5.2 シグモイド関数
6.5.3 ロジスティック回帰の数式
6.5.4 対数尤度と最尤推定
6.5.5 損失関数
6.5.6 勾配降下法
6.5.7 学習が収束するとは何か
第7章:ロジスティック回帰モデルの実装
7.1 ロジスティック回帰とは何か
7.2 Titanic を学習させる
7.3 モデルの評価
7.4 精度(Accuracy)とは何か
7.5 例題:生存確率を計算しよう
7.6 演習:モデル精度を求めよう
7.7 精度だけではない評価指標 ― 混同行列、適合率、再現率、F1スコア
7.8 実践:交差検証(Cross-Validation) ― データの分割を変えて「真の実力」を測る
第8章:モデルの解釈と社会
8.1 回帰係数の意味
8.2 係数と社会構造
8.3 どの変数が重要か
8.4 探究:説明できる AI とは
第9章:決定木モデル
9.1 If 文で書かれた予測
9.2 決定木の構造
9.3 Titanic で決定木を作る
9.4 ルールとして読む AI
9.5 応用:ハイパーパラメータ調整 ― 木の深さを変えると予測はどう変わるか
第10章:アンサンブル学習
10.1 ランダムフォレストとは
10.2 精度を高める仕組み
10.3 Titanic で精度を比較する
10.4 精度と説明性の違い
10.5 比較:手法の使い分け基準 ― なぜこのモデルを選ぶのか?
10.6 探究:AI の公平性 ― 特定の属性への偏りが生む倫理的課題
第11章:予測装置を作る
11.1 入力項目の設計(UI/UX の視点)
11.2 生存確率を返すバックエンドの仕組み
11.3 簡易 Web アプリ化(Streamlit 等の活用)
11.4 終章:Titanic の次に挑むべき課題 ― 現代のビジネス・社会データへの応用