Titanicで学ぶデータサイエンス ― 統計から機械学習の実装まで

機械学習

Posted at 2026-01-02

第0章：導入 ― データで世界を見る

0.1 Titanic データセットとは
0.2 データで「過去」を読むとはどういうことか
0.3 本書の構成と学び方
0.4 データ分析の学習ロードマップ
0.5 探究：なぜ Titanic は教材として優れているのか

第1章：データと変数

1.1 データとは何か
1.2 個体と変数
1.3 質的変数と量的変数
1.4 Titanic データの変数一覧
1.5 変数が表す社会的意味
1.6 例題：変数を分類しよう
1.7 演習：新しい変数を考えてみよう
1.8 探究：データを見る前の「仮説」構築 ― 誰が生き残ったと予想するか？

第2章：度数分布と生存率

2.1 度数分布表
2.2 ヒストグラム
2.3 割合と生存率
2.4 Titanic 全体の生存率
2.5 統計的な見方の基本
2.6 例題：生存率を求めよう
2.7 演習：男女別生存率
2.8 応用：箱ひげ図（Box Plot）で外れ値と分布の「歪み」を捉える

第3章：2変数の関係

3.1 クロス集計表
3.2 条件付き確率
3.3 性別と生存率
3.4 年齢と生存率
3.5 階級と生存率
3.6 例題：条件付き生存率
3.7 演習：年齢階級別生存率

第4章：確率と予測の考え方

4.1 確率とは何か
4.2 確率モデル
4.3 予測とは何をしているか
4.4 Titanic を確率モデルで表す
4.5 探究：予測と占いの違い

第5章：データの前処理と特徴量設計

5.1 欠損値とは
5.2 外れ値
5.3 数値化の考え方
5.4 カテゴリ変数の数値化
5.5 Titanic データの前処理
5.6 例題：欠損処理
5.7 演習：性別を数値に変換
5.8 応用：特徴量エンジニアリング ― 敬称や家族数から「新たな変数」を生む
5.9 実践：変数の相関関係を確認する（ヒートマップの活用）

第6章：関数としての機械学習

6.1 生存 = f(x) の意味
6.2 多変数関数
6.3 入力と出力
6.4 学習とは何か
6.5 訓練データとテストデータ
6.6 探究：過学習（オーバーフィッティング）の恐怖 ― 「カンニング」するAIを防ぐ

第6.5章：ロジスティック回帰の数学

6.5.1 なぜ直線ではなく S 字なのか
6.5.2 シグモイド関数
6.5.3 ロジスティック回帰の数式
6.5.4 対数尤度と最尤推定
6.5.5 損失関数
6.5.6 勾配降下法
6.5.7 学習が収束するとは何か

第7章：ロジスティック回帰モデルの実装

7.1 ロジスティック回帰とは何か
7.2 Titanic を学習させる
7.3 モデルの評価
7.4 精度（Accuracy）とは何か
7.5 例題：生存確率を計算しよう
7.6 演習：モデル精度を求めよう
7.7 精度だけではない評価指標 ― 混同行列、適合率、再現率、F1スコア
7.8 実践：交差検証（Cross-Validation） ― データの分割を変えて「真の実力」を測る

第8章：モデルの解釈と社会

8.1 回帰係数の意味
8.2 係数と社会構造
8.3 どの変数が重要か
8.4 探究：説明できる AI とは

第9章：決定木モデル

9.1 If 文で書かれた予測
9.2 決定木の構造
9.3 Titanic で決定木を作る
9.4 ルールとして読む AI
9.5 応用：ハイパーパラメータ調整 ― 木の深さを変えると予測はどう変わるか

第10章：アンサンブル学習

10.1 ランダムフォレストとは
10.2 精度を高める仕組み
10.3 Titanic で精度を比較する
10.4 精度と説明性の違い
10.5 比較：手法の使い分け基準 ― なぜこのモデルを選ぶのか？
10.6 探究：AI の公平性 ― 特定の属性への偏りが生む倫理的課題

第11章：予測装置を作る

11.1 入力項目の設計（UI/UX の視点）
11.2 生存確率を返すバックエンドの仕組み
11.3 簡易 Web アプリ化（Streamlit 等の活用）
11.4 終章：Titanic の次に挑むべき課題 ― 現代のビジネス・社会データへの応用

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up