教師あり学習
教師あり学習は、学習データに正解を与えた状態で学習させる手法である。正解・不正解が明確な問題の解決に利用され、回帰や分類のアルゴリズムが代表的である。学習は学習、認識・予測の2段階で行われる。
-
学習:正解のデータを用いてルールやパターンを学習する
-
認識・予測:新しく入力されたデータに対して、学習したデータを用いて認識・予測する
教師あり学習では、予測したい対象を目的変数、予測に利用するデータを説明変数と呼ぶ。表形式のデータでは説明変数の各列を特徴量と呼ぶことが多い。
目的変数と説明変数の例
| 分野 | 説明変数(特徴量) | 目的変数(ラベル) |
|---|---|---|
| 売上予測 | 広告費、価格、季節 | 売上金額 |
| 医療診断 | 年齢、血圧、血糖値 | 病気の有無(Yes/No) |
| 顧客分析 | 年齢、購入履歴、居住地 | 会員ランク(Bronze/Silver/Gold) |
| 不動産 | 広さ、築年数、駅までの距離 | 家賃 |
| マーケティング | メール開封率、クリック率 | 購入有無 |
代表的なアルゴリズムと用途
線形回帰
説明変数から目的変数の連続値を予測する。
例:売上予測
ロジスティック回帰
二値分類の確率を予測する。
例:メール購買予測
決定木
木構造で条件分岐を行い、分類や回帰を実施。説明が容易
ランダムフォレスト
複数の決定木を組み合わせ、高精度化するアンサンブル学習
アダブースト
前のモデルの誤分類に重みを付け順次改善するブースティング手法
サポートベクトルマシン(SVM)
クラス間の境界を最大マージンで決定し分類
k近傍法(k-NN)
周囲のデータの多数決で分類、平均値で回帰にも利用
ニューラルネットワーク(NN)
入力層・中間層・出力層で構成。非線形問題に対応可能
目的関数(損失関数)
モデルの予測精度を評価する指標
回帰問題
平均二乗誤差(MSE)
分類問題
交差エントロピー誤差(Cross-Entropy Loss)
教師なし学習(Unsupervised Learning)
正解データを与えず、データの特徴やパターンを発見する手法。主にクラスタリングと次元削減に分けられる。
クラスタリング
階層型クラスタリング
データを1クラスタずつ開始し、距離が近いものから順に結合。樹形図(デンドログラム)で可視化
群平均法
クラスタ間距離の平均を用いて結合
ウォード法
分散が最小になるようクラスタを形成
非階層型クラスタリング(k-means法)
クラスタ数を事前に指定し、中心点の更新を繰り返してクラスタを形成
次元削減
主成分分析(PCA)
多次元データを少数の主成分に変換。傾向把握や次元削減に有効
t-SNE
高次元データを低次元に圧縮し、複雑な構造を可視化
UMAP
t-SNEより高速で大規模データにも対応
Autoencoder
ニューラルネットでデータを圧縮・復元。特徴抽出や次元削減に利用
強化学習(Reinforcement Learning)
行動を通して経験し、報酬を最大化する学習の仕組み
犬のしつけを例に、各単語について解説していく
エージェント(agent)
意思決定・行動の主体
例:犬
環境(environment)
エージェントと相互作用する対象
例:飼い主、家、散歩コースなど、犬が行動する世界
状態(state)
エージェントの置かれた状況
例:犬がいま置かれている状況
行動(action)
エージェントの選択
例:犬が選ぶ行動
報酬(reward)
行動の即時的な良さ(即時報酬)
例:犬が行動した結果もらえるごほうび
方策(policy)
エージェントの行動選択ルール
例:犬が「どんな状況でどの行動を選ぶか」のルール
収益(return)
累積報酬
例:行動を続けた結果として得られる、報酬の合計
状態価値(state value)
ある状態から方策に従ったときの収益の期待値
例:特定の状況にいると、どれだけ良いこと(報酬)が期待できるか
行動価値(action value)
ある状態での特定行動を起点とした収益の期待値
例:特定の状況で、特定の行動を選んだときの期待収益
モデルの選び方
-
予測精度の高さ
ニューラルネットワーク、SVM、ランダムフォレスト -
計算時間の短さ
ナイーブベイズ、PCA -
出力結果の分かりやすさ(説明可能性)
線形回帰、決定木、ランダムフォレスト、k-means、ロジスティック回帰
用途に応じて、精度・速度・説明性のバランスを考慮して選択する
統計の手法について(参考)
平均・分散・正規分布などの統計概念は、モデル設計や予測結果の解釈に役立つ
平均
いくつかの数値や量をすべて足し合わせて、その個数で割ることで求められる値のこと。
例:
状況:クラスの数学テストの点数
- 生徒5人の点数:70, 80, 90, 60, 100
- 平均の計算:
70+80+90+60+100=400
400÷5=80
-
意味:
- 「クラス全体としてどのくらいの点数だったか」の目安になる
- 機械学習でいうと、予測モデルの誤差を評価するときに「基準」として使える
機械学習とのつながり:
- 回帰モデルでは、実際の値と予測値の差(誤差)を平均して、モデルの精度を数値化する
- 例:平均二乗誤差(MSE)=「予測値と実際の点数のズレの平均の2乗」
分散
分散とは数値データのばらつき具合を表すための指標のこと。
- 5人のテスト点数:70, 80, 90, 60, 100
各データと平均の差を二乗
(70−80)^2=100
(80−80)^2=0
(90−80)^2=100
(60−80)^2=400
(100−80)^2=400
二乗の平均をとる(分散)
(100+0+100+400+400)÷5=200
標準偏差
偏差とは平均値からの差を表す。標準偏差は「標準的な偏差」=「標準的な平均値との差」と訳せる。つまり、「このデータの偏差(平均値からの差)が標準的にこれぐらいですよ。」ということを表す。
標準偏差が大きい=平均値から離れているデータが多い=データのばらつき具合が大きい
標準偏差が小さい=平均値から近いデータが多い=データのばらつき具合が小さい
例:
分散の平方根をとる
\sqrt{200}≒14.14
正規分布
正規分布には以下のような基本的な性質がある
- 平均値と最頻値と中央値が一致する。
- 平均値を中心にして左右対称である。(直線x=μに関して対称)
- x軸が漸近線である。
- 分散(標準偏差)が大きくなると、曲線の山は低くなり、左右に広がって平らになる。分散(標準偏差)が小さくなると、山は高くなり、より尖った形になる。
標準化
平均 0、標準偏差 1 のスケールに変換すること。元の値が 平均よりどれだけ高いか/低いか、それが 標準偏差の何倍分かを数値で表せるようになる。
これは「90点は平均より 1標準偏差分高い」という意味。
正規化
データのスケール(値の大きさの範囲)を整えるための処理のこと。特に 0〜1 の範囲に収める方法(Min-Max正規化) がよく使われる。

| 元の点数 | 計算 | 正規化後 |
|---|---|---|
| 70 | (70-60)/40 | 0.25 |
| 80 | (80-60)/40 | 0.50 |
| 90 | (90-60)/40 | 0.75 |
| 60 | (60-60)/40 | 0.00 |
| 100 | (100-60)/40 | 1.00 |
元のデータ
x が最小値なら → 0
x が最大値なら → 1
それ以外は 0〜1 の範囲の値になる
参考URL





