手探りしてみる CV/ ML/ NN Advent Calendar 2025

手探りしてみる CV/ ML/ NN: 2日目 MLが統計とつながる理由

Last updated at 2025-12-24Posted at 2025-11-29

離散データが“連続的な意味”を持ち始める

機械学習（ML）はしばしば「高度な数学」「深いネットワーク構造」といった難しいイメージがありますが、その根っこにある考え方はとてもシンプルです。
一言でいえば、

大量のデータの背後にある“連続的な規則”を推定すること。
そしてこの考え方が、そのまま統計の世界とつながっています。

たとえば、5億人のユーザーに作品の評価をしてもらうとします。

•	A という洋画が好きで
•	B というスポーツをよく見て
•	C というアニメを高評価する

このように、人それぞれですが、大規模に見ると必ずパターンが現れます。
これが ML が掴もうとしている “傾向（パターン）” です。

実際のユーザー評価は、

•	点数 1〜5 のような 離散値
•	気分やランダム性による ばらつき
•	見ていない作品は 未評価（欠損）

といった、かなり“雑味の多い”データです。
このままでは、背後にある規則を読み解くのは難しい。

ここが ML と統計を結びつける一番重要なポイントです。
離散的でバラバラなデータでも、大量に集まると
それらを生み出している “連続的なパターン” が浮かび上がります。

たとえば：

•	アクション好きな人はアクション映画に高得点をつけやすい
•	ロマンス好きな人は恋愛ドラマをよく見る
•	あるジャンル A が好きならジャンル B も好きになりやすい

といった、ゆるやかな曲線（＝連続的な関数）のような傾向が見えてくる。
これが ML にとって扱いやすい“形”になります。

観測されたデータをそのまま扱うのではなく、
そのデータを生み出している連続的なルール（モデル）を推定する。
この作業をモデリング（modeling）と呼びます。
ML の “モデル（model）” の語源そのものがこれです。

データがバラバラでも、

•	その背後にある構造を
•	なめらかな関数として
•	数学的に表現する

これが ML の基本姿勢であり、統計モデリングと同じ発想。

連続的なパターンは、数学的には
確率分布（probability distribution）として表せます。

•	アクション映画を高く評価する“確率”が高い人
•	ロマンスはあまり見ない“確率”が高い人
•	特定ジャンルの組み合わせを好む“確率”が高い集団

といった形で表現できます。

つまり ML は、

離散的なデータから背後にある“連続的な確率分布”を推定する技術と言える。
これが、ML が統計と深く結びついている理由です。