0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

手探りしてみる CV/ ML/ NN: 2日目 MLが統計とつながる理由

Last updated at Posted at 2025-11-29

離散データが“連続的な意味”を持ち始める

機械学習(ML)はしばしば「高度な数学」「深いネットワーク構造」といった難しいイメージがありますが、その根っこにある考え方はとてもシンプルです。
一言でいえば、

大量のデータの背後にある“連続的な規則”を推定すること。
そしてこの考え方が、そのまま統計の世界とつながっています。

個々のデータはバラバラだが、必ず“傾向”がある

たとえば、5億人のユーザーに作品の評価をしてもらうとします。

•	A という洋画が好きで
•	B というスポーツをよく見て
•	C というアニメを高評価する

このように、人それぞれですが、大規模に見ると必ずパターンが現れます。
これが ML が掴もうとしている “傾向(パターン)” です。

現実のデータは“離散的で、バラバラで、欠損が多い”

実際のユーザー評価は、

•	点数 1〜5 のような 離散値
•	気分やランダム性による ばらつき
•	見ていない作品は 未評価(欠損)

といった、かなり“雑味の多い”データです。
このままでは、背後にある規則を読み解くのは難しい。

しかし大量に集まると、“離散データが連続的な意味を持ち始める”

ここが ML と統計を結びつける一番重要なポイントです。
離散的でバラバラなデータでも、大量に集まると
それらを生み出している “連続的なパターン” が浮かび上がります。

たとえば:

•	アクション好きな人はアクション映画に高得点をつけやすい
•	ロマンス好きな人は恋愛ドラマをよく見る
•	あるジャンル A が好きならジャンル B も好きになりやすい

といった、ゆるやかな曲線(=連続的な関数)のような傾向が見えてくる。
これが ML にとって扱いやすい“形”になります。

この“連続的な形にする作業”が、まさに モデリング(Modeling)

観測されたデータをそのまま扱うのではなく、
そのデータを生み出している連続的なルール(モデル)を推定する。
この作業を モデリング(modeling) と呼びます。
ML の “モデル(model)” の語源そのものがこれです。

データがバラバラでも、

•	その背後にある構造を
•	なめらかな関数として
•	数学的に表現する

これが ML の基本姿勢であり、統計モデリングと同じ発想。

そして「連続的なルール=確率分布」を学習するのが ML

連続的なパターンは、数学的には
確率分布(probability distribution) として表せます。

•	アクション映画を高く評価する“確率”が高い人
•	ロマンスはあまり見ない“確率”が高い人
•	特定ジャンルの組み合わせを好む“確率”が高い集団

といった形で表現できます。

つまり ML は、

離散的なデータから背後にある“連続的な確率分布”を推定する技術と言える。
これが、ML が統計と深く結びついている理由です。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?