離散データが“連続的な意味”を持ち始める
機械学習(ML)はしばしば「高度な数学」「深いネットワーク構造」といった難しいイメージがありますが、その根っこにある考え方はとてもシンプルです。
一言でいえば、
大量のデータの背後にある“連続的な規則”を推定すること。
そしてこの考え方が、そのまま統計の世界とつながっています。
個々のデータはバラバラだが、必ず“傾向”がある
たとえば、5億人のユーザーに作品の評価をしてもらうとします。
• A という洋画が好きで
• B というスポーツをよく見て
• C というアニメを高評価する
このように、人それぞれですが、大規模に見ると必ずパターンが現れます。
これが ML が掴もうとしている “傾向(パターン)” です。
現実のデータは“離散的で、バラバラで、欠損が多い”
実際のユーザー評価は、
• 点数 1〜5 のような 離散値
• 気分やランダム性による ばらつき
• 見ていない作品は 未評価(欠損)
といった、かなり“雑味の多い”データです。
このままでは、背後にある規則を読み解くのは難しい。
しかし大量に集まると、“離散データが連続的な意味を持ち始める”
ここが ML と統計を結びつける一番重要なポイントです。
離散的でバラバラなデータでも、大量に集まると
それらを生み出している “連続的なパターン” が浮かび上がります。
たとえば:
• アクション好きな人はアクション映画に高得点をつけやすい
• ロマンス好きな人は恋愛ドラマをよく見る
• あるジャンル A が好きならジャンル B も好きになりやすい
といった、ゆるやかな曲線(=連続的な関数)のような傾向が見えてくる。
これが ML にとって扱いやすい“形”になります。
この“連続的な形にする作業”が、まさに モデリング(Modeling)
観測されたデータをそのまま扱うのではなく、
そのデータを生み出している連続的なルール(モデル)を推定する。
この作業を モデリング(modeling) と呼びます。
ML の “モデル(model)” の語源そのものがこれです。
データがバラバラでも、
• その背後にある構造を
• なめらかな関数として
• 数学的に表現する
これが ML の基本姿勢であり、統計モデリングと同じ発想。
そして「連続的なルール=確率分布」を学習するのが ML
連続的なパターンは、数学的には
確率分布(probability distribution) として表せます。
• アクション映画を高く評価する“確率”が高い人
• ロマンスはあまり見ない“確率”が高い人
• 特定ジャンルの組み合わせを好む“確率”が高い集団
といった形で表現できます。
つまり ML は、
離散的なデータから背後にある“連続的な確率分布”を推定する技術と言える。
これが、ML が統計と深く結びついている理由です。