More than 3 years have passed since last update.

【数理考古学】無限遠点(Infinity)としての正規分布と分散概念の歴史

Last updated at 2021-06-28Posted at 2020-09-26

2020年09月26日初投稿
2021年06月14日 Tex対応

例えば「目が視える」なる正常状態がその定義に沿った比較的均質な集団を形成するのに対し「目が視えない」異常状態の見定めはしばしば(多変量解析が必要不可欠となる)多様な評価次元と程度の寡多を内包する複雑空間(認識範囲外を跋扈する絶対他者)だったりします。
多変量解析のための基礎知識|データ分析基礎知識

実際には両者は表裏一体の関係にある訳だが「距離1と次元数1の抽出→再帰的手続きによる2以降/0以下の数字の補完と数直線の構成」といった数理上の定義はどうしてもこれを乱暴に二分する傾向を含まざるを得ない。その結果として無限遠点(Infinity)への到達不可能問題も生じてしまう。
【無限遠点を巡る数理】自然数・整数・有理数の概念の再整理

我々の自然な時空間認識において概ね自動的に正常/異常の判定が為されている判断基準ですらこの有様なのですから、後は押してしるべし。
障害のある人を理解するためのガイドブック

デカルト座標系がN次元の確率変数(Random Variable=個別観測データの集合)に対応する確率密度(Probability Density=各区画における個別観測データの出現頻度)としてのみ確認され、さらに偏差値認識に結び付けられる世界。

ガウス(Carolus Fridericus Gauss, 1777年~1855年）がヤコブ・ベルヌーイ(Jakob Bernoulli、1654年~1705年)の大数の弱法則 (WLLN: Weak Law of Large Numbers) や、アブラーム・ド・モアブル（Abraham de Moivre, 1667年~1754年）の中心極限定理（CLT=Central Limit Theorem）の研究とは全く異なった道筋で有名な正規分布（Normal Distribution）の公式に到達しましたが、実はそもそも天文学上の測定誤差の検証手段としてこれを導入したガウスの場合、問題意識の抱え方自体が違っていたのです。
【初心者向け】指数・対数関数の発見とそれ以降の発展について。

天体観測の結果にはたった一つの恒常普遍の正解しか存在しない筈なのに、実際の観測結果は必ず様々な程度と尺度で測定誤差を含んでしまう。もしかしたら観測を無限に繰り返してその結果を正しく集計すれば「たった一つの恒常普遍の正解」に辿り着くのかもしれないが、その実施は不可能である。
ところで実際の測定誤差は「たった一つの恒常普遍の正解」からの解離が激しくなるほど出現分度も小さくなる。この勾配を研究すれば「たった一つの恒常普遍の正解」を相応には絞り込む事が可能な筈である。
これがガウスにとっての観測値分断問題であったが、ベルヌーイやド・モアブルも別に「正規分布=サンプル数を無限大に増やし続けると数多くの分布の収束先となる無限遠点としての分布」なる現代の普遍分散概念に到達していた訳ではなかったのである。

我々の自然な時空間認識でいうと「実際の事故の背後で無数に起こっているヒヤリハット案件」といった判断基準と関係してくる認識。ただし天体観測の分野に両者を峻別する基準は存在せず、従ってどこまでも連続的に扱う事が可能であり、これが連続的確率変数(Continuous Random Variable)の世界となります。歴史のこの時点で既に確率変数分布の頂点位置が平均値(Mean)、分布の勾配が分散(Variance)なるパラメーター(Parameter)の値によって調整可能な数式自体は現れましたが、まだ後世における分散(Variance)の概念自体は発明されていない点に注目。彼にとって「たった一つの恒常普遍の正解」は点としてのみ存在するだけで、その測定誤差の散らばり具合が確率変数の分布、それぞれの誤差の集散具合(誤差が大きいほど出現頻度も少ない)が確率密度という認識だったのです。
【初心者向け】正規分布（Normal Distribution）とは何か？

この世界観においては「デカルト座標(Cartesian Coordinate System)=互いに直交するN次元評価軸」は例えば「たった一つの恒常普遍の正解」を原点とする確率変数(Random Variable=個別測定結果の集合)の分布濃度(Random Variable=面積)、すなわち確率密度(Probability Density=測定区画ごとの個別測定結果の出現頻度)を各評価次元における距離の配置の表現方法として用いられる。それがいわゆる確率密度関数(PDF=Probability Density Function）。
またこの関数を負の無限大からx(極限値は正の無限大)にかけて定積分(Definite integral)すると「たった一つの恒常普遍の正解」を中央値0.5とし0(1/Inf)から1(Inf/1)にかけて確率変数を推移させた場合の確率密度(個別観測結果の出現頻度)の累積過程が累積分布関数(CPD=Cumulative Probability Distribution)で表される。

ところで我々の自然な時空間認識は、しばしば確率密度関数を等差数列、累積分布関数を等比数列に結び付けて連続的に考えたりもします(「無限遠点への到達不可能性」と結び付け、どちらかというと努力が中々実らない事を嘆くニュアンスで)。まぁ実際に以下の関係もある訳ですが…
等差数列 -Wikipedia
等比数列 -Wikipedia

$1=1^n$(何乗しても1は1。観測値分断問題)
$1+1=1*2=2^1=2$
$(1+1)+(1+1)=2*2=2^2=4$
$((1+1)+(1+1))+((1+1)+(1+1))=222=2^3=8$
$\infty=\infty+n=\infty-n=\infty×n=\frac{\infty}{n}=\infty^n$(どんな操作をしてもInf(inity)はInf(inity)のまま。観測値分断問題)

ここではむしろ受験戦争や実社会における競争を通じて「個別観測データは概ね平均に集中し外れ値ほど出現分度も小さくなる」代表例として偏差値空間的認識が浸透してきた歴史に注目すべきでしょう。
偏差値とは何？偏差値の意味と求め方・計算方法をわかりやすく解説！

その背景には伝統的身分制社会を否定し「(階級間や男女間の格差を最小限とする事で幸福の総量を最大化しようとする)最大多数個人の最大幸福(the greatest happiness of the greatest number)」原理の実現を目指したコンドルセ侯爵（Marie Jean Antoine Nicolas de Caritat, marquis de Condorcet, 1743年~1794年）やジョン・スチュアート・ミル（John Stuart Mill、1806年~1873年）の様な古典的自由主義(Classical Liberalism)に立脚する数理社会学者達(Mathematical Sociologists)の不断の努力が存在した。
ニコラ・ド・コンドルセ - Wikipedia
ジョン・スチュアート・ミル - Wikipedia
彼らはおそらく既に正規分布が(たった一つの正解に対する誤差の集合ではなく)その勾配自体が概ね実際の現実の分布に対応していると考える様になっていた。しかしまだまだそれを(多変量解析が必要不可欠となる)多様な評価次元と程度の寡多を内包する複雑空間(認識範囲外を跋扈する絶対他者)と捉える段階には至っていなかったのである。そもそも、やはり分散概念の発明前だった。
アートの大量生産！ウォーホルのファクトリーとポップアート

こうした流れを「統計学の父」にして「分散(Variance)概念の発明者」たるロナルド・フィッシャー(Sir Ronald Aylmer Fisher, 1890年~1962年)が一つに束ねた訳ですが、その際に古典的数理学者が伝統的に抱えてきた「分散に対する評価を代表的一次元基準に集約してある種の測定誤差として扱おうとする」認識上の欠陥も継承してしまったのです。

科学史から最小二乗法 (回帰分析) を説明してみる

現在使われている回帰分析 (regression analysis) と言う言葉を最初に使ったのはゴルトン(Francis Galton, 1822年～1911年)で, 生物学者だった彼は軌道ではなく生物が個体ごとに身長や体重に差があるのはなぜか, ということに関心を持った. 生物の身長のデータはたいていベル型の曲線, つまり正規分布を描く. 彼は以下のような式に最小二乗法を適用した.

(子どもの身長)=a+b(親の身長)

このとき, たとえば親が平均値から外れた高身長・低身長でも, 子どもはより平均値に近い身長になる傾向を発見した. さらにゴルトンは身長以外の特徴や, 人間以外の生物についても親世代と子世代の特徴を比較し, 同様の傾向があることを発見した. この現象をゴルトンは「平均への回帰」と呼び, 「生物は世代を重ねる毎にみな平均的な形質になる」と考えた.

ガウス以降, 観察データのばらつきは観察時の誤差によるものだと考えられていた. しかし人間の身長が個人で異なるのは明らかに観察の誤差では説明できず, なぜかという問題はずっと議論されてきた. ゴルトンの研究による重要な転換点は, 確率分布を導入してこの問題を説明したこと, そして相関係数という分析の切り口をもたらしたことにある. この研究以降, 最小二乗法を応用して2つの変数の関係を分析することを「回帰分析」と呼ぶようになった. ガウスが最小二乗法を開発した当初の目的は誤差を最小化した回帰式に基づいてy=a+bxのyの予測値を計算することだったが, ここでは係数の値にむしろ関心が映っている. 係数bはいわば2変数の相関係数の大きさを表し,さらに十分な根拠があるなら, これは右辺のxの変化によって左辺yがbだけ変化するという「因果効果」を表すと解釈できる。

英国の人類学者、統計学者、探検家、初期遺伝学者フランシス・ゴルトン（Sir Francis Galton、1822年~1911年）はサラブレッドの家系出身である。というか、そもそも彼こそがまさに1883年に優生学なる言葉を初めて用い「遺伝的天才(Hereditary Genius,1869年)の中で「才能はほぼ遺伝によって受け継がれる。より良い社会を実現する為、人類も家畜の品種改良の様に積極的に人為選択すべき」と論じ、その概念を競走業界に伝えた本家本元だったりする。
母方の祖父は医者・博物学者のエラズマス・ダーウィンで、進化論で知られるチャールズ・ダーウィンは従兄。彼の「種の起源(1859年)」出版に刺激を受け、遺伝の問題を統計学で解決しようと思い立ち、研究を開始した。従兄のダグラス・ゴルトンの勧めで大学卒業後世界各地を旅し、アフリカ探検記を著す。探検の成果は英国とフランスの地理学会から表彰された。このダグラス・ゴルトンがフローレンス・ナイチンゲールの従姉妹と結婚した関係からナイチンゲールより大学への統計学講座寄付の相談を受け、後年、自らが実現することになる。まさしくサラブレッドによる、サラブレッドの為の、サラブレッドの人生。
統計学分野では、相関係数の概念の提唱に加え「(後にメンデルの法則に駆逐された)ゴルドンの法則」の中で「平均への回帰」と呼ばれる現象について初めて触れ、これが回帰分析技法の成立に繋がったとされる。
1904年にユニバーシティ・カレッジ・ロンドンにゴルトン研究室を設立し、死去の直前の1907年に大学に遺産を寄贈し、優生学と統計学の教授職を設立した。初代教授には教え子で共同研究者でもあったカール・ピアソンが就任し、エゴン・ピアソン、イェジ・ネイマン、ロナルド・フィッシャーと継がれていく。ゴルトン研究室にはライオネル・ペンローズ、J・B・S・ホールデン、シェイラ・メイナード＝スミス（ジョン・メイナード＝スミス夫人）、セドリック・スミス、W.D.ハミルトン、ジョージ・プライスらが所属していたことがあり、2000年に閉鎖されるまで人類遺伝学と統計学、数理生物学の発展の原動力であり続けた。

こうした方向性を修正しようとする試みが、最近何かと話題になる事が多い(多変量解析による、それぞれの問題意識ごとの評価次元確定から出発する)確率モデル論となる訳です。
統計的モデル選択 - データが選ぶ良いモデルとは？

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up