以下の投稿ではダミー変数と決定木理論について「最終分岐数より必ず一つ少ない数で構成される分岐条件」に注目しました。
【Token】カテゴリー認識問題①ダミー変数と決定木
決定木理論がその後ランダムフォレスト法の様な並列処理方面に向かうのに対し、ダミー変数のOne Hot表現は(回帰学習の結果を残差平方和を用いて評価する誤差関数の様に)分類学習の結果を交差エントロピー誤差を用いて評価する際の様に、ある種のマスキングとして機能します。
one-hot表現とは
Step1.基礎編、27.回帰分析、27-5.決定係数と重相関係数
交差エントロピー誤差をわかりやすく説明してみる
多クラス交差エントロピー誤差関数とソフトマックス関数,その美しき微分
ChatGPTに質問「交差エントロピー誤差で対数を使う理由について教えてください」
交差エントロピー誤差で対数を使う理由は、確率分布間の類似性を効果的に測定し、特に確率が非常に小さい場合の誤差を強調するためです。具体的には、次のような理由があります。
対数の特性による正確な測定
対数は、値が小さいほどその変化を強調します。これは、交差エントロピーが本来、予測確率が真の分布からどれだけ外れているかを測る指標であるため、小さな確率のミスをより大きな誤差として反映させる必要があります。対数を使うことで、誤差が小さな確率に敏感になり、モデルが正しい確率分布に収束しやすくなります。負の対数尤度と関連
交差エントロピーは、モデルが真の分布にどれだけ適合しているかを評価するために、負の対数尤度(Negative Log-Likelihood)と深く関係しています。対数を使うことで、尤度の積が累積されるのではなく、尤度の和として扱われます。これにより、計算が容易になり、数値的に安定した誤差関数が得られます。最適化の容易さ
最適化アルゴリズム(例:勾配降下法)を適用する際、対数を使うことで得られる誤差関数の形状が滑らかになり、勾配が計算しやすくなります。これにより、学習が安定し、局所的な最適解を見つけやすくなります。確率値の正規化と整合性
確率分布の総和が1であるため、対数を使うことで、モデルの出力が確率として解釈されることを保証します。また、交差エントロピー誤差を用いることで、最適化が確率値の正規化を促進し、モデルがより確率的に一貫性のある出力を生成するようになります。まとめ
対数を使うことにより、交差エントロピー誤差は、確率分布間の違いを効果的に評価し、特に重要な小さな確率の違いを強調します。この性質により、確率的な予測モデルをトレーニングする際の重要な誤差関数として、交差エントロピー誤差が広く使用されています。
- 「0ne Hot表現のマスキング性」…要するに交差エントロピー誤差を用いた損失計算においては、例えば(犬(1,0,0,0),猫(0,1,0,0),猿(0,0,1,0),馬(0,0,0,1))なる分類について「馬である(0,0,0,1)」なる正解と(0.2,0.1,0.1,0.6)なる学習結果が比較される展開をいう。
ところで以前の投稿では評価尺度における分類の性質について、以下の様に考察しています。
【数学溢れ話】【Token】統計尺度概念の再確認
- 天然に存在する分類概念は、すべからく(猫,犬,猿,その他)といった具合に任意の数の実元(Real Elements)と最後の1個の虚元(Imaginal Elements)すなわち「最外縁の補集合=その他」によって構成されている。同時にそれは入れ子状態を許すが、例えばオブジェクト志向プログラミングにおけるクラス設計などでは、ここで「関心の分離(絶縁)」がきちんとした形で盛り込めないとカプセル化による疎結合高凝集が実現出来ず密結合(コーディングにおけるスパゲティ状態)が発生してしまう。
関心の分離を意識した名前設計で巨大クラスを爆殺する - その一方で(ダミー変数の様に)尺度として利用される分類は(猫,犬,猿)の様に(閉世界仮説を成立させるべく)この虚元が空集合として構成されていなければならない。
【DB】閉世界仮説と正規化理論 - ここに登場する「虚元(Imaginal Elements)」なる独自概念は、おそらく最終的には多分ラッセルのパラドックスを公理主義的集合論によって解消される様な内容なのだが、そちらのロジックで語れるほど学習が進んでないので、とりあえず方便として独自概念として定義した。
ラッセルのパラドクス
そう、私個人としては、むしろ以下の方面との関連に関心があるのです。
- 各辺長が1のN次元立方体における超立方対角線のユークリッド距離は$\sqrt{N}$で、高さないしは幅が1で長さがNの長方形の平方対角線のユークリッド距離は$\sqrt{N^2+1}$で、両者は無限遠点において交わる(全体として単極球面体(monopolar sphere)を構成する)。
【数理溢れ話】【Token】「1」を巡る冒険
- 任意の一次元ユークリッド距離の値が担保される為には直交評価軸による乗法単位元「1]の援用が不可欠。それが表面上見当たらない1次元において、この直交評価軸は虚数次元に送り込まれていると考えられる(実軸(Real Axis)=相加平均空間に対する虚軸(Imaginal Axis)=相乗平均空間.全体として双極紡錘体(Bipolar Spindle)を構成する)。
【数理溢れ話】「特定生物が抱える計数的直感能力の限界」からの出発
この二つのアプローチをどう統合するかが今回の投稿の課題となります。
N進数の極限としての無限進数の登場
N進数の概念から出発します。一番の代表例は10進数ですね。
234.56=2*100+3*10+4+5*\frac{1}{10}+6*\frac{1}{100}
=2*10^{+2}+3*10^{+1}+4*10^{±0}+5*10^{-1}+6*10^{-2}
抽象化すると以下となり、実際にカウントするiの範囲、すなわち有効桁数も測度論(Measure Theory)における測度(Measure)b-aの一種(上限bが自明の場合として自然に定まり、下限aが有効桁数以下の切り捨てによって定まる半開集合)として扱う事が出来そうです。測度論的に表現するとN進数とは「各桁が一つ下の桁を構成する元の測度和によって被覆される連鎖によって成立している」という事です。
A_{(N)}=\sum_{i=-∞}^{+∞}a_iN^i(a_i∈(0,1,…,N-1))
Wikipedia「測度論(Measure Theory)」
数学の実解析における一分野で、測度とそれに関連する概念(完全加法族、可測関数、積分等)を研究する。ここで測度(measure)とは面積、体積、個数といった「大きさ」に関する概念を精緻化・一般化したものである。よく知られているように積分は面積と関係があるので、積分(厳密にはルベーグ積分)も測度論を基盤にして定式化・研究できる。
また、測度の概念は確率を数学的に定式化する際にも用いられるため(コルモゴロフの公理)、確率論や統計学においても測度論は重要である。たとえば「サイコロの目が偶数になる確率」は目が1,…,6になるという6つの事象の集合の中で、2,4,6という3つ分の「大きさ」を持っているため、測度の概念で記述できる。
与えられた集合上の測度は2段階のステップで定義される。まずその集合の部分集合で測度が定義可能なもの(可測集合という)はどれであるかを決め、次にそれらの部分集合に対し具体的に測度を定義する。測度の定義は形式的に与えられ、その要件は、空集合の測度が0であることと、n個の互いに素な集合の測度の和がそれらの集合の和集合の測度と一致する(被覆する)ことだけである。前述した面積、体積、個数はいずれも測度であることが容易に確かめられる。
各桁の位取り過程に注目するとNを根とし、i∈(0,1,…,N-1),整数加法群(単位元0)j∈(-∞,…,-1,0,+1,…,+∞)を添字とする以下の乗法群(単位元1)の平行写像の繰り返しによって構成されているとも平行群とも捉えられます。
N^0=\left[ 1 \right]_0^1=1
N^{j+1}=\sum_{i=1}^N\left[ 1 \right]_{i-1}^iN^j
N^j=\sum_{i=1}^N\left[ 1 \right]_{i-1}^iN^{j-1}
かかる平行群は、N=無限∞(とりあえず符号なし無限$\tilde{∞}$と符号付無限-∞,+∞の両方を含む)の時、どうなるでしょう?
∞^0=\left[ 1 \right]_0^1=1
∞^{-1}=\left[ 1 \right]_0^0=0
∞^{+1}=\sum_{i=1}^∞\left[ 1 \right]_{i-1}^i∞^0=\sum_{i=1}^∞\left[ 1 \right]_{i-1}^i
1=∞^0=\sum_{i=1}^N\left[ 1 \right]_{i-1}^i∞^{-1}=\sum_{i=1}^N\left[ 1 \right]_{i-1}^i*0
- 「1個の無限は無限個の1の並行写像の連続によって被覆される」
- 「1個の1は無限個の0($=\frac{1}{∞}$)の並行写像の連続によって被覆される」
前者はともかく、後者をイメージするのは中々大変です。
ChatGPTに質問「ルベール測度論における「測度0による被覆」概念について襲えてください。」
ルベール測度論における「測度0による被覆」という概念は、集合の性質や大きさを評価する際に重要な役割を果たします。この概念を理解するために、まずいくつかの基本的な用語を説明します。
ルベール測度
ルベール測度は、ユークリッド空間内の部分集合の「大きさ」を測る方法です。たとえば、1次元では長さ、2次元では面積、3次元では体積と考えられます。測度が0であるということは、その集合が「無視できるほど小さい」ことを意味します。測度0の集合
測度0の集合とは、任意に小さな長さ、面積、または体積の開集合(あるいは区間)で覆うことができる集合を指します。言い換えれば、測度0の集合は、ルベール測度において「大きさ」を持たない、非常に小さい集合です。例として、実数直線上の1点は測度0の集合です。なぜなら、点自体は長さを持たず、任意の小さな区間で覆うことができるからです。
被覆
被覆とは、ある集合を完全に覆う他の集合の集まりを指します。具体的には、集合Aを集合族Bによって被覆するとは、集合Bの各要素をすべて集めたときにAを含むことを意味します。測度0による被覆
測度0による被覆とは、ある集合を測度0の集合の集まりで完全に覆うことを指します。これは、その集合がルベール測度において「大きさ」を持たない部分集合で被覆可能であることを意味します。例えば、区間[0, 1]の中のすべての有理数の集合は、測度0の集合の集まりによって被覆できます。この場合、有理数全体は個別の点(それぞれ測度0)で構成されており、その集合全体は測度0を持ちます。
- 応用と重要性
測度0による被覆の概念は、集合の「小ささ」や「特異性」を測るのに有用です。例えば、ほとんど至る所で真である性質を示すために、測度0の集合に関する議論が行われます。ある性質が「測度0を除くすべての点で成立する」という場合、その性質はほぼ全域で成り立つと見なされます。まとめ
ルベール測度論における「測度0による被覆」は、集合がどれだけ小さいか、または特定の性質がどれだけ広範囲で成り立つかを理解するための概念です。これは、特に測度論や実解析の分野で、集合の性質や挙動を分析する際に重要な役割を果たします。
そもそも「連続」とは何か?
ここで観点を変え、冒頭に掲示した「多面体サイコロを物理的乱数発生装置に想定した一様分布の最尤推定問題」から再出発して「連続」を「たった一個の実元のみで構成される物理的乱数発生装置」と規定します。
一様分布の最尤推定では①試行回数0回の時は、とりあえず分類上の元全てに均等の出現確率を割り振る。②試行回数1回の時は、その出目の出現確率が1と見積もる。③それ以上の試行結果において別の分布が検出されれば、想定分布をそちらに切り替える、と推移する訳ですが、ならば、とりあえず有意水準0.05と置いて現在検証中の物理的乱数発生装置が「2個以上の実元を備えている」なる仮説を棄却するのにどれだけの試行回数が必要となるのでしょうか?
出目としての出現率が有意水準を下回るまで最も試行回数を必要とするのはコイン(二面体サイコロ)の5回なので、とりあえず「5回」がこの設問の答えとなる様です。何だか納得がいかない? そういう人は「連続性の検出」においてもっと厳しい有意水準を採用しているという事ですね。ここで興味深いのが二十面体サイコロの場合は全ての出目が有意水準0.05を下回るので、そもそも連続以前に「自明の場合として出現する出目」自体が存在してないという事。
なお上掲の連続性検証段階においては「たった一つの実元」以外の可能性全てを虚元に割り振り、実元の出現確率を$\frac{1}{2}$,虚元の出現確率を$1-\frac{1}{2}=\frac{1}{2}$と想定します。コイン(二面体サイコロ)の場合と同じですね。以降、虚元の出現確率がどの様に推移するかというと…
虚元の出現確率自体は$\frac{1}{2}$から始まり、実元の数が増えるにつれ0に向けて手足していきますが、ここにおもむろにネイピア数の概念が乱入してくるのです。
\lim_{n→\tilde{∞}}(1-\frac{1}{n})^n=\frac{1}{e}=e^{-1}=0.3678794
もちろん、サイコロの出目の種類(N≦20)くらいではまだまだ収束が十分ではありません。水平軸における「物理的乱数発生装置としての出目/有意味水準0.05における有意味限界回数」もどうやら$e^{-1}=\frac{1}{e}$の方向に収束していく様ですが、その速度が遅く感じるのは、この方面ではもっと緩やかな有意水準が採用されているからかも。
なお「垂直軸にも水平軸にも(1全体に対する)$e^{-1}=\frac{1}{e}$が現れる実例」としては「お見合い問題」も著名です。
「答えが-xlogxとなるお見合い問題について簡潔に説明してください。」
答えが−xlogxとなる問題は、情報理論や最適停止問題と関連しています。特に「お見合い問題」に類似する設定では、選択や停止のタイミングにおいて、情報の不確実性やエントロピーが関わってくることがあります。
−xlogxの意味
−xlogxは、情報理論において、エントロピーの計算式に出現します。エントロピーは、情報の不確実性や驚きの度合いを表す指標であり、特定の確率xがどれだけの「情報量」を持っているかを測ります。お見合い問題における適用
「お見合い問題」において、候補者を順番に見て最適なタイミングで選ぶ場合、選択の確率や情報量を考慮することがあります。この過程で、選択の不確実性や戦略の最適性を評価するためにエントロピーが使われることがあり、特にその計算の中で−xlogx の形が出現します。たとえば、各候補者の出現確率や選択の戦略において、情報量の変化を追う際に、この形が出てくることがあります。具体的には、ある特定の候補者を選ぶことで得られる情報の不確実性を最小化しようとするときに、−xlogx が最適化の指標となる場合があります。
まとめ
「お見合い問題」や類似の最適停止問題において、−xlogx は情報量やエントロピーの概念と関わる場面で出現します。これは、選択や戦略における不確実性の評価に使われ、最適な意思決定のための基盤を提供します。
そしてネイピア進数へ
そもそもネイピア数概念の大源流はイタリア・ルネサンス期の欧州に地中海交易圏よりアラビア数字とともに複式簿記概念が導入され、これが期間会計概念に発展した事でした。
ネイピア数e=\lim_{n→\tilde{∞}}(1+\frac{1}{n})^n=2.718282…
- 会計期間ごとに1増える単利計算(…,前期0,当期1,来期2,…と加法的に増大)は、以下の様に複利計算$(1+\frac{1}{n})^n$でn=1の場合に対応する。
前期(1-\frac{1}{1})^1=1-1=0
当期(1±\frac{0}{1})^1=(1±0)^1=1^1=1
来期(1+\frac{1}{1})^1=1+1=2
- nの次数を無限に引き上げ続けると、それぞれ以下の無理数に収束する。
前期\lim_{n→\tilde{∞}}(1-\frac{1}{n})^n=e^{-1}=0.3678794…
当期\lim_{n→\tilde{∞}}(1±\frac{0}{n})^n=e^0=1
来期\lim_{n→\tilde{∞}}(1+\frac{1}{n})^n=e^{+1}=2.718282…
かかる「前期$e^{-1}$、当期$e^0$、来期$e^{-1}$」概念の連続平行写像なら区間$[1,\tilde{∞}]$の被覆同様に区間[0,1]の被覆がイメージ可能です。とりあえずこの考え方を「ネイピア進数」と呼ぶ事にしましょう。
指数分布におけるネイピア進数
指数分布は単位区間あたり平均λ回起こるようなランダムイベントの発生間隔の分布で、λの値が大きいほど急速に0へと収束していきます。
指数分布【統計検定準1級のための数学③】
Exp(λ)=λe^{-λx}(x>0)
ある生物の寿命が平均n年の指数分布に従う場合、n年目に生存している確率は$e^{-1}=\frac{1}{e}$となります。逆をいえばn年目の生存数を1とした場合、出生時点ではそのe倍存在していた事になります。そして前後区画の計算は添字の倍数に従います。
P(X>n)=\int_{n}^{\tilde{∞}}\frac{1}{n}e^{-\frac{1}{n}x}dx=e^{-\frac{1}{n}n}=e^{-1}=\frac{1}{e}
ポアソン分布におけるにおけるネイピア進数
ポアソン分布は単位区間あたり平均λ回起こるようなランダムイベントが,単位区間にk回発生する確率の分布です。
ポアソン分布の意味と平均・分散
Po(λ)=P(X=k)=\frac{e^{-λ}λ^k}{k!}(k∈(1,2,3,4,…)
単位区間あたり平均n回起こるようなランダムイベントについて、それが単位区間内に1回も発生しない確率は$e^{-n}=\frac{1}{e^n}$で推移します。nの値が大きくなるにつれ急速に収縮し、n=5~10でほとんど正規分布の形に推移。
λ=n,k=0としてP(0)=e^{-n}\frac{n^0}{0!}=e^{-n}\frac{1}{1}=e^{-n}
各分布間の接続
-
ピアソン分布のパラメーターλと指数分布のパラメーターλは「単位区間あたり平均1回起こるようなランダムイベント」を原点として逆数関係にある。
-
ピアソン分布と二項分布は(それぞれ得意分野と不得意分野があるものの)完全互換性のある計算方法である。
*二項分布が正規分布で代用可能な条件は以下。
食品総合研究所「サンプル数の理論的決め方」
あくまで経験則だが、n=サンプル数、p=サンプル内比率、q=1-pの時、
①npとnqの小さい方が10(5)より大きい。
②0.1≦p≦0.9で、かつnpq<5。
③25<npq。
そんな感じで以下続報…