1 醜いアヒルの子の定理とは
醜いアヒルの子(白鳥の子)とアヒルの子は,似通った2羽のアヒルの子が似ているのと同じ程度に似ているという意味である.正直,この説明だけだと,ちょっと何言ってるかわからない.よって,プロ野球選手に例えることで,この定理をわかりやすくしようと思う.
2 解説
2.1 プロ野球選手に例えて状況を設定する
まず,プロ野球選手を見分けるために,3つの特徴を用いる.1つ目は,パワーがある(ホームランが多い選手の特徴を「パワーがある」と表現する).2つ目は,ミート力がある(打率が高い選手の特徴を「ミート力がある」と表現する.3つ目は,走力がある.
これらの特徴を以下の文字とする.
・S₁:パワーがある
・S₂:ミート力がある
・S₃:走力がある
このとき,3つの特徴によって,プロ野球選手は8つ(=2³)のクラスに分類される.各クラス1人のプロ野球選手をサンプルとし,例を挙げる.このとき,それらの野球選手をxiとする(iはこの記事で紹介する順番.特に特徴Sの数字と関連付けてはいない).
・x₁:バレンティン(パワー,S₁)
・x₂:青木宣親(ミート,S₂)
・x₃:赤星憲広(走力,S₃)
・x₄:松井秀喜(パワーとミート,S₁⋂S₂)
・x₅:山田哲人(パワーと走力,S₁⋂S₃)
・x₆:イチロー(ミートと走力,S₂⋂S₃)
・x₇:柳田悠岐(パワーとミートと走力,S₁⋂S₂⋂S₃)
・x₈:醜いプロ野球選手(3つの特徴は該当なし)
(野球を知らない人にもイメージしてもらえるように,なるべく有名選手で例を挙げました.そのため,厳密な査定ではないので,ご了承ください.)
これらをベン図に整理すると,以下のようになる.
左図の特徴のベン図と,右図の選手のベン図が対応している.ちなみに,左図の各点は,その範囲内にテキトーに点を打ったものである.各プロ野球選手の能力を考慮して,厳密に点の位置を定めたものではないので,ご了承ください.
2.2 ペアの野球選手の類似度を評価する
上図のように,3つの特徴によって,8種類のクラスができる.クラスとは,上右図における,同じ色の領域である.このとき,8種類のクラスそれぞれを「含むor含まない」と選択をすることで,さまざまな特徴を記述することができる(S₁,S₂,S₃は特徴を記述するための基本となる特徴.例えるなら,文章を書くための文字).例えば,S₁⋂S₂は,「X₄のクラスを含む,X₇のクラスを含む,他のクラスは含まない」という記述により表現できる.このようにして,全ての特徴の記述は,2⁸個になる.これは,8つのクラスについて「含むor含まない」の2通りの選択肢があるため,2の8乗が総数となるからである.
ここからが重要である.松井秀喜とイチローの共通点は,松井秀喜(x₄)の属するクラスとイチロー(x₆)の属するクラスを含む特徴の記述である.このときの,特徴の記述は,2⁶個である.なぜなら,x₄の属するクラス(赤色)と,x₆の属するクラス(緑色)は,含むことが確定しているので,残りの6つのクラスで「含むor含まない」の選択を考えれば良いからである.
一方で,醜いプロ野球選手とイチローの共通点も,同様にして特徴の記述が2⁶個となってしまう.2人の共通点である「特徴の記述の数」を類似度とした場合,**「松井秀喜とイチロー」の類似度は,「醜いプロ野球選手とイチロー」と同じになった.**そんなバカな...
2.3 醜いアヒルの子の定理とは,何が問題なのか
類似度を定める際に,特徴の記述を数えたことが問題である.特徴を1つずつ数えるということは,どの特徴も同じ重要度として扱っていることを意味する.つまり,ただ特徴を選び出すだけでは,我々はパターンを認識できないということを,この定理は述べているのである.
3 感想
特徴は重要性が付加されることで,初めて認識に役立つことがわかった.重要な特徴は,重要なものとして扱う必要があるということである.だから,機械学習における重み付けには,このような意味がある.当たり前のことだが,こうして考えてみると,面白いと思った.