彼女ゼロ頻度問題とは?
機械学習、とくに自然言語処理においてはゼロ頻度問題という課題が生じることがある。
例えば単語の種類数に比して、それが使われる文や文章のデータサンプルが少ないため、単語単体であればなんとかなるが単語と単語が共起する例となると一気にサンプル数が足りなくなりうまく学習ができない、といったケースが挙げられる。
これは機械学習を学ぶ理系男子諸氏の恋愛局面にも起こりうる話である。恋愛関係とはテキストの表層的な共起に対比して深層的な格関係に相当し、それは表層的な共起から生じる。
そうした出会いスパースネス問題及び彼女ゼロ頻度問題について、機械学習の視点から考えてみたい。
ラプラススムージング
ラプラススムージングとは、出現回数を問答無用に+1する方法である。これは表層的な共起の観点では、どんな女性とも一度は出会ったことがあるってことにする、という意味になる。あらゆる初体験を、初体験ではないことにしてしまう、という解釈も可能である。
これにより、オーバーフィットを避けることができる。例えば、女は無限にいると最初から知っていることになるので、出会った女性に一目惚れしちゃって追いかけ回すようなことがなくなるだろう。
正則化やベイズ推定
ゼロ頻度問題は、過学習回避の枠組みに含めて考えることができるので、その知見も使いたいところだ。データから学びつつ寄せすぎないテクニックとして機械学習ではベイズ推定や正則化というのがある。
ベイズ推定なら事前分布という出会いや交際を得る前の段階である程度の適応性を担保しておくという意味であり、正則化は出会いや交際とは別の価値を並行して高めようとするような意味になる。
事前分布を高めるというのは、出会いや交際とか以前に、ファッションや身だしなみを整えることに相当するといえる。また、正則化を行うことは出会いや交際以外に趣味を持つ、恋愛以外のリア充要素も追求してみることに相当するだろう。
最大エントロピー法
ベイズ推定において、事前分布の決め方は恣意的である。つまり、ファッションを磨けばいいのか、リア充な趣味をもてばいいのかについて決める指針はユーザに委ねられており、そこも機械学習に決めてほしいという要望は当然あるだろう。
そこで最大エントロピー法というのがある。この方法は、出会いや交際に有効に効きそうに思える要素を自由に考案してそれを指針にするさいにどの要素が重要かを自動的に判断できるという手法である。
彼女ゼロ頻度では、とにかくサンプル数が貴重なので、1回の経験から得られる知見を慎重に合理的に活かして次へ行かないといけない。最大エントロピー法は、そうした少ない経験から得られる知見を過大評価しすぎず、過小評価しすぎず、冷静に見つめることが出来る方法でもある。
まずとにかくモテにつながりそうな要素(つがらなそうな要素を避ける、という観点もアリ)を列挙し、そのうちいずれかの要素にまずは取り組んで満たしてみよう。満たした要素は1、満たしてない要素は0だ。そうして実際に行動して女性とコミュニケーションを取ってみる。めでたく交際にいたったら交際を続けてみる。交流している間のコミュニケーションの取り方も要素としてカウントしてよい。満たせば1、満たさなければ0だ。
そうして最終的に振られてしまった時の振り返り手段として、満たしていた要素がどれだけ重要だったかを最大エントロピー法の計算によって求める。
女性は千差万別なので、ある女性にとっては意味のある要素でも、別の女性には意味のない要素だということも少なくない。最大エントロピー法は、様々な女性に共通に効く要素については重みを大きく、女性によりけりな要素は重みを小さく、そして要素どうしの組み合わせについても丁度良いバランスになるようにうまく指針をあたえてくれる。
潜在変数(次元圧縮)を使う
機械学習では潜在変数を使うことで、頻度ゼロでもマッチさせることが出来るようになる、というテクニックがよく使われる。上で述べたベイズ推定や最大エントロピー法も広い意味ではそうした手法に該当するが、そうした潜在変数を直接使って出会いや交際を求める方法もある。
これはいうなれば、女性の友達が多い人と交流したり、女性が多い場に出向いたり、お見合い仲介人に紹介をお願いするような手だ。そうした潜在変数となる人や場の数は少ないが、それゆえにハブとなり多くの女性との接点が見込める。そうした人や場は汎化能力が高く、ふさわしい人をマッチングしてくれるだろう。
そんな低次元な出会いは嫌だと言ってはいけない。いつも君は低次元を求めているのに、何をいまさら、という感じだ。
終わりに
彼女ゼロ頻度問題について述べた。人生における過学習はよくあることであり、理系諸氏におかれては勉学で得た知識を生活上の課題に適用し幸福な人生を築き上げられたい。