はじめに
みなさん、バーニーおじさんのルールを知っていますか? JDLAが運営する資格試験「G検定」の勉強中に遭遇した、このルール。
「機械学習において学習に必要なデータ数は説明変数(パラメータ)の数の10倍」
知らん! そこそこ機械学習の経験はあるはずなんだけど、バーニーおじさんって誰?
有名な機械学習の法則は出展が明らかなのですが、
- ノーフリーランチ定理:ただ飯なんて都合のよいことなんてないんだよ。み〇を
- みにくいアヒルの子の定理:(客観的に)みにくいアヒルなんていないんだよ。鳥類だもの。み〇を
- 次元の呪い:2次元じゃダメなんですか?(次元仕分け) レ〇ホー
まあ、冗談はほどほどにしておいて。
バーニーおじさんに関しては、どこを探してもソースが見つからないのです。
もしかしたら、ナントカタスクゼイアンの陰謀なのかもしれません。
日本語の記事を探してみた
しょうもない質問なのですが、
「機械学習において学習に必要なデータ数は説明変数の数の10倍」
というバーニーおじさんのルールですが、
そもそもこのバーニーおじさんとはどなたなのでしょうか?気になります。私はバーニーおじさんは初耳でしたが、気になりますね。
ネットで調べてみても、ほとんど情報は出てこないようです。綴のあたりを付けて英語で検索したりもしましたけど、ヒットなし。
マジで誰??????検索してもG検定の関連情報しか出てこない。
「機械学習には、モデルのパラメータ数の10倍の学習データが必要」とのことだが、これ以上わからない。
英語でも調べてみたけどさらにわからない。
バーニーおじさんの消息をご存知の方、教えてください。
どうやら、みなさんもバーニーおじさんって誰?ってことで気になってるようです。しかし、日本語の記事で「バーニーおじさん」に辿り着いている人は現時点ではいませんでした。
英語の記事を調べてみた
Yaser Abu-Mostafa, he explains the relationship between dimension of a dataset and it's size required for any learning model to work.
As a general rule of thumb, size of dataset should be at-least about 10x it's dimension and should be independent of the model used.
Yaser Abu-Mostafaはデータセットの次元とサイズの関係について説明しています。「経験則では、データセットの大きさは、少なくともその次元の10倍必要で、それぞれは独立していなければなりません」(適当訳)
https://datascience.stackexchange.com/questions/14875/data-set-size-versus-data-dimension-is-there-a-rule-of-thumb
なんか近いですね。ただ、少し違うような。。。
So how much data is needed? Professor Yaser Abu-Mostafa from Caltech answered this question in his online course. The answer is, as a rule of thumb, you need roughly 10 times as many examples as there are degrees of freedom in your model.
では、どれくらいデータが必要なのでしょうか?Yaser Abu-Mostafaはオンライン講座でこの質問に対して、「経験則では、モデルのパラメータの約10倍のデータが必要」と答えています。
失礼、カリフォルニア工科大学の教授であり、機械学習の研究や教育に関する活動で有名な方をコレ呼ばわりして申し訳ございません。
おそらく、Yaser Abu-Mostafa教授がバーニーおじさんの正体ではないでしょうか?
調べるのをやめた
しかし、Yaser Abu-Mostafa教授とバーニーおじさんを結びつけるソースは何もでてこないのです。僕の調査(「Yaser Abu-Mostafa burny」で検索)をあざわらうように、確固たるソースが出てこないのです。もしかしたら、ナントカタスクゼイアンの陰謀なのかもしれません(2回目)。
そして、調べていくと教授は何冊か機械学習に関する書籍をだしているみたいです。特に、有名なのが、
微妙に高いし、英語だし、記載されているかわからないし、
ギブアップ!!!
恐らくは、この本にソースが記載されているのでしょう。
まとめ
バーニーおじさんのルールは「機械学習において学習に必要なデータ数は説明変数(パラメータ)の数の10倍」ということが重要であって、「バーニーおじさんって誰や?」なんてことは重要ではないのです。ですが、気になったら調べたくなる気持ち、わかります。たまたま自分にとって、それがG検定の1時間前であっただけで調べてしまいました。
その中で、Yaser Abu-Mostafa教授という黒幕の存在が明らかになりました。
しかし、バーニーおじさんイコール教授なのか、教授の知り合いにバーニーおじさんがいたのか、謎は深まるばかりです。
もしかしたら、ナントカタスクゼイアンの陰謀なのかもしれません(3回目)。
信じるか信じないかは、あなた次第!