[機械学習/統計] Nested Cross Validationにおけるinner loopの分割方法について
被験者単位の汎化性能を評価する機械学習タスクにおいて、Nested Cross Validation手法がよく用いられていますが、内側のvalidation splitをする場合に、被験者ごとにfoldしてvalidationデータを確保した方がいいのか(図A)、各被験者から重複しないように K %サンプリングして、validationデータを確保した方がいいのか(図B)がわかりません。
前者の方が一般的だと思いますが、後者手法を使っている論文はあまり見たことがありません。
B手法は、inner loopでvalidationデータがleakageしていますが、testデータにはleakageしていないので、最終的なtestデータに対する性能評価をする場合にはこの2手法を同等に比較してもいいと考えています。
統計・機械学習の観点から、どのように解釈・説明するのが適切か教えていただきたいです。
0 likes

