@_YOSHIO_ (よしお)

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

[機械学習/統計] Nested Cross Validationにおけるinner loopの分割方法について

被験者単位の汎化性能を評価する機械学習タスクにおいて、Nested Cross Validation手法がよく用いられていますが、内側のvalidation splitをする場合に、被験者ごとにfoldしてvalidationデータを確保した方がいいのか(図A)、各被験者から重複しないように K %サンプリングして、validationデータを確保した方がいいのか(図B)がわかりません。

画像2asdf.png

前者の方が一般的だと思いますが、後者手法を使っている論文はあまり見たことがありません。

B手法は、inner loopでvalidationデータがleakageしていますが、testデータにはleakageしていないので、最終的なtestデータに対する性能評価をする場合にはこの2手法を同等に比較してもいいと考えています。

統計・機械学習の観点から、どのように解釈・説明するのが適切か教えていただきたいです。

0 likes

1Answer

モデルはvalidationデータにfitするので、以下の図のように、Sub.1のみがvalに入っている場合、モデルはSub.1にfitし、もしSub.1とSub.5(test)の分布が遠ければ、テストでの制度は出ないと思います。(手法A)
対して、Sub.1~Sub.4がvalに入る手法Bでは、モデルはSub.1~Sub.4の平均にfitするので、手法Aに比べてSub.5(test)の近くにモデルがfitし、精度が出るのではないかと考えています。

we.png

0Like

Your answer might help someone💌