@_YOSHIO_ (よしお)posted at 2026-06-29

[機械学習/統計]　Nested Cross Validationにおけるinner loopの分割方法について

Q&A

被験者単位の汎化性能を評価する機械学習タスクにおいて、Nested Cross Validation手法がよく用いられていますが、内側のvalidation splitをする場合に、被験者ごとにfoldしてvalidationデータを確保した方がいいのか（図A）、各被験者から重複しないように K %サンプリングして、validationデータを確保した方がいいのか（図B)がわかりません。

前者の方が一般的だと思いますが、後者手法を使っている論文はあまり見たことがありません。

B手法は、inner loopでvalidationデータがleakageしていますが、testデータにはleakageしていないので、最終的なtestデータに対する性能評価をする場合にはこの２手法を同等に比較してもいいと考えています。

統計・機械学習の観点から、どのように解釈・説明するのが適切か教えていただきたいです。

0 likes

2Answer

@_YOSHIO_posted at 2026-06-30

モデルはvalidationデータにfitするので、以下の図のように、Sub.1のみがvalに入っている場合、モデルはSub.1にfitし、もしSub.1とSub.5（test）の分布が遠ければ、テストでの制度は出ないと思います。（手法A）
対して、Sub.1～Sub.4がvalに入る手法Bでは、モデルはSub.1～Sub.4の平均にfitするので、手法Aに比べてSub.5（test)の近くにモデルがfitし、精度が出るのではないかと考えています。

0Like

This answer has been deleted for violation of our Terms of Service.

Are you sure you want to delete the question?

[機械学習/統計]　Nested Cross Validationにおけるinner loopの分割方法について

2Answer

Your answer might help someone💌

[機械学習/統計] Nested Cross Validationにおけるinner loopの分割方法について

2Answer

Your answer might help someone💌

[機械学習/統計]　Nested Cross Validationにおけるinner loopの分割方法について