0.前回の続き
これは、セット間マッチングに対する株式会社ZOZOが論文で公開しているものの輪読になります。
1.今日変量シフトに対応するには
3章では、共通変量シフトに適応するために、
重要度重み付きセットマッチングを提案しています。
これは、IWERM(Importance Weighted Empirical Risk Minimization)に基づいており、密度比 pte(x)/ptr(x) を重み付け関数として使用します。
重み付け関数として密度比を採用することにより、
重み付きERMによって計算される経験的誤差がテスト分布の期待誤差の
一貫した推定量であることが示されています(Theorem 3.1)。
ここで、
ntrはトレーニングデータの入力個数
(h(xitr) ,yitr)は予測のラベルと正解ラベルとの予測誤差を表しています。
基本的には、それを最小化するだけですが
今回の場合は、密度比というものを採用しています。
ptr(xitr)は、トレーニングデータの入力変数xitrにおける確率密度関数を表し、pte(xitr)はテストデータの入力変数xitrにおける確率密度関数を表します。
つまり、ptr(xitr)はトレーニングデータが生成される確率密度関数であり、pte(xitr)はテストデータが生成される確率密度関数です。
この重みづけをすることでどのように変わるのか?
最小二乗法で表すととてもわかりやすいです。
この場合、トレーニングデータには予測関数はフィットしているが、
テストデータの場合、全くフィットしていません。
これに重みづけを行うことによって、このようにテストデータに合うようなモデルになります。
参照先:
定理3.1
定理3.1は、重み付きERM(Empirical Risk Minimization)によって計算される経験的誤差が、テスト分布における期待される誤差の一貫した推定量であることを示しています。
ここで、w(x) = pte(x)/ptr(x)は重み付け関数として設定されており、pte(x)はテスト分布における事後確率、ptr(x)は訓練分布における事後確率を表します。
経験的誤差とは
経験的誤差(empirical error)とは、機械学習や統計学において、モデルの訓練データに対する誤差を指します。具体的には、モデルが訓練データに対してどれだけ正確に予測できるかを示す指標です。一般的には、訓練データセット内の各データ点に対する予測と実際の値との差を測定し、その平均値や合計値を取ることで経験的誤差を計算します。
K-pair-set loss
ここで
fはVのベクトル集合とWのベクトル集合の類似度を算出する関数になります。
それをソフトマックス関数で求めています。
例えば、VはAさんが買った洋服のセットベクトル、Vもセットベクトルとして
1つずつアイテムを選択して、どれくらい類似度があるかを選びます
類似度算出は様々ありますが、適切な類似度を算出する関数を選ぶ必要があります
δijは
Kroneckerのデルタと呼ばれる関数で、以下のように定義されます。
δij = 1 (i = j)
δij = 0 (i ≠ j)
つまり、iとjが同じ場合には1を、異なる場合には0を返す関数です。この式では、iとjが同じ場合にはf(Vi, Wj)の寄与があるため、δijを用いてその寄与を表現しています。具体的には、exp(f(Vi, Wj))の項がδijによって制御され、i=jの場合にはそのままの値が、i≠jの場合には0になるため、式全体の計算に影響を与えます。
max-IWやmean-IWは
訓練データとテストデータの分布の違いに応じて重みを調整する手法です
これらはERMと組み合わせてACCなどを計算します。
最大重み付け(max-IW)は、異なる分布間の適合度を評価するための手法であり、特に重み付け関数を用いて異なる分布間の適合度を比較します。
ERM + max-IWでは、経験リスク最小化において、最大重み付けを用いて異なる分布間の適合度を考慮したモデルの学習が行われます。つまり、訓練データとテストデータが異なる分布に従っている場合にも、その適合度を考慮した学習が行われることを意味します。
数式参考先:



