この記事を読んでできること
正例とラベル無しデータから,分類器を学習する.
簡単に言うと,こんなデータ:
から,こんな予測ができるようになる:
なぜやるのか?
通常の2値分類問題では,正例と負例が与えられています. しかし扱う問題によっては,このようなデータを用意するのが困難な時があります. 例えば,抽出型のタスクです. 抽出型のタスクでは,抽出したい対象を正例と考えます. この場合の負例は「正例以外のデータ」と定義するほかありません. しかし,集めた正例に対し,それ以外のデータを負例と定義してしまうと, それ以外のデータに含まれる正例も負例として扱ってしまいます.
どうやってやるのか?
正例とラベル無しデータから分類器を学習する,PU classification (Elkan and Noto 2008) という枠組みを使う.
詳しくは
実験結果やコードは正例とラベル無しデータからの学習を参照してください.