2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

IBMが提供する製品に関する情報やナレッジを共有するAdvent Calendar 2024

Day 11

自動分類ノードで2値の判別予測の確信度が0.5を下回る理由(SPSS Modeler データ加工逆引き12-6)

Posted at

自動分類ノードで2値の判別予測の確信度が0.5を下回る理由

スクリーンショット 2024-11-18 9.52.42.png

1.想定されるトラブル

・2値の判別予測時に自動分類ノードを用いると不自然な確信度が表示される

 →シングルモデルによる2値分類では確信度0.5を分岐点に真偽を判別するため、
 確信度は0.5以上ですが、 アンサンブル学習のロジック上、起こり得る現象です。

2.ストリームのダウンロード

3.サンプルストリームの説明

スクリーンショット 2024-11-18 9.54.26.png

a.入力は以下の通りです。スマートフォンの利用状況から事後の解約を予測するためのデータです。

スクリーンショット 2024-11-18 9.59.51.png

不自然な確信度の確認

b.[データ型]ノードを編集します。

スクリーンショット 2024-11-18 10.00.08.png

c.[自動分類]ノードを編集します。[使用モデル数]を説明しやすいように3つにしています。

スクリーンショット 2024-11-18 10.00.42.png

d.[自動分類]ナゲットを編集します。[C5.0][XGBoostツリー][CHAID]の3つのモデルが選択されました。

スクリーンショット 2024-11-18 10.00.54.png

e.[ソート]ノードを編集します。確信度を[昇順]で並び替えます。

スクリーンショット 2024-11-18 10.01.06.png

f.[テーブル]ノードを実行します。3つのモデルを統合した確信度[$XFC-解約フラグ]には本来存在しない0.5以下のスコアが表示されています。

スクリーンショット 2024-11-18 10.01.27.png

確信度算出のロジックを確認

g.[自動分類]ノードを編集します。[アンサンブル モデルにより生成された...]のチェックを外します。

スクリーンショット 2024-11-18 10.02.54.png

h.[テーブル]ノードを実行します。

スクリーンショット 2024-11-18 10.04.06.png

先頭レコードの確信度が0.452になる理由は

C5.0 はTrue と予測して確信度が0.800
XGBoost はTure と予測して確信度が0.555
CHAID は False と予測して確信度が0.818

Tureの確信度のみ合計し、モデル数で按分 (0.8+0.55)/3 = 0.452になります。

アンサンブルの記事でも取り上げています。

注意事項

SPSS Modeler (Ver18.5) では確信度=0.5丁度の場合にはFalse
SPSS Statistics (Ver30) では確信度=0.5丁度の場合にはTure
で判定されます。Statisticsにはアンサンブルや自動分類がないためこの記事の主旨とは
異なりますが参考まで。

4.参考情報

自動分類ノード

SPSS Modeler ノードリファレンス目次

SPSS Modeler 逆引きストリーム集(データ加工)

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?