10
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

AutoAIでお手軽機械学習(その2) モデル構築編

Last updated at Posted at 2019-07-29

はじめに

AutoAIはIBM Cloud上のサービスWatson Stuioおよび、オンプレミスでOpenShiftを前提とした製品CP4D (Cloud Pak for Data)で利用可能な、機械学習モデル自動構築ツールです。
「その2」では実際にモデルを作ってみます。

AutoAIでお手軽機械学習(その1) 準備編 の続編です。
このシリーズは
AutoAIでお手軽機械学習(その3) Webサービス編
AutoAIでお手軽機械学習(その4) Jupyter Notebook編
AutoAIでお手軽機械学習(その5) API編
に続きます。

[2020-01-27] フルセットのデータを使うシナリオに変更しました。AutoAIの精度も大幅によくなったので、その結果も反映しています。
[2020-07-19] AutoAIが日本語対応したので、内容を全面的に改定しました。
[2020-09-23] 学習用データ修正(データ内容の日本語化、学習件数の変更)
[2020-11-03] cp4dタグ追加
[2020-12-20] 画面上の用語変化への対応

想定ユースケース・利用データ

https://archive.ics.uci.edu/ml/datasets/bank+marketing 
に公開されているデータセット Bank Marketing Data Setを利用して、テレバンキング先の顧客が、商品を購入するかどうかを予測するモデルを作ります。

スクリーンショット 2019-07-29 18.45.07.png

以下で利用するサンプルデータでは、オリジナルの英字項目名を日本語に修正したものを利用します。

項目名(英字オリジナル) 日本語項目名
age 年齢
job 職業
marital 婚姻
education 学歴
default 債務不履行
balance 平均残高
housing 住宅ローン
loan 個人ローン
contact 連絡手段
day 最終通話日
month 最終通話月
duration 最終通話秒数
campaign 通話回数(販促中)
pdays 前回販促後経過日数
previous 通話回数(販促前)
poutcome 前回販促結果
y 今回販促結果

フルセットのデータ45211件のうち4521件を学習用に、40690件を評価用に利用します。
(2020-12-20 追記)学習用データの件数を少なくしているのは、無料のライトアカウントでも問題なく学習ができるようにするためです。有料アカウントを利用できる場合、通常と同様、学習データ:検証データを7:3または6:4にすることも可能で、その場合、モデルの精度は以下の記事で示した結果よりよくなります。

データ準備

学習に使う以下のデータは、あらかじめダウンロードしておいて下さい。

[Bank Marketing学習用CSV(bank-train-jp-autoai.csv)]
(https://raw.githubusercontent.com/makaishi2/sample-data/master/data/bank-train-jp-autoai.csv)

モデル作成

Watson Studio プロジェクト管理画面の表示

最初に次のURLを指定して、Watson Studioにログインします。

下のような画面になるはずなので、「その1」で事前に作成したプロジェクトのリンク(画面下の赤枠)をクリックします。

スクリーンショット 2020-07-19 16.51.11.png

もし、このプロジェクトが出てこない場合は、左上の「三」のアイコン(画面の黄枠)をクリックして下さい。
下のようなメニューが出てくるので、「すべてのプロジェクトを表示」を選択して、事前に作成したプロジェクトを呼び出します。

スクリーンショット 2020-07-19 16.26.05.png

下のような画面が出てくれば、プロジェクト管理画面の表示ができている状態です。

スクリーンショット 2020-07-19 16.29.48.png

AutoAIの呼出し

画面右上の「プロジェクトに追加」をクリックします。
下のようなメニューが出てくるので、「AutoAIエクスペリメント」を選択して下さい。

スクリーンショット 2020-12-20 15.32.10.png

モデルの名称として「営業成約予測」と名称を入力して、画面右下の「作成」ボタンをクリックします。

スクリーンショット 2020-07-19 16.34.13.png

csvファイルのアップロード

下のような画面になるので、指示に従い、赤枠の領域に事前にダウンロードしておいたbank-train-jp-autoai.csvファイルを drag & dropでアップロードします。

スクリーンショット 2020-07-19 16.35.34.png

学習の開始

画面が下のように変化するので、予測列の選択ドロップダウンをクリックし、一番下の「今回販促結果」を選択します。

スクリーンショット 2020-07-19 16.38.25.png

スクリーンショット 2020-07-19 16.38.35.png

このままモデル作成に進めることもできますが、今回は評価基準をROC面積に変更することにします。そのため、下の画面で「エクスペリメント設定」をクリックして下さい。

スクリーンショット 2020-07-19 16.39.09.png

下の設定画面になります。
①左のメニューから「予測」を選択
②陽性分類のドロップダウンを「成功」に変更
③「最適化メトリック」として、上から2番目の「ROC AUC」(ROC下面積)を選択
④最後に画面右下の「設定を保存」をクリック
の手順で、評価基準の変更をします。

スクリーンショット 2020-09-23 21.40.02.png

前の画面に戻るので、画面右下の「エクスペリメントの実行」をクリックします。

学習の状況

図のような形で、学習が進んでいきます。後は、AutoAIにまかせて、最適なモデルができるのを待って下さい。今回の実習で使っている学習データの場合、20分程度で完了するはずです。
最終的には、下記のようになります。

スクリーンショット 2020-09-23 21.46.26.png

画面を下方にスクロールすると、作成済みモデルのリストが表示されます。
デフォルトの状態の場合、作成済みモデルが8個できているはずです。(初期設定で4,8,12を選択可能)

スクリーンショット 2020-09-23 21.47.28.png

画面上部のタブを、「パイプラインの比較」に変更すると、下のような画面になります。

スクリーンショット 2020-09-23 21.48.32.png

スクリーンショット 2020-09-23 21.48.39.png

学習結果の確認

作成済みモデル詳細画面

メインの「エクスペリメントサマリー」タブに戻り、モデル一覧から個別のモデルのリンクをクリックすると詳細画面になります。以下に、個別のメニューでどのような画面が表示されるかを示します、

モデル評価(ROC曲線と精度評価サマリー)

スクリーンショット 2020-12-20 16.16.47.png

混同行列(Confusion Matrix)

スクリーンショット 2020-12-20 16.13.28.png

適合率・再現率曲線
スクリーンショット 2020-12-20 16.14.32.png

特徴量の変換
スクリーンショット 2020-12-20 16.15.23.png

特徴量の重要度

スクリーンショット 2020-12-20 16.15.59.png

第三部では、こうやって作ったモデルをWatson Machine Learningにデプロイして、Webサービス経由でアクセスすることで、モデルの精度を検証します。
AutoAIでお手軽機械学習(その3) Webサービス編

10
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?