More than 1 year has passed since last update.

機械学習でPyCaretを使ってみる

Last updated at 2023-11-12Posted at 2022-01-02

１はじめに

PyCaretは、Pythonのオープンソースの機械学習ライブラリです。
データの前処理、モデル（アルゴリズム）の比較、チューニングの自動化をしてくれます。

PyCaret 2.3.5
Google Colaboratory

!pip install pycaret

from pycaret.regression import *
from pycaret.datasets import get_data

・Diamndのデータを取得

dataset = get_data('diamond')

・集計対象をPriceに指定。
・項目のデータタイプがあっているかを確認して下に表示される四角い箱でEnter。
・この操作で前処理が自動でセットアップしてくれている。
・Priceの後ろに,をつけると設定情報が表示されて確認できる。

exp = setup(dataset,target='Price')

・モデリングのアルゴリズムを比較してくれる。
・R2 決定係数が高い順で並ぶ。今回は、Extra Trees Regressorが一番良い結果となった。
・一番下にExtra Trees Regressorのパラメーターが表示される。

compare_models()

model = create_model('et')

・交差検証（クロスバリデーション）を行なってくれる。
・それぞれの指標を試してみて平均の結果が出る。createを使うとクロスバリデーションを実行できる。

print(model)

print(model)でmodelのパラメーターが確認できる

・チューニングしたモデルをtuned_modelに入れる。

tuned_model=tune_model(model)

ここでは、6000行を７：３（1800行）で分けて入っていて実際のPriceに対してLabelがどれくらいずれているか確認する。このデータではおおむね価格を予想できていると言える。

predict_model(tuned_model)

実際の値からどれくらい離れているかの誤差について残差で表示される。0を中心にばらつきが少ない良い結果になっている。

Carat Weightが一番重要度が高い結果となった。

plot_model(tuned_model, plot='feature')