Introduction
Pycaretを使用してサクッとKaggleに挑戦する.
今回は二値分類のTitanicコンペに参加した.
パッケージインポート
import pandas as pd
import pycaret
from pycaret.classification import *
実行した10行のコード
今回はチューニング前のgbcの精度が良かったためそれを最終モデルとして採用した.
# データの読込
data_train = pd.read_csv('csv_data/train.csv', index_col=0)
data_test = pd.read_csv('csv_data/test.csv', index_col=0)
# データの前処理
exp = setup(data = data_train, target='Survived', session_id=1)
# モデル比較
best_model = compare_models()
# モデル作成
gbc = create_model('gbc')
# モデルチューニング
tuned_gbc = tune_model(gbc)
# 最終モデル作成
final_gbc = finalize_model(best_model)
# テストデータで予測
test_predict = predict_model(final_gbc, data=data_test)
# 提出用csvデータ出力
data_submit = test_predict['Label'].rename('Survived')
data_submit.to_csv('csv_write/submit_20221113_pycaret_3.csv')
結果
Accuracy=0.78229
2666位/14474チーム 上位20%以内(2022/11/13時点)
Conclusion
非常に簡単にそこそこの結果が出せたと思う.
Pycaretには様々な前処理方法が用意されているため,今後Pycaretだけ使用してどこまで精度が改善するか検証してみようと思う.