More than 3 years have passed since last update.

Pycaretを使用し10行でKaggleのTitanic挑戦（Accuracy=0.78229）

Last updated at 2022-11-14Posted at 2022-11-13

Introduction

Pycaretを使用してサクッとKaggleに挑戦する．
今回は二値分類のTitanicコンペに参加した．

パッケージインポート

import pandas as pd
import pycaret
from pycaret.classification import *

実行した10行のコード

今回はチューニング前のgbcの精度が良かったためそれを最終モデルとして採用した．

# データの読込
data_train = pd.read_csv('csv_data/train.csv', index_col=0)
data_test = pd.read_csv('csv_data/test.csv', index_col=0)

# データの前処理
exp = setup(data = data_train, target='Survived', session_id=1)

# モデル比較
best_model = compare_models()

# モデル作成
gbc = create_model('gbc')

# モデルチューニング
tuned_gbc = tune_model(gbc)

# 最終モデル作成
final_gbc = finalize_model(best_model)

# テストデータで予測
test_predict = predict_model(final_gbc, data=data_test)

# 提出用csvデータ出力
data_submit = test_predict['Label'].rename('Survived')
data_submit.to_csv('csv_write/submit_20221113_pycaret_3.csv')

結果

Accuracy=0.78229
2666位/14474チーム　上位20%以内（2022/11/13時点）

Conclusion

非常に簡単にそこそこの結果が出せたと思う．
Pycaretには様々な前処理方法が用意されているため，今後Pycaretだけ使用してどこまで精度が改善するか検証してみようと思う．

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up