More than 3 years have passed since last update.

初心者のXGBoostを使った実装と説明

Last updated at 2021-01-03Posted at 2020-05-04

はじめに

Kaggleによく出てくるXGBoost。
コードを読んでも分からない箇所が多かったので、初心者なりに調べてまとめてみました。
なるべくわかりやすく、難しい言葉をかみ砕いて書いているため、正確性に欠けているのでご了承ください。
加筆、修正等あれば遠慮なく教えてください。
今回は実装しながらXGBoostについて説明していきます。

本記事の内容

動作環境

Windows: 10
Anaconda
Python: 3.7.4
pandas: 0.25.1
numpy: 1.16.5
scikit-learn: 0.21.2
XGBoost: 0.90

この記事で使用するデータセット

今回はscikit-learnの乳がんデータセット（Breast cancer wisconsin [diagnostic] dataset）を利用します。
データセットには乳癌の細胞核に関する特徴データが入っており、今回は乳癌が「悪性腫瘍」か「良性腫瘍」かを判定します。

注意点

本記事はXGBoostの細かいパラメータ等は説明しておりません。

ソースについて

本記事のソースは以下に上げています。
https://github.com/Bacchan0718/qiita/blob/master/xgb_breast_cancer_wisconsin.ipynb

1.XGBoostとは

XGBoost (eXtreme Gradient Boosting) は決定木の勾配ブースティングアルゴリズムを実装したものです。
決定木は以下の図のような樹木状のモデルを使いデータセットを分類し、その結果に影響を与えた要因を分析し、その分類結果を利用して将来の予測を行う手法です。

勾配ブースティングアルゴリズムは「勾配」と「ブースティング」を分けて説明します。
勾配とは、２つの値の差を最小にし、予測誤差を小さくすることです。
ブースティングは弱識別機（精度のよくない判断する処理）を直列的に結合し、
予測の正確性を高めるアルゴリズムです。
（ここでの弱識別機は決定木のことです。）

参照リンク
XGBoost: https://logmi.jp/tech/articles/322734
XGBoost: http://kamonohashiperry.com/archives/209
勾配法: https://to-kei.net/basic-study/neural-network/optimizer/
損失関数: https://qiita.com/mine820/items/f8a8c03ef1a7b390e372
決定木: https://enterprisezine.jp/iti/detail/6323

2.XGBoostインストール

(1)Anaconda Promptを開く
スタート>Anaconda 3 (64-bit)>Anaconda Prompt
から開きます。

(2)conda install -c anaconda py-xgboostを実行

(3)AnacondaからTerminalを開く
AnacondaNavigator>インストールする仮想環境のさんかくをクリック>Open Terminal
から開きます。

(4)conda install py-xgboostを実行
実行中にProceed ([y]/n)?と表示されるので「y]を入力しEnterを押します。

これでjupyter notebookでimport xgboost as xgbとすれば使えます。

注意点
XGBoostは動作環境によってインストール方法が異なります。
本記事と異なる環境の場合、この方法だとインストールできないかもしれないです。

3.データセット読み込み

scikit-learnのデータセットは以下の方法でインポートできます。