Help us understand the problem. What is going on with this article?

XGBoostによる機械学習(R : caretパッケージを使ってみた)

More than 1 year has passed since last update.

P&Dアドベントカレンダー8日目!3回目の登場です!

今回は、XGBoostをcaretパッケージを用いて実装してみたいと思います。

前々回の記事はこちらです!
XGBoostによる機械学習(Rを用いて実装)

前回の記事はこちらです!
XGBoostパラメータのまとめとランダムサーチ実装

caretパッケージ

前回の記事で機械学習の基本的な手順として

  1. 使用する機械学習手法の決定
  2. 実装方法と環境構築
  3. パラメータチューニング
  4. モデルを使っての予測
  5. 予測結果の評価

の5ステップがあると話しました。

そして手順3と5が機械学習において鬼門と言われる部分であるということもお話しました。

ですがご安心ください!

なんと今回用いるcaretパッケージは以下のことができます!
・予測モデルの作成
・パラメータチューニング
・モデル予測

前回、前々回の記事と比較するとコードの量がものすごく簡潔になります!!

実装

install.packages("doParallel") #並列処理用パッケージ
install.packages("caret") #caret用パッケージ

library(data.table) #data.frame型だけで良い
library(doParallel)
library(caret)


#並列処理、使用するコア数4(使用できるコア数を知りたい場合は「detectCores()」を実行すればわかる)
cl <- makePSOCKcluster(4)
registerDoParallel(cl)


#奇数を学習データ、偶数を評価データとする
odd.number <- 2*(1:75)-1 #1~150の奇数のみ
model.data <- iris[odd.number,] #irisデータの奇数番目
pre.data <- iris[-odd.number,] #irisデータの偶数番目


##caretパッケージ使用
#caretパッケージのtrain()関数を用いてモデルを作成
set.seed(0)
result <- train(
  Species ~ .,                              #formula:目的変数と説明変数の指定          
  data = model.data,                        #トレーニングデータ
  method = "xgbTree",                       #使う手法:XGBoostのgbtree(ツリーモデル)
  preProcess = c('center', 'scale'),        #データの前処理:正規化
  trControl = trainControl(method = "cv"),  #クロスバリデーション
  tuneLength = 4                            #パラメータチューニングの範囲
)

#caretパッケージのpredict関数を用いて予測
pred <- predict(result, pre.data)

#結果を表示
print(table(pre.data[,5],pred))


#予測結果
>
            pred
             setosa versicolor virginica
  setosa         25          0         0
  versicolor      0         23         2
  virginica       0          1        24

複雑なデータの前処理を行わずして実装することができました!!

簡単なcaretパッケージのtrain関数の引数の説明

・formula

目的変数と説明変数の指定を行うことができます。

今回は目的変数をirisの「Species」、残り全てを説明変数として学習したので
 Species ~ . となります。

もし説明変数を指定するのであれば、
 Species ~ Sepal.Length + Sepal.Width のようにすれば可能です。

・data

トレーニング用データを指定します。
今回の場合だと、data = model.data のように指定します。

・method

機械学習の手法を指定することができます。
今回はXGBoostのgbtree(ツリーモデル)を使用するので
 method = "xgbTree" となります。

XGBoostのgblinear(線形モデル)を使用したい場合は
 method = "xgbLinear" となります。

XGBoostの他にもニューラルネットワークなら「nnet」など様々な手法を指定できるので以下のページを参考にしてみてください。
caretパッケージで指定できるmethod一覧

・preProcess

データを正規化したい場合、以下の様に指定すれば正規化が可能です。
 preProcess = c(‘center’, ‘scale’)

・tuneLength または tuneGrid

ここでは、パラメータチューニングの範囲を指定できます。
 tuneLength = 4 と指定すれば4通りのパラメータを適用するという意味になります。
 数値次第では、実行時間が長くなるので注意です。

tuneGridを用いればパラメータ範囲をもっと細かく指定することが可能です。

例 tuneGrid = expand.grid( eta = c(0, 0.5, 0.05 ) )
この場合だと、パラメータetaを0から0.5まで0.05ずつ変更するという意味になります。

細かく指定できるパラメータも以下のページに記載されています。
caretパッケージで指定できるmethod一覧

・trControl

その他様々な指定をすることができます。
今回はクロスバリデーションを使用する場合のみを紹介しています。
 trControl = trainControl(method = "cv")

まとめ

パラメータチューニングやデータの前処理が難しいと思ったら迷わずcaretパッケージを利用しましょう!
XGBoostパッケージを使うことで確かに様々なパッケージのチューニングを試すことが可能ではありますが、断然caretパッケージの方が楽です。
もっと勉強しようと思います。

今回はこの2つの記事を参考にさせていただきました。(ほとんどこの記事と同じ内容です・・・)
Rによる機械学習:caretパッケージの使い方
機械学習アルゴリズム〜XGBoost〜

planningdev
九州工業大学 ITサービス開発・運用団体
https://www.planningdev.com/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした