More than 5 years have passed since last update.

Splunk でKaggleの Titanic に挑戦 - 3章：学習編

Last updated at 2019-09-15Posted at 2019-05-05

前回の前処理編に続き、今回はSplunk MLTKを使った学習編を書きたいと思います。やっと面白い機械学習に入ることができます。

その前に一旦、全体の流れのおさらいです。

1章：データ確認編：実際のデータを可視化して確認します。分析方針を決めるためにも重要なステップ
2章：処理編：機械学習ができるように、データを整形します。もっとも手間がかかるが重要なパート
3章：学習編：いくつかのアルゴリズムを利用して Train データを学習しモデルを作成します。
4章：実践編：最もよかった学習器を Testデータに適用して、Kaggleに Submitします。

Splunk MLTK とは

MLTKでは、回帰・分類・クラスタリング分析などが可能です。Splunkには元々pythonが組み込まれており、appによってさらに sckit-learnのライブラリが追加されることで、python で実行するのと同じようなことが実行可能となります。利用できるアルゴリズムは、バージョンごとに更新されておりますが、日本語マニュアルに一覧がありましたので、まずはこちらを参考にするのがいいと思います。
https://docs.splunk.com/images/7/78/Splunk-MachineLearning-QuickRefGuide-web_JA.pdf

また、MLTKにないモデルも追加することができます。こちらの Appを追加する事で、有志により作られた追加のアルゴリズムを利用可能です。（サポート対象外）注意点としては全てSPLによるコマンド実行になります。

Splunk MLTK Algorithms on GitHub
https://splunkbase.splunk.com/app/4403/

追加されるアルゴリズムはこちらで確認できます。
https://github.com/splunk/mltk-algo-contrib/tree/master/src/bin/algos_contrib
例えば、AdaBoostや、ExtraTreesClassifier。また CorrelationMatrixによる相関分析なども利用できます。

この他、自分で pythonコードを書いて、アルゴリズムをSplunkに追加することも可能です。（スキルのある人は是非挑戦してください）

ここでは、各アルゴリズムの詳細については解説しません。（というか知らないのも結構あるので出来ないというのが正解。。）
今回は生死の２択を予測するので、分類といわれる「カテゴリカルフィールドの予測」になります。パラメーターチューニングもあるので、対象のアルゴリズムについては簡単に調べておいた方がいいと思います。（もちろんデフォルトパラメータでもある程度の精度は出せますが）

学習開始

学習フェーズの大まかな流れはこちらです。

目的を決める（今回はカテゴリカルフィールドの予測）
データを読み込む（２章で前処理が終わったデータ）
MLTKにある前処理を実行するか検討する（標準化やフィールドセレクトなどが利用できる）
モデルを選択して、学習開始
パラメーターを変更して評価値の一番いいモデル・パラメーターを保存する
3-5 を繰り返し、一番いい結果のモデルを保存する

1. 目的を決める

MLTK を開いて、「Experiments」タブを選択します。今回は「カテゴリカルフィールドの予測」を選択し、「Create New Experiment」を押して新規作成します。これによって、必要なアルゴリズムが用意された状態で利用できますし、モデルを保存しておくことができます。

2. データを読み込む

今回は、２章で最後に保存した kaggle-train.csv を利用します。

3. MLTKにある前処理を実行するか検討する

MLTKに用意されている前処理はこちらです。

StandardScaler は、フィールド内のデータを正規化してくれます。これによりデータの大きさ・単位がバラバラでも同じスケールで分析できます。今回は、Ageと Fareに対して実行してみたいと思います。（すでにこの２つはグループ化してますが、特徴抽出でどれを利用するか決める事にします。）

残りの４つは特徴抽出とよばれるもので、基本的にはどれも目的は同じで、重要なフィールドを選択してくれます。選択するためのアルゴリズムがそれぞれ違う感じです。私も詳しくはわからないのですが、PCAなどは次元削減などで利用され、指定した数まで減らすことができますが、特徴量をみてもどのフィールドが有効だったかわかりづらくなります。FieldSelectorはその名の通りですが、有効なフィールドがそのまま残りますので、後から分析しやすいです。TFIDFは文章の重要な単語などを選択するときによく使われますが、それを特徴量抽出に利用しているのだと思います。重要な文字列を抽出して、それをOneHotEncoding とかするのかな。（正直、どう使っていいかわかってません）

特徴抽出は特徴量が多すぎるときなどに利用することで精度があがります。今回はFieldSelector を使ってみました。