はじめに
Dataiku DSSの使い方を学ぶのに最適なコンテンツとしてDataiku AcademyのFoundational Learningがある。しかし内容はすべて英語のため、読むのは面倒だという方のために実際にやってみて手順をまとめる。
今回やったのはUse Case: Predictive Maintenance。
概要
想定するユースケース
このユースケースではレンタカー会社のデータサイエンティストとして、自動車修理の予測を行う。
レンタカーを貸し出している最中の故障はとてもコストがかかるし、客にも迷惑がかかる。そのため、故障しそうな自動車を予測することで、これらの問題を解決したい。
今回、過去の故障の情報やメンテナンスの記録が手に入っているので、それらを用いて以下の2つの問いへの答えを導く。
- もっとも一般的な故障の原因は何か
- どの自動車が故障しそうか。
使用するデータ
今回のユースケースでは、以下の3つのデータが配布されている。(リンクをクリックすることでダウンロード可能)
- usage: 自動車が運転された距離(マイル)のデータ。様々な時点で記録されている。
- maintenance: 自動車の修理のデータ。いつ、どのパーツを、何個、なぜ修理したのかが記録されている。
- failure: 自動車が故障したかどうかのデータ。すべての記録がされているとは限らないので注意。
今の段階ではデータがどのようなものかは何となくわかっていれば良い。
ワークフロー概要
このユースケースを完了すると以下のようなフローがDataiku DSSで完成する。
このユースケースを実施することで、以下の5つを主に学ぶことができる。
- データのインポート
- データクリーニング
- データの結合、分割
- 故障の予測を行う機械学習モデルの作成
- ラベル無しデータへの機械学習モデルの適用
もちろん、書かれていることだけでなくいろいろ試してみることも大切なので、このフロー通りにすることにこだわる必要はない。
Dataiku AcademyのTutorial: BasicsとTutorial: From Lab to Flowを先にやっておくと、より理解しやすいかもしれない。
ユースケースの詳細手順
プロジェクトの作成とデータのインポート
始めにDataiku DSSにプロジェクトを作成して、データをインポートする。
データは上のリンクからダウンロードできる。
この辺はもうわかっているから簡単だという人は次のステップに進んでしまっても問題ない。
- "+ NEW PROJECT"をクリックし、"Blank project"を選択。Nameに
Predictive Maintenance
と入力し、"CREATE"をクリック。 (プロジェクト名は何でも構わないが、日本語の名前を付ける場合は、プロジェクトキーも自分で入力する必要がある。プロジェクトキーは日本語不可)
2. "+ IMPORT YOUR FIST DATASET"をクリックし、Fileの中の"Upload your files"を選択。データアップロードエリアにusage.csv.gzをドラッグ&ドロップ。
念のため"PREVIEW>"をクリックし、データが適切に読み込まれているか確認。問題がなければ、右上の"CREATE"をクリック。
3. フロー画面に戻り、右上の"+DATASET"→"Upload your files"を選択。failure.csv.gzおよびmaintenance.csv.gzも同様の方法でインポートする。
4. データのインポートが終わった状態のフローは以下のようになる。
usageデータセットの前処理
usageデータセットについて
- UseはTimeの時点で自動車が走った距離(マイル)の合計を記録したもの
- Timeはそのデータを記録した時を表しているが、その単位は不明。もしかするとある日付からの経過日数かもしれないが、本来であればデータを取った人に確認をとる必要がある
- Asset IDは資産番号であるが、このデータセットでは資産番号でデータが一意には定まらない
インポートしたcsvファイルでは、それぞれの列がstring型で保存されているが、Dataiku DSSはtext, integer, decimalなどデータの型を認識することができる(青い文字で書かれているのが認識した型である)。
保存された型がstringのままでは数値的な操作を行うことができないので、それをまずは修正していく。
2. "Check Now"をクリックすることでデータを正しい型に定める。
3. "Infer Types from Data"をクリックして変更した型を確定させる
Explore画面に戻ると、データの型が変更されているのがわかる(グレーの文字で書かれた型名が変更されている)。
それぞれの自動車は複数の時点でUseが記録されているが、モデルを作成する際には一つの自動車に一つのレコードであることが望ましい。そこで、recipeを用いてデータを集約する。
- usageデータセットをクリックし, Action menuから"Group"を選択する。
- Group ByにAssetを選択する。
- アウトプットにはデフォルト
usage_by_Asset
のまま。 - Group Keysの部分はデフォルトのまま、Per field aggregationsの部分ではTimeおよびUseの両方で"Min"と"Max"を選択する。
- "RUN"ボタンを押してこのレシピを実行することで6列のデータセットが出力される。
maintenanceデータセットの前処理
maintenanceデータセットはAssetごとにPart(何を直したか)、Time(いつ直したか)、Reason(故障の原因を表すコード)で構成されている。
usageデータセットの時と同様、一つの自動車に一つのレコードとなるように前処理を行う。しかし、ここで使用するのはGroupレシピではなく、Pivotレシピを用いる。
failureデータセットの前処理
failureデータセットはAssetとfailure_binの2列のみで形成されたデータセットである.
- Assetはすでに1つのIDに対して1つのレコードというデータにになっている。
- failure_binは0または1でAssetが故障したかどうかを示している。この変数を、予測モデル作成時のラベルとして使用する。
ここでは、前2つのデータセットに対しても行った、データの型認識のみを行えばよい。
データセットの結合
ここまでで、3つのデータセットすべてをAssetごとに記録されたデータに変更したので、次に行うのは、これらのデータセットの結合である。それぞれのデータセットには共通してAssetが存在するため、簡単にデータセットを結合させることができる。
- failureをクリックし、ACTIONメニューから"Join with"を選択する。
- Inputにusage_by_Assetを追加する。
- Outputには
data_by_Asset
と入力し、"CREATE RECIPE"をクリックする。 - 画面右上の"+ADD INPUT"をクリックし、3つ目のInputとしてmaintenance_by_Reasonsを追加する。
- デフォルトで設定されているのがどちらもLeft Joinであることと、Assetがキーになっていることを確認する(違う場合はルールの部分をクリックして設定を変更する)。
- "RUN"を押して実行。21列のデータセットが出力される。
出力されたdata_by_Assetはmaintenanceとusage、failureの情報を持ったデータセットである。
学習用&評価用データセットの作成
モデルを学習するために、Splitレシピを用いてdata_by_Assetを2つに分け、trainingとscoringを作成する。
- trainingデータセットは学習用のデータセットであり、故障したかどうかを判別するためのラベルがついている。
- scoringデータセットには、故障したかどうかを示すラベルがついていないため、作成したモデルを用いて故障する確率の高い自動車を予測する。
Splitの手順は以下の通り。
- data_by_Assetをクリックし、ACTIONメニューから"Split"を選択。
- "+ADD"からOutputに
training
とscoring
と追加し、"CREATE RECIPE"をクリック。 - Select Splitting methodでは、"Map values of a single column"を選択。その後の画面で、Split on columnにfailure_binを選択。based onはデフォルトの"Discrete values"のまま。
- Valueに
0
,1
を入力し、それぞれOutputにはtrainingを選択する。Other valuesのOutputはscoringにする。 - "RUN"でレシピを実行する。
この例では、scoringに分けたラベル無しのデータがなぜラベルがないのかは不明確である。ランダムに抜けているのか?それとも意味があって入力されていないのか?実際のデータ分析では非常に重要な点であるが、何も答えを得ることができないのでここでは気にせず進めることとする。
特徴量の生成
trainingデータセットを用いてモデルの作成を行う前に、いくつかの有益な特徴量を生成する。
今度は、試行錯誤をしながらデータセットの処理を行いたい場合に使用するLab機能を用いる。Labを用いることで、ワークフローに新たなデータセットを追加することなくデータの加工を行うことができる。Labについてもう少し詳しく知りたい場合は、チュートリアルのLab-to-Flowを確認する。
- trainingデータセットをクリックし、ACTIONメニューから"LAB"を選択する。
- 出てきた画面で、Visual analysis側にある"NEW Prepare data and build models"を選択する。入力する名前はデフォルトの
Analyze training
のままでよいので、"CREATE"をクリックする。 - するとPrepareレシピのような画面になる。ここで、2つの新しい変数をformulaを用いて作成する。
-
distance
: Use_max - Use_min -
time_in_service
: Use_max - Use_min
-
4. Fill empty cells with fixed valueを使用して、Reasonで始まる列の空の部分を、0で埋める。この時、列名の指定には、正規表現^R.*_Quantity_sum$
を用いる。
5. 最後に、作成するモデルの結果を見やすくするためにRename Columnsを用いて、列名を修正する。
変更前 | 変更後 |
---|---|
count | times_mesured |
Time_min | age_initial |
Time_max | age_last_known |
Use_min | distance_initial |
Use_max | distance_last_known |
予測モデルの作成
ここまでで学習モデルを作るための準備が整ったので、機械学習を使って自動車の故障を予測していく。
今、LabのScriptタブにいるので、上のタブからModelsタブに移動し、"CREATE FIRST MODEL"をクリックする。すると以下のどちらかを選ぶ画面が表示される。
- Prediction(予測・教師あり学習): 与えられた特徴量から、目的変数を予測する。
- Clustering(クラスタリング・教師なし学習): 共通のパターンや特徴に基づいてグループを作成する。
今回の場合はレンタカーが故障するかどうかを予測したいため、Predictionを選択する。
すると、目的変数を何にするか選ぶ画面になるのでSelect your target variableにおいて、failure_binを選択する。
その後、"Automated machine Learning", "Quick Prototypes"と選択していき、"CREATE"を押す。
後は、画面真ん中の"TRAIN"ボタンをクリックするだけで、学習が始まる。
ここで、余裕のある人はDESIGNタブに移動し、MetricsやFeatures handling、Algorithmsなどの設定をいろいろ試してみると、より良いモデルを作成できるかもしれない。
モデルの理解
学習が終わると、学習結果の概要がわかるような画面が表示される。設定した指標でモデルを評価し、一番精度の高かったモデルにはトロフィーマークがつく。今回の場合は、Random forestというモデルがROC AUCという指標で評価した場合に、一番性能の良いモデルという結果になった。
それぞれのモデルの詳細を知りたい場合は、そのモデル名をクリックすることで見ることができる。
今回は、一番性能の高かったモデルの詳細を確認するため、"Random forest"をクリック。すると以下の画面になる。
左側のサイドバーから見たい項目を選んで確認していく。今回は主に確認するべき項目をいくつか紹介する。
- Variable importance: どの特徴量がどれだけ予測に影響しているのかを見ることができる。
- Confusion matrix: モデルの精度についての詳細を見ることができる。
- Decision trees: 決定木系のモデルの場合、使用された決定木を見ることができ、学習の段階でどのように分類されたのかを確認することができる。(ランダムフォレストの場合も見ることができるが、木の数が多いためすべてを表示することはできない。)
今回作成したモデルでは、Variable importanceを見てみると、R193_Quantity_sum、time_in_service、age_initialなどが故障に大きく関係していることがわかる。
モデルの使用
作成したランダムフォレストモデルを使用して、ラベル無しデータであるscoringデータセットの予測を行う。
- モデルページの右上にある"DEPLOY"ボタンをクリック。
- 表示された画面では、すべてデフォルトのまま"CREATE"をクリック。
ワークフローの中にモデルが作成される。緑のアイコンのPrediction (RANDOM_FOREST_CLASSIFICATION) on trainingをクリックしACTIONメニューから"Score"を選択。
Input datasetにscoringを選択し、Outputは
scored
と入力する。Prediction Modelはデフォルトのまま"CREATE RECIPE"をクリック。
作成されたscoredデータセットには3つの新しい列が追加されている。
- proba_1: 故障する確率
- proba_0: 故障しない確率(1-proba_1)
- prediction: モデルが予測した結果(確率の閾値をもとに決定される)
以上で、このUse Case: Predictive Maintenanceは完了。
おわりに
自動車の故障の予測を行うまでの流れをDataiku DSSを用いて実行する方法を学んだ。
ここでは、Dataiku DSSのデフォルトの設定で予測を行ったが、このモデルにはまだまだ改善の余地がある。具体的には
- データセットの情報を組み合わせて新たな特徴量を作成する。
- 他のアルゴリズムを使用したり、パラメータを変更したりする。
などが考えられる。
Dataikuが公式でこのユースケースのサンプルプロジェクトも用意しているので、わからないところがあったり、より理解を深めたい場合は是非参考に。