More than 5 years have passed since last update.

Dataiku AcademyのUse Case: Predictive Maintenanceをやってみる

Posted at 2020-03-25

はじめに

Dataiku DSSの使い方を学ぶのに最適なコンテンツとしてDataiku AcademyのFoundational Learningがある。しかし内容はすべて英語のため、読むのは面倒だという方のために実際にやってみて手順をまとめる。
今回やったのはUse Case: Predictive Maintenance。

概要

想定するユースケース

このユースケースではレンタカー会社のデータサイエンティストとして、自動車修理の予測を行う。
レンタカーを貸し出している最中の故障はとてもコストがかかるし、客にも迷惑がかかる。そのため、故障しそうな自動車を予測することで、これらの問題を解決したい。
今回、過去の故障の情報やメンテナンスの記録が手に入っているので、それらを用いて以下の2つの問いへの答えを導く。

もっとも一般的な故障の原因は何か
どの自動車が故障しそうか。

使用するデータ

今回のユースケースでは、以下の3つのデータが配布されている。(リンクをクリックすることでダウンロード可能)

usage: 自動車が運転された距離(マイル)のデータ。様々な時点で記録されている。
maintenance: 自動車の修理のデータ。いつ、どのパーツを、何個、なぜ修理したのかが記録されている。
failure: 自動車が故障したかどうかのデータ。すべての記録がされているとは限らないので注意。

今の段階ではデータがどのようなものかは何となくわかっていれば良い。

ワークフロー概要

このユースケースを完了すると以下のようなフローがDataiku DSSで完成する。

このユースケースを実施することで、以下の5つを主に学ぶことができる。

データのインポート
データクリーニング
データの結合、分割
故障の予測を行う機械学習モデルの作成
ラベル無しデータへの機械学習モデルの適用

もちろん、書かれていることだけでなくいろいろ試してみることも大切なので、このフロー通りにすることにこだわる必要はない。
Dataiku AcademyのTutorial: BasicsとTutorial: From Lab to Flowを先にやっておくと、より理解しやすいかもしれない。

ユースケースの詳細手順

プロジェクトの作成とデータのインポート

始めにDataiku DSSにプロジェクトを作成して、データをインポートする。
データは上のリンクからダウンロードできる。
この辺はもうわかっているから簡単だという人は次のステップに進んでしまっても問題ない。

"+ NEW PROJECT"をクリックし、"Blank project"を選択。NameにPredictive Maintenanceと入力し、"CREATE"をクリック。
(プロジェクト名は何でも構わないが、日本語の名前を付ける場合は、プロジェクトキーも自分で入力する必要がある。プロジェクトキーは日本語不可)

2. "+ IMPORT YOUR FIST DATASET"をクリックし、Fileの中の"Upload your files"を選択。データアップロードエリアに_usage.csv.gz_をドラッグ&ドロップ。
念のため"PREVIEW>"をクリックし、データが適切に読み込まれているか確認。問題がなければ、右上の"CREATE"をクリック。

3. フロー画面に戻り、右上の"+DATASET"→"Upload your files"を選択。_failure.csv.gz_および_maintenance.csv.gz_も同様の方法でインポートする。
4. データのインポートが終わった状態のフローは以下のようになる。

_usage_データセットの前処理

_usage_データセットについて

_Use_は_Time_の時点で自動車が走った距離(マイル)の合計を記録したもの
_Time_はそのデータを記録した時を表しているが、その単位は不明。もしかするとある日付からの経過日数かもしれないが、本来であればデータを取った人に確認をとる必要がある
_Asset ID_は資産番号であるが、このデータセットでは資産番号でデータが一意には定まらない

インポートしたcsvファイルでは、それぞれの列がstring型で保存されているが、Dataiku DSSはtext, integer, decimalなどデータの型を認識することができる(青い文字で書かれているのが認識した型である)。

保存された型がstringのままでは数値的な操作を行うことができないので、それをまずは修正していく。

"Settings"タブをクリックした後、"Schema"を選択する。

2. "Check Now"をクリックすることでデータを正しい型に定める。

3. "Infer Types from Data"をクリックして変更した型を確定させる

Explore画面に戻ると、データの型が変更されているのがわかる(グレーの文字で書かれた型名が変更されている)。

それぞれの自動車は複数の時点で_Use_が記録されているが、モデルを作成する際には一つの自動車に一つのレコードであることが望ましい。そこで、recipeを用いてデータを集約する。

_usage_データセットをクリックし, Action menuから"Group"を選択する。
Group Byに_Asset_を選択する。
アウトプットにはデフォルトusage_by_Assetのまま。
Group Keysの部分はデフォルトのまま、Per field aggregationsの部分では_Time_および_Use_の両方で"Min"と"Max"を選択する。
"RUN"ボタンを押してこのレシピを実行することで6列のデータセットが出力される。

_maintenance_データセットの前処理

maintenance_データセットは_Asset_ごとに_Part(何を直したか)、Time(いつ直したか)、Reason(故障の原因を表すコード)で構成されている。
_usage_データセットの時と同様、一つの自動車に一つのレコードとなるように前処理を行う。しかし、ここで使用するのはGroupレシピではなく、Pivotレシピを用いる。

まず、_usage_データセットにも行ったように、データの型の認識を行う。
次に、ACTIONメニューから"Pivot"を選択する。
- Inputには_maintenance_を入力し、Pivot Byには_Reason_を選択する
- Outputはデフォルトで入力されているmaintenance_by_Reasonのまま"CREATE RECIPE"をクリック。
- Row identifiersに_Asset_を選択する。
- Create columns withには_Reason_が既に選択されているのでそのままで、Pivot valuesを"all"に変更する。
- Populate content withはCount of recordのチェックは外し、"sum(Quantity)"を選択する。
"RUN"を押して、recipeを実行する。

_failure_データセットの前処理

_failure_データセットは_Asset_と_failure_bin_の2列のみで形成されたデータセットである.

_Asset_はすでに1つのIDに対して1つのレコードというデータにになっている。
_failure_bin_は0または1で_Asset_が故障したかどうかを示している。この変数を、予測モデル作成時のラベルとして使用する。

ここでは、前2つのデータセットに対しても行った、データの型認識のみを行えばよい。

データセットの結合

ここまでで、3つのデータセットすべてを_Asset_ごとに記録されたデータに変更したので、次に行うのは、これらのデータセットの結合である。それぞれのデータセットには共通して_Asset_が存在するため、簡単にデータセットを結合させることができる。

_failure_をクリックし、ACTIONメニューから"Join with"を選択する。
Inputに_usage_by_Asset_を追加する。
Outputにはdata_by_Assetと入力し、"CREATE RECIPE"をクリックする。
画面右上の"+ADD INPUT"をクリックし、3つ目のInputとして_maintenance_by_Reasons_を追加する。
デフォルトで設定されているのがどちらも__Left Join__であることと、_Asset_がキーになっていることを確認する(違う場合はルールの部分をクリックして設定を変更する)。
"RUN"を押して実行。21列のデータセットが出力される。

出力された_data_by_Asset_は_maintenance_と_usage_、_failure_の情報を持ったデータセットである。

学習用&評価用データセットの作成

モデルを学習するために、Splitレシピを用いて_data_by_Asset_を2つに分け、_training_と_scoring_を作成する。

_training_データセットは学習用のデータセットであり、故障したかどうかを判別するためのラベルがついている。
_scoring_データセットには、故障したかどうかを示すラベルがついていないため、作成したモデルを用いて故障する確率の高い自動車を予測する。

Splitの手順は以下の通り。

_data_by_Asset_をクリックし、ACTIONメニューから"Split"を選択。
"+ADD"からOutputにtrainingとscoringと追加し、"CREATE RECIPE"をクリック。
Select Splitting methodでは、"Map values of a single column"を選択。その後の画面で、Split on columnに_failure_bin_を選択。based onはデフォルトの"Discrete values"のまま。
Valueに0, 1を入力し、それぞれOutputには_training_を選択する。Other valuesのOutputは_scoring_にする。
"RUN"でレシピを実行する。

この例では、_scoring_に分けたラベル無しのデータがなぜラベルがないのかは不明確である。ランダムに抜けているのか？それとも意味があって入力されていないのか？実際のデータ分析では非常に重要な点であるが、何も答えを得ることができないのでここでは気にせず進めることとする。

特徴量の生成

trainingデータセットを用いてモデルの作成を行う前に、いくつかの有益な特徴量を生成する。
今度は、試行錯誤をしながらデータセットの処理を行いたい場合に使用する__Lab__機能を用いる。Labを用いることで、ワークフローに新たなデータセットを追加することなくデータの加工を行うことができる。Labについてもう少し詳しく知りたい場合は、チュートリアルのLab-to-Flowを確認する。

_training_データセットをクリックし、ACTIONメニューから"LAB"を選択する。
出てきた画面で、Visual analysis側にある"NEW Prepare data and build models"を選択する。入力する名前はデフォルトのAnalyze trainingのままでよいので、"CREATE"をクリックする。
するとPrepareレシピのような画面になる。ここで、2つの新しい変数をformulaを用いて作成する。
- distance: Use_max - Use_min
- time_in_service: Use_max - Use_min

4. Fill empty cells with fixed valueを使用して、_Reason_で始まる列の空の部分を、0で埋める。この時、列名の指定には、正規表現^R.*_Quantity_sum$を用いる。

5. 最後に、作成するモデルの結果を見やすくするためにRename Columnsを用いて、列名を修正する。

変更前	変更後
count	times_mesured
Time_min	age_initial
Time_max	age_last_known
Use_min	distance_initial
Use_max	distance_last_known

予測モデルの作成

ここまでで学習モデルを作るための準備が整ったので、機械学習を使って自動車の故障を予測していく。
今、LabのScriptタブにいるので、上のタブからModelsタブに移動し、"CREATE FIRST MODEL"をクリックする。すると以下のどちらかを選ぶ画面が表示される。

Prediction(予測・教師あり学習): 与えられた特徴量から、目的変数を予測する。
Clustering(クラスタリング・教師なし学習): 共通のパターンや特徴に基づいてグループを作成する。

今回の場合はレンタカーが故障するかどうかを予測したいため、Predictionを選択する。
すると、目的変数を何にするか選ぶ画面になるのでSelect your target variableにおいて、_failure_bin_を選択する。
その後、"Automated machine Learning", "Quick Prototypes"と選択していき、"CREATE"を押す。

後は、画面真ん中の"TRAIN"ボタンをクリックするだけで、学習が始まる。
ここで、余裕のある人はDESIGNタブに移動し、MetricsやFeatures handling、Algorithmsなどの設定をいろいろ試してみると、より良いモデルを作成できるかもしれない。

モデルの理解

学習が終わると、学習結果の概要がわかるような画面が表示される。設定した指標でモデルを評価し、一番精度の高かったモデルにはトロフィーマークがつく。今回の場合は、Random forestというモデルがROC AUCという指標で評価した場合に、一番性能の良いモデルという結果になった。

それぞれのモデルの詳細を知りたい場合は、そのモデル名をクリックすることで見ることができる。
今回は、一番性能の高かったモデルの詳細を確認するため、"Random forest"をクリック。すると以下の画面になる。

左側のサイドバーから見たい項目を選んで確認していく。今回は主に確認するべき項目をいくつか紹介する。

Variable importance: どの特徴量がどれだけ予測に影響しているのかを見ることができる。
Confusion matrix: モデルの精度についての詳細を見ることができる。
Decision trees: 決定木系のモデルの場合、使用された決定木を見ることができ、学習の段階でどのように分類されたのかを確認することができる。(ランダムフォレストの場合も見ることができるが、木の数が多いためすべてを表示することはできない。)

今回作成したモデルでは、Variable importanceを見てみると、R193_Quantity_sum、time_in_service、_age_initial_などが故障に大きく関係していることがわかる。

モデルの使用

作成したランダムフォレストモデルを使用して、ラベル無しデータである_scoring_データセットの予測を行う。

モデルページの右上にある"DEPLOY"ボタンをクリック。
表示された画面では、すべてデフォルトのまま"CREATE"をクリック。
ワークフローの中にモデルが作成される。緑のアイコンの_Prediction (RANDOM_FOREST_CLASSIFICATION) on training_をクリックしACTIONメニューから"Score"を選択。
Input datasetに_scoring_を選択し、Outputはscoredと入力する。Prediction Modelはデフォルトのまま"CREATE RECIPE"をクリック。
表示された画面ではすべてデフォルトのまま"RUN"ボタンを押して実行。

作成された_scored_データセットには3つの新しい列が追加されている。

proba_1: 故障する確率
proba_0: 故障しない確率(1-proba_1)
prediction: モデルが予測した結果(確率の閾値をもとに決定される)

以上で、このUse Case: Predictive Maintenanceは完了。

おわりに

自動車の故障の予測を行うまでの流れをDataiku DSSを用いて実行する方法を学んだ。
ここでは、Dataiku DSSのデフォルトの設定で予測を行ったが、このモデルにはまだまだ改善の余地がある。具体的には

データセットの情報を組み合わせて新たな特徴量を作成する。
他のアルゴリズムを使用したり、パラメータを変更したりする。

などが考えられる。

Dataikuが公式でこのユースケースのサンプルプロジェクトも用意しているので、わからないところがあったり、より理解を深めたい場合は是非参考に。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up