Auto MLとは
最近AutoMLのソフトが色々と出てきてます。
さて、AutoMLですが、簡単に説明するとデータを突っ込んでUI使って操作するだけで機械学習できるようにしたものです。
現状、機械学習というとpythonやRでプログラム(コード)を書きながら機械学習モデルを作り上げていくのですが、これが大変時間がかかる....。
AutoMLはそのコーディング過程を省略できるというメリットがあります。
さらにUIを使って分かりやすく補助してくれたり、本来前処理や特徴量エンジニアリングと言われる機械学習エンジニアの腕の見せ所のテクニック部分がAutoMLの中では自動的に処理されたりします。
そのためノンプログラマーでも、機械学習に詳しくなくても利用できるわけです。
コーディングに時間をとられないことによって、結果の解釈や、新たなデータを使って仮説検証したり、多くのアルゴリズム・パラメータ探索へ時間を割けるので、教育の場でも使われたりしているみたいですよ。(滋賀大学とか)
今回は「Data Iku」というソフトを使う
DataIkuは2013年にパリで設立され、現在の本社はニューヨーク市にある会社です。
DataIkuの出しているDSSイメージを使ってAutoMLを試してみようと思います。
インストール・起動
1.仮想マシン「virtual box 」をダウンロード
2.data iku「DSSイメージ」をダウンロード
3.virtual boxの左上のファイルから、アプライアンスのインストールを選択してDSSイメージを取り込む
4.起動すると「http ~」が表示されるのでブラウザに入力する
いくつか手順に従って登録する。
今回アカウントは試しの範囲でFree editionを選択する。
Data iku の操作
無料ライセンスで登録が終了するとブラウザ上で以下のような画面が出てくる。
Blank projectを選択する。プロジェクト名はとりあえず何でもいい。
import data から分析したいデータをアップロードする。
アップロードが終わるとpreviewするか聞かれるのでpreviewを押すと
上記のように確認ができる。文字化け、区切り文字指定、データのヘッダー部分の除去などを一旦行う。
確認ができたら右上のcreateを押すとプロジェクトが作成される。
データの分析からモデリングへ
画面左上の円形アイコンからvisual analysisを選択。
new analysisで新たな分析の準備をする。
「analysis」とあるように、データを可視化したり、UI上で修正したりする作業ができる。
可視化したい時は図の右上にある「charts」を開く。
以下にUI上で可視化する例を載せておく。
データに対する処理が終わったところで早速機械学習モデルを作っていく。
「charts」の右の「models」を選択し、create fast modelからモデルを作っていく。
今回は特に指定せずお任せで進めて行った結果、randam forestとXGBoostが選択されました。
expart modelから進めて行けばdeep learningも選択できます。
深層学習にはkeras/tensor flow を使っているようです。
処理画面にある通り、いくつかのパラメータ探索や、交差検証を自動で行ってくれています。
図上では学習曲線の評価にR2 scoreを使っていますが、この評価指標も事前に変更しておくことが可能です。
決定木モデルなので特徴量の重要度もレポートされてくるし、
グリッドサーチの結果を表示させることもできます。
完成したモデルを選択して、右上のdeployボタンから
export jupyter notebookを選択すると、
notebook形式で出力してくれます。
APIとして利用
パラメータ探索やモデル選択が自動でできると機械学習エンジニアとしてはそれだけでも便利なのですが、AutoMLはノンプログラマ向けに、極力プログラミングせずともモデルが利用できるようになっています。
左上Flowのタブからcreate APIというボタンを見つけ出してください。
APIの利用登録をしていると、先ほどのnotebookにAPI指定をして動かすだけで作成済モデルを読み込むことができ、コーディングせずとも色々なPCからモデルを動かすことができるようになるそうです。
APIの利用方法・・・
は、課金してないので紹介できません。
興味あったら皆さんでやってみてください。
まとめ
プログラミングアレルギーでなく、pythonコードが書けるなら似たような体系的処理とか作って自分でやった方が自由度高そう。
data robotあたりはもうちょっとバリエーションあって遊んでみると面白いのかも。
ただdata robotはお試しが無いので試せない。
data robotの社員さん、使わせてくりぃ~~~。
おわり
公式の該当するリンクを残しときます