これまで良さそうな雰囲気はしつつも何となく日が当たらなかったCloud Datalabですが、Google Cloud NEXTのタイミングにあわせて、2017/3/8にBETAからGAとなっており、v1.0が出ていました。
結構すごいはずなのにまだ注目を浴びていないので、少しずつDatalabの魅力を伝えていこうと思います。(たぶん3回くらいに分けて記事を書きます。)まずはCloud Datalabの概観をお伝えします。
Cloud Datalabとは?
- GCP上でデータ分析や可視化、機械学習のためのインタラクティブな分析環境です
- データ分析者に人気のJupyterをベースに開発されているので、すでにJupyterを使っているユーザーにとってはスムーズに移行できるいい感じツールです
- GCP上で動かすメリットとして、BigQuery、GCS、CloudML Engineと統合されているため、シームレスに大きなデータを触ることができます
- Datalab自体はGCE上で動かすことを前提として、Dockerイメージとしてgithubで公開されています
価格
- Datalab自体には特に費用は発生しません
- ただしDatalabはGCE上で動作させることが前提になっているため、利用するGCE分の費用が発生します
- その他、GCPのコンポーネントの費用を利用した分だけ課金されます
- BigQueryとかGCSとか
- その他、デフォルトで永続化のためにディスクを作成し、GCSにもバックアップ用にデータを保持しますので、その辺の費用がデフォルトでは発生します。
- その他、GCPのコンポーネントの費用を利用した分だけ課金されます
起動とかいろいろ
ほぼCloud DatalabのQuickStart通りです。
インストール
Google Cloud SDKがインストールされている前提で、追加でdatalabコマンドを取得しておきます
$ gcloud components install datalab
セットアップ
プロジェクトとかゾーンとかのセットアップをしておくと、コマンドのオプションにつけなくて済むので楽ちんです。上述の通り、GCE上で動かすものなので、GCEに関連する設定をします。
$ gcloud config set core/project ${PROJECT_ID}
$ gcloud config set compute/zone ${ZONE}
Datalab用のインスタンスの立ち上げと、Datalabへの接続
$ datalab create ${INSTANCE_NAME}
これで、Datalab用のインスタンスが立ち上げられ、いい感じにネットワークを作って設定してくれて、ブラウザが立ち上がってDatalabに接続されます。楽ちんです。
Jupyterを使ったことのある人には何となく何をしたらいいか分かる画面ですね。
サインイン
ブラウザ上から自分のアカウントでサインインします。Datalabが他のGCPのサービスを使うのにサービスアカウントを使っているからということです。GUIからなので楽ちんです。
後はお好きに分析を
Jupyterに馴染んでる方でしたら、好きに分析をしていけます。慣れていない方にも素敵なREADMEが同梱されているので、そこに従っていけば、notebookの使い方、BigQueryやGCSとの連携について理解できると思います。とりあえずここ見とけページがdatalabを立ち上げたら見れるので楽ちんです。
終わったら
使いたいだけ使ったらさよならできるのがクラウドのいいところ。さよならしましょう。
$ datalab delete ${INSTANCE_NAME}
さよならするのも楽ちんです。ただし、これは、インスタンスを削除しているだけなので、課金をこれ以上されたくない、という場合には、デフォルトで作られるディスク(notebookの内容自体はこちらにマウントされている)を削除したり、バックアップのGCSを削除したりするのを忘れてはいけません。
雑感
- Jupyterの環境をものすごくお手軽に構築できるのは良いですね
- Jupyter単体で動かす以上に他のクラウドサービスと統合されているのは良さそうです
- クラウドならではのメリットがありそうなので、もう少し深掘りして良さそうです
次回はDatalab自体についてもう少し詳しくみていきます。