Collaborative Data Science - Databricksをベースにした記事です。
Databricksクイックスタートガイドのコンテンツです。
データサイエンティストは、データサイエンスワークフローを通じて生産性を阻害する数多くの課題に直面します。企業がよりデータドリブンになるに従い、データ、そして、データを用いてトレーニングしたモデルに容易にアクセスでき、可視性、再現性を確保し、データから洞察を得るためのコラボレーション環境は重要となります。
課題
- 大規模データの探索は困難かつ高コストです。
- インフラストラクチャとDevOpsの管理に多くの時間を費やしています。
- より詳細な分析を行うために様々ななオープンソースのライブラリ、ツールを組み合わせる必要があります。
- データエンジニアリングチームとデータサイエンスチーム間で複数の引き渡しが発生し、エラーが混入しやすく、リスクを増大させます。
- 複雑なML(機械学習)環境、依存関係によりローカルでの開発からクラウドベースの開発に移行することが困難です。
ソリューション
- 後段の分析で用いるクリーンかつ信頼性のあるデータへのクイックアクセス
- データサイエンスワークスペースで事前設定済みのクラスターにワンクリックでアクセス
- 最大の柔軟性を得るために、お使いの環境の持ち込み、複数言語をサポート
- データ準備からモデリング、洞察の共有に至るエンドツーエンドのデータサイエンスワークフローを円滑にするための統合的アプローチ
- 事前設定済みかつカスタマイズ可能なMLクラスターへのコードのマイグレーション及びリモート実行
データサイエンスのためのDatabricks
Databricksは、データ準備から探索的分析、予兆分析に至る全てのタイプの分析ワークロードをコラボレーションを通じて実行できるオープンかつ統合されたプラットフォームです。
ワークスペース
ノートブック、エクスペリメント、プロジェクトをロールベースのアクセスコントロールのもとで格納、共有できる集中管理された作業場所です。
Databricksワークスペースは複数ユーザーが共同作業を行うための作業場所と言えます。Databricksにアクセスし、画面右側のサイドメニューからWorkspaceを選択することで、ワークスペースの全ユーザーのホームディレクトリを参照することができます。
階層のトップレベルには以下のフォルダーが存在しています。他のユーザーと共同作業する際にはこれらのフォルダーにアクセスすることになります。あるいは、Databricksノートブック(そしてセル)には一意のURLが割り振られますので、URLをシェアすることで当該のノートブックに直接アクセスすることができます。セルのURLに関してはこちらを参照ください。
Usersをクリックすると、一番上にはご自身のホームディレクトリが表示され、以降に他のユーザーのホームディレクトリがアルファベット順に表示されます。なお、後述するアクセス権で、他のユーザーが参照できるように設定がなされていないユーザーは表示されません。
ノートブック
ビルトインのインタラクティブな可視化機能、自動バージョン管理、コメント、Git連携、ロールベースのアクセス管理を行える複数言語をサポートするノートブックです。ノートブックのURLをシェアすることで、同時参照、同時編集を行うこともできます。
Users配下のノートブックで共同作業を行う際には、アクセスしてほしいユーザーのアクセスを許可する必要があります。
以下の動画で説明しているように、ノートブックの画面の右上にあるShareボタン(以前はPermissionsボタンでしたがShareボタンに変更されました)を押すことで、ノートブックに対するアクセス権を設定することができます。誰に対して何の操作を許可するのかを指定します。参照のみを許可するのであればCan Read、実行を許可するのであればCan Run、編集も許可するのであればCan Editを選択します。フルコントロールを許可するのであればCan Manageを選択します。ここでは、ノートブックのアクセス権を説明しましたが、同様にクラスター、フォルダー、エクスペリメントなどDatabricks上のオブジェクトはアクセス権を設定することが可能です。詳細は[Databricksにおけるワークスペースオブジェクトのアクセスコントロール]
(https://qiita.com/taka_yayoi/items/2dd6711b7b254505e4a3)を参照してください。
他のユーザーがノートブックにアクセスすると、ノートブックの右上に他のユーザーのアクセスを示すアイコンが表示され、他のユーザーがどのセルで作業しているのかが分かるように、セルがハイライトされ、カーソルが表示されます。
ノートブック上にキーワードレベルでコメントを残すことも可能です。リアルタイムでのコミュニケーションが難しい場合に活用することができます。
コメントをつけたいキーワードを選択すると、セルの右側に吹き出しマークが表示されます。これをクリックするとコメントを入力できるようになります。
全てのコメントを表示するにはノートブック右上のCommentsボタンをクリックします。Replyすることも可能です。
データストア
全ての利用可能なデータにアクセスできる集中管理されるデータストアです。スキーマ、以前のバージョンのデータにもアクセスすることができます。
ダッシュボード
ノートブックの実行結果をクイックに共有可能なダッシュボードにすることができます。ダッシュボードは常に最新の状態に保たれ、インタラクティブなクエリーを実行することもできます。
実験(エクスペリメント)トラッキング
機械学習モデル構築で使用したソースコード、パラメータ、結果、アーティファクト、使用されたデータなどは自動で記録され、他のユーザーと共有することができます。
大規模コラボレーティブデータサイエンス
Databricksを活用することで、大規模なデータを活用する多人数から構成されるデータサイエンティストチーム、データエンジニアリングチーム、データアナリスト、MLOps/DevOpsチーム、ITチームなど、AI/機械学習プロジェクトに関わる全ての方が連携しながら作業を進めることができます。
データサイエンスワークフロー全体を通じたコラボレーション
Databricksノートブック上でコラボレーションしながら、Python、R、Scala、SQLのコードを記述し、インタラクティブなビジュアライゼーションを行い、新たな洞察を得ることができます。
共同編集、コメント、自動バージョン管理、Git連携、ロールベースのアクセスコントロールを通じて、セキュアかつ信頼性高くコードを共有することができます。
一つの場所で全てのエクスペリメント(モデルのトレーニング)とモデルを記録することで知識を蓄え、ダッシュボードを公開することで、生データから洞察に至るワークフロー全体を通じて、同僚・ステークホルダーへの作業の引き渡しをファシリテートします。
インフラストラクチャではなくデータサイエンスへのフォーカス
もはや、お使いのラップトップに収まるようにデータを制限することや、利用できる計算リソースに苦慮する必要はありません。
お使いのローカル環境をクイックにクラウドに移行することができ、自動で管理されるクラスターにノートブックを接続することで、みなさまな分析ワークロードを必要なだけスケールさせることができます。
PyCharm、Jupyter Lab、RStudioからスケーラブルな計算資源を活用
我々は皆様がどれだけ多忙であるのかを知っています...おそらく、すでに皆様のラップトップには数百のプロジェクトが存在しており、特定のツールセットに習熟しているのだと思います。
お使いのIDEをDatabricksに接続することで、無限のデータストレージと計算リソースを活用することができます。あるいは、シンプルにDatabricks内でRStudioやJupyter Labから直接接続することも可能です。
データサイエンスに活用するデータの準備
Delta Lakeを用いることで、バッチ、ストリーミング、構造化データ、非構造化データの全てのデータを一つの場所でクリーンにし、カタログ化します。これにより、集中管理されたデータストアを企業全体で活用できるようになります。
新たな洞察の発見及び共有
ビルトインのインタラクティブなビジュアライゼーション、matplotlib、ggplotのようなライブラリを用いて新たな洞察を得ることができます。
分析結果を動的なダッシュボードにクイックに切り替えることで、分析結果を容易に共有することができます。ダッシュボードは常に最新の状態に保たれ、インタラクティブなクエリーを実行することもできます。
ノートブック、セル、ダッシュボードはロールベースのアクセスコントロールを通じて共有することができ、HTML、IPythonノートブックなどの複数のフォーマットでエクスポートすることも可能です。
最新MLフレームワークへのシンプルなアクセス
scikit-learn、XGBoost、TensorFlow、Kerasのような人気のあるフレームワークが同梱された最適化機械学習環境にワンクリックでアクセスできるので、すぐに作業に取り掛かることができます。あるいは、Condaを用いて簡単にML環境を移行しカスタマイズすることができます。Databricksにおけるスケーリングは簡素化されており、簡単に小規模データからビッグデータに移行することができるので、お使いのラップトップにデータが収まるかどうかを悩む必要はありません。
MLランタイムはハイパーパラメーターチューニング、モデル検索を行うビルトインのAutoML機能を提供しており、データサイエンスワークフローを加速させるお手伝いをします。例えば、ロジスティック回帰、ツリーベースのモデル、GraphFramesなど一般的に用いられているアルゴリズム、フレームワークでビルトインの最適化を行うことでトレーニングに要する時間を短縮します。
結果の自動追跡および再現性の確保
マネージドMLflowを用いることで、フレームワークを用いたエクスペリメントを自動で追跡し、ラン(トレーニング)ごとのパラメータ、結果、コードバージョンを記録します。
ワークスペース、プロジェクト間、あるいは特定のノートブックでセキュアに全てのエクスペリメントを共有し、検索、可視化を行うことが可能です。
トレーニング結果のソート、フィルタリングを通じて結果の比較を行い、洗練されたビジュアライゼーションを用いることで、お使いのモデルのベストバージョンを特定することを支援し、特定のトレーニングの適切なバージョンにクイックにアクセスすることが可能となります。
大規模なオペレーションへの移行
データ変換、モデル構築、最新結果の共有を自動実行するようにノートブックをスケジューリングすることができます。
アラートを設定し、モニタリング、トラブルシュートを容易にするために監査ログにクイックにアクセスすることができます。
お客様事例
在庫管理で数百万ドルを節約
Shellにおいては、自身の設備の破損に備えるためスペアパーツの在庫管理を行なっていますが、これを最適管理するためにグローバルでデータサイエンスを活用し、10億ドルのコスト削減を実現しています。