Use Workspace Files with an Improved Editing Experience - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
同じエディタでファイルとノートブックを一緒に操作
本日、Databricksワークスペース全体を通じたFilesの正式提供を発表できることを嬉しく思っています。Filesのサポートによって、Databricksのユーザーはノートブックと同じ場所にPythonソースコード、参照データセット、その他のタイプのファイルコンテンツを格納することができます。また、インラインコードの実行をサポートするリッチなファイルエディターを正式提供します。この新たなエディターは、ファイルエディタに数多くのノートブックの機能を提供します:タイプしながらのオートコンプリート、オブジェクト調査、コードの折りたたみなどによって、さらにパワフルな編集体験を提供します。
ワークスペースにおけるFilesのサポートによって、Databricks Reposに慣れ親しんでいるユーザーの能力を拡張し、バージョン管理システムを使っているかどうかに関係なく、プラットフォーム全体でこれらの機能を活用できるようになります。
Filesによるソフトウェア開発ベストプラクティスの実現
ワークスペースのFilesは、モジュール化されたコード、ユニットテスト、ライブラリやアーティファクトの再利用、コードとしてのソフトウェアの依存関係の指定のようなソフトウェア開発ベストプラクティスを適用できる領域を拡張します。これまでは、Databricksワークスペースはノートブックとノートブックを格納するフォルダーしかサポートしていませんでしたが、ワークスペースに200MB以下のファイルを作成、格納することができます。これらには、ソースコードや関連する要件(Pythonスクリプト、モジュール、requirements.txt、.whlファイルなど)、小規模なサンプルデータ(.csvファイルなど)などが含まれます。
ワークスペースファイルを活用することのメリットは:
-
コードのモジュール化と再利用: Filesのサポートによって、大規模かつセルの多いノートブックを小規模かつより理解しやすいモジュールにリファクタリングすることができます。お使いのノートブックは
import
を用いてこれらのモジュールを参照することができます。 - テスト: ノートブックやモジュールでコードに対するユニットテストを作成し、これらのテストをソースコードの隣にファイルとしてパッケージすることができます。
- 初期化スクリプト: ワークスペースファイルにクラスタースコープの初期化スクリプトを格納することができます。これらは、許可されたユーザーのみが編集できるようにアクセスコントロールすることができます。
- ライブラリとアーティファクトの再利用: ノートブックと一緒にWheel、Jar、Pythonライブラリのソースを格納できるので、これらのノートブックの成果を容易に共有、配布、再現できるようになります。
-
ソフトウェア依存関係管理の改善: requirements.txtファイルを用いることで、ノートブックやワークスペースにある他のPythonコード資産へのソフトウェア依存関係をカプセル化することができるので、当該ソフトウェア環境の将来的な複製をシンプルな
%pip -r
の呼び出しにまとめることができます。
ファイルによるワークスペースにおけるソフトウェア依存関係の同梱
アクセスコントロールリストによるファイルやフォルダーへのセキュアなアクセス
オブジェクトのアクセスコントロールリスト(ACL)を用いて個々のファイルやフォルダーへのアクセスを保護します。ここのファイルやフォルダーへのアクセスをアクセス権を持っているユーザーやグループにのみ限定することができます。
ワークスペースブラウザやオブジェクトから個々のファイル、フォルダへのアクセスを管理
パワフルなファイル編集と実行による生産性のブースト
アップデートされたファイルエディタは、以前のファイル編集体験をノートブックで使われているのと同じもので置き換えることで、ファイルとノートブックの作成体験を統合します。
新たなエディタは以下を含む改善されたプログラミングエルゴノミクスを提供します:
- タイプしながらオートコンプリート: 新たなエディタではタイプしている過程でオートコンプリートの提案ボックスが自動で表示されます。
- オブジェクト調査: 詳細を見るためには変数や他のオブジェクトの上にマウスカーソルを移動します。
- コードの折りたたみ: コードフォールディングによって、一時的にコードセクションを非表示にすることができるので、作業しているコードブロックの一部にフォーカスすることができます。
- 改訂履歴における隣り合わせのdiff: 以前のバージョンのファイルを表示する際、新たなファイルエディタは隣り合わせでdiffを表示するので容易に変更箇所を確認できます。
また、ファイルエディタで下部に配置された出力ウィンドウを間もなくリリースするので、実行結果を確認するためにスクロールする必要がなくなります。リリースされた際にはリリースノートでアップデートを確認してください。
新規ファイルの作成、編集、フォーマッティング、実行をすべてワークスペースで行えます
すぐに試してください
追加のセットアップやソース管理サービスの導入なしに、ワークスペースで全てのタイプのファイルを利用、参照することができます。シンプルにファイル(<200MB)をアップロードし、コードで参照することができます。Databricksランタイム11.2以降ではデフォルトでワークスペースファイルが有効化されており、全ての現行のDatabricksランタイムではクラスタースコープのinitスクリプトのサポートが有効化されています。詳細はドキュメントを参照ください。