7
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

先日のイベントで発表があった件です。

Screenshot 2024-07-09 at 8.45.45.png

マニュアルはこちら。

注意
利用できるようになるまでにはタイムラグがある場合があります。有効化の画面が表示されない場合には少々お待ちください。

ノートブック用サーバレスとは

これまではノートブックのPythonプログラムなどを実行するには、お客様VPC上のEC2をベースとしたAll Purpose(汎用)クラスターが必要でした(SQLのみならサーバレスSQLウェアハウスも使えますが)。このため、インスタンスの獲得、ランタイムのインストールなどで通常は起動に5分程度を要していました。これのサーバレス版がノートブック用サーバレス(Serverless compute for notebooks)です。即座に利用できる計算資源です。

サーバレスを利用する際の考慮事項

価格

2024/7/9朝時点でのPricingページのスクリーンショットです。詳細はDatabricksアカウントチームにお問い合わせください。
Screenshot 2024-07-09 at 9.16.08.png

制限事項

こちらの制限事項をご確認ください。関連する箇所を翻訳します。

一般的な制限

  • ScalaとRは未サポート。

  • SQLを記述する際にはANSI SQLのみがサポート。

  • Spark RDD APIは未サポート。

  • Sparkコンテキスト(sc)、spark.sparkContextsqlContextは未サポート。

  • DBFSにアクセスはできません。

  • Databricks Container Servicesは未サポート。

  • webターミナルは未サポート。

  • 48時間以上クエリーを実行することはできません。

  • 外部データソースに接続するにはUnity Catalogが必要です。クラウドストレージにアクセスするには外部ロケーションを使います。

  • データソースのサポートは、AVRO, BINARYFILE, CSV, DELTA, JSON, KAFKA, ORC, PARQUET, ORC, TEXT, XMLに限定されます。

  • ユーザー定義関数(UDF)はインターネットにアクセスできません。

  • 個々の行の最大サイズが128MBを超えることはできません。

  • Spark UIを使うことはできません。代わりに、Sparkクエリーの情報を参照するためにはクエリープロファイルを使います。クエリープロファイルをご覧ください。

  • Databricksエンドポイントを使用するPythonクラウアントは、“CERTIFICATE_VERIFY_FAILED”のようなSSL検証エラーに遭遇するかもしれません。これらのエラーを回避するには、クライアントが/etc/ssl/certs/ca-certificates.crtにあるCAファイルを信頼するように設定して下さい。例えば、サーバレスノートブックやジョブの最初に以下を記述します:

    import os; os.environ['SSL_CERT_FILE'] = '/etc/ssl/certs/ca-certificates.crt'
    
  • ワークスペース横断のAPIリクエストはサポートされていません。

機械学習の制限

ノートブックの制限

  • ノートブックは設定不可の8GBメモリーにアクセスします。
  • ノートブックスコープライブラリは開発セッション横断ではキャッシュされません。
  • ユーザー間でノートブックを共有する際、TEMPテーブルやビューの共有はサポートされません。
  • ノートブックにおけるデータフレームのオートコンプリートや変数エクスプローラはサポートされません。

コンピュート固有の制限

以下のコンピュート固有の機能はサポートされません:

  • コンピュートポリシー
  • コンピュートスコープinitスクリプト
  • カスタムデータソースやSpark拡張を含むコンピュートスコープのライブラリ。代わりにノートブックスコープライブラリを使います。
  • インスタンスプロファイルを含むコンピュートレベルのデータアクセス設定。このため、クラウドパスに基づくHMS経由や埋め込まれた資格情報がないDBFSマウント経由でのテーブルやファイルは動作しません。
  • インスタンスプール
  • コンピュートのイベントログ
  • Apache Sparkコンピュート設定や環境変数

ウォークスルー

有効化

  1. アカウントコンソールにログインします。
  2. 設定機能の有効化にアクセスします。
  3. ワークフロー、ノートブック、Delta Liveテーブル向けのサーバーレスコンピュートをオンにします。
    Screenshot 2024-07-09 at 3.12.40.png

ノートブックのアタッチ

適当なノートブックを作成し、右上のクラスターセレクターを開くとサーバレスが表示されているので選択します。
Screenshot 2024-07-09 at 3.13.49.png

これで、サーバレスコンピュートを使ってプログラムを実行できるようになりました。

プログラムの実行

簡単なPySparkのコードを実行してみます。

df = spark.table("main.default.`日本語テーブル`")
display(df)

Screenshot 2024-07-09 at 8.54.08.png

実行できました!

パフォーマンスを表示

パフォーマンスを表示をクリックすると、処理のパフォーマンスに関するメトリクスを表示することができます。パフォーマンス改善の取り組みで活用できます。
Screenshot 2024-07-09 at 3.15.58.png
Screenshot 2024-07-09 at 3.16.07.png

ライブラリのインストール

画面右の本棚マークで環境を設定することができます。ここからライブラリを追加することができます。
Screenshot 2024-07-09 at 8.58.57.png

以下のように記述して、パネル下部の適用をクリックします。

drawdata==0.3.3

Screenshot 2024-07-09 at 9.10.07.png
Screenshot 2024-07-09 at 9.10.22.png

これでライブラリが追加されました。
Screenshot 2024-07-09 at 9.12.07.png

用法・用量にご留意の上ご活用ください!

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル

7
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?