Easier Spark Code Debugging - The Databricks Blogの翻訳です。
この記事で説明されている機能を試したいのであれば、Databricks 無料トライアルにサインアップしてください。
2015年の記事です。
Sparkアプリケーションをより効率的に理解し、デバッグできるように、DatabricksノートブックにApache Sparkのweb UIをインテグレーションを導入できたことを嬉しく思います。
オープンソースSparkのコンポーネントとして、web UIはお使いのSparkアプリケーションをモニタリングし、理解することを支援するために設計されており、メモリー使用量、実行しているエグゼキューター、スケジューラーのステージ、タスクに関する有用な情報を提供します。
Databricksノートブックは、ユーザーがApache Sparkを用いてインタラクティブにデータを探索し、アプリケーションを開発するために活用できる、ビジュアルかつコラボレーティブなワークスペースです。アクセスログの解析や機械学習のようなサンプルワークフローにあるように、データの取り扱いが容易になります。
ノートブックで分散アプリケーションのデバッグはいまだ課題となっています。web UIは必要な情報を保持していますが、web UIと開発環境の間にはギャップが存在しています。調査しているコードに関連する情報をweb UI上で特定するのは通常困難です。また、ランタイムの履歴情報を簡単に探す方法も存在していません。
インテグレーションされたweb UIがどのようにコーディングを支援するのか
この問題を解決するために、開発環境から直接ランタイム情報にアクセスするための方法を提供しました。
今やDatabricksノートブックでは、"プログレスバー"の形で、Sparkノードからのアップデートをリアルタイムで表示します。内部でコマンドがSparkジョブを起動すると、プログレスバーは自動でジョブの実行に応じて更新され、より簡単にコマンドの状態をモニタリングできるようになります!
*プログレスバー: Databricksノートブック上でSparkジョブの実行進捗をリアルタイムで表示*また、プログレスバーはそれぞれのSparkジョブに対する詳細情報への直接のリンクを提供し、ユーザーはそれぞれのジョブのさらなる調査のために、web UIにドリルダウンすることができます。この追加の可視化機能によって、デバッグに必要な全てのシステム状態とランタイム情報をコードを記述したところと並べて参照することができます。
まとめ
Sparkのweb UIとDatabricksノートブックの統合によって、あなたの開発環境において容易にデバッグ情報にアクセスするためのショートカットを作成しました。この機能によって、皆様がSparkアプリケーションをより効率的にデバッグできるようになることを望んでいます。
この機能は全てのDatabricksユーザーが利用できます。試すにはDatabricks 無料トライアルにサインアップしてください!