こちらで説明されているティップスを日本語でウォークスルーします。
ノートブック左側のアシスタントボタンを押して、Databricksアシスタントを表示させます。
今回はアシスタントメインなのでアシスタントパネルを拡大します。
1. Find Tablesアクションの活用
コマンド/findTables
を使うのがお勧めです。covidに関するテーブルを探したいものとします。
/findTables covid
テーブルをクリックするとコンテキストメニューが表示されます。
Suggest SELECT queriesを選択すると、このテーブルに対するSELECTクエリーを提案してくれます。
Query in natural languageを選択すると、以下のプロンプトで自然言語でテーブルに対する問い合わせを行うことができます。日本語でも大丈夫です。
都道府県はいくつ含まれていますか
4. アシスタントパネルでコードを直接実行でも触れますが、この画面から直接クエリーを実行できます。コードスニペットの左上にある▶️ボタンでコードを実行できます。
注意
コードを実行した際エラーになる場合はコードを修正してください。
2. レスポンスの形式の指定
どのような回答が得たいのかをプロンプトで指定できます。以下のようなクエリーを記述したとします。
SELECT
*,
date(date_timestamp) AS Date,
month(date_timestamp) AS Month,
year(date_timestamp) AS Year,
concat(
year(date_timestamp),
"-",
RIGHT(concat("0", month(date_timestamp)), 2)
) AS YearMonth
FROM
takaakiyayoi_catalog.japan_covid_analysis.covid_cases;
クエリーが記述されているセルを選択している状態で、アシスタントに以下を問い合わせます。
このクエリーを簡潔に説明して
いくつかの文で説明されます。
このクエリは、日本の全ての都道府県においてCOVID-19の感染者数を月単位で集計するものです。date関数を使用して、 date_timestamp列からの日付を抽出します。monthおよびyear関数を使用して、date_timestamp列から月と年を抽出します。また、concat関数を使用して、年と月を結合する新しい列YearMonthを作成します。最後に、SUM関数とGROUP BY句を使用して、都道府県と月ごとの感染者数を計算し、それぞれの組み合わせごとに単一の行を作成します。
詳細な説明を求めることも可能です。
このクエリーをステップバイステップで説明して
以下は、このクエリを一つずつ説明したものです:
- SELECT文で、元のテーブルからすべての列を選択します。
date、month、およびyear関数を使用して、 date_timestamp 列から日付、月、年を抽出します。- concat関数を使用して、年と月を結合する新しい列YearMonthを作成します。このとき、monthが1桁の場合でも、2桁の値になるようにconcat("0", month(date_timestamp))関数を使用します。
- 元のテーブルと新しい列Date、Month、Year、およびYearMonthのテーブルを連結して、中間テーブルを作成します。
- このクエリーは、日付、月、年、および年と月の列を追加し、YearMonth 列を作成するためのコードです。
3. Databricksアシスタントにデータを行レベルで教える
これは自然言語によるクエリー生成のバリエーションなので割愛します。元記事で言っているのは、「高さのカラム(ht)は6-2のようにハイフンで区切られている文字列フォーマットです」と言うように、あるカラムのフォーマットを教えるためのプロンプトを与えるというものです。
4. アシスタントパネルでコードを直接実行
アシスタントからコードスニペットが返却された際には、セルに▶️ボタンが表示されます。ノートブックが稼働中のクラスターにアタッチされていればそのままコードスニペットを実行できます。
コードの修正が必要な場合には、アシスタントパネル上で直接コードを編集できます。ノートブックにコードを挿入する前に試行錯誤することができます。
5. ノートブック内のセルアクションを使う
ノートブックのセルにもアシスタントへのショートカットボタンがあります。
アシスタントに指示した結果との差分を確認できます。/doc
はコメント追加を指示するコマンドです。
是非ご活用ください!アシスタントの有効化はこちらから。