こちらの機能でどこまで楽できるかをトライしてみます。
Databricksアシスタントは、AIベースのコンパニオンペアプログラマとして機能し、ノートブック、クエリー、ファイルの作成効率を高めることができます。コードとクエリーを生成、最適化、完成、説明、修正することで、質問に迅速に答えることができます。
注意
アシスタントが常に同じ回答を返すわけではないことに注意してください。
トライする内容
COVID-19の感染者数のテーブルにアクセスし、都道府県ごとの感染者数合計を集計し、棒グラフにプロットする。
アシスタントの活用
最初のプロンプトはこちらです。
takaakiyayoi_catalog.japan_covid_analysis.covid_casesの内容を表示
説明文は英語ですがコードを取得できます。
spark.table("takaakiyayoi_catalog.japan_covid_analysis.covid_cases").show()
セルにカーソルを合わせて >> をクリックすると、フォーカスされているセルにコードが挿入されますので、これを実行します。
次に都道府県で感染者数を集計します。
taakaakiyayoi_catalog.japan_covid_analysis.covid_casesをPrefectureごとにグルーピングし、Casesの合計を集計
今度は日本語で帰ってきました。コードは言語に関係はないですけど。
from pyspark.sql.functions import sum
df = spark.table("takaakiyayoi_catalog.japan_covid_analysis.covid_cases")
grouped_df = df.groupBy("Prefecture").agg(sum("Cases"))
display(grouped_df)
最後にグラフの描画です。以下のプロンプトを実行する際に、上で集計を実行したセルが選択されているようにしてください。そうすることでセルのコードなどがLLMに引き渡されます。
dfを棒グラフで描画
import matplotlib.pyplot as plt
pdf = df.groupby("Prefecture").sum("Cases").toPandas()
pdf.plot(kind="bar", x="Prefecture", y="sum(Cases)", rot=90)
plt.show()
一行のコードを書くことなしにここまでやり切れました!多分、もっと複雑なこともできるはずです。
まとめ
コーディング体験が大きく変化したと感じる今日この頃です。
このような機能を説明する機会が増えてきているのですが、その際によくいただく質問が「コーディングの知識は不要になるのでしょうか?」というものです。私個人の意見としては、現時点ではNOです。アシスタントが生成したコードの妥当性を評価するのは(当面は)人間ですので、依然としてコーディングの知識は必要です。
とは言っても、生産性が改善されるのは間違いないですし、Pythonが初めての方も敷居低くプログラミングを始めらる助けになるのではないでしょうか。是非お試しください!