0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Databricksにおけるバイブデータサイエンスのハンズオン

Posted at

ハンズオンの目的

生成AI(Databricksアシスタント)を活用したバイブデータサイエンス(Vibe Data Science)を体験いただく。

バイブデータサイエンスとは?

「ビジネスゴール」や「欲しい洞察」を伝えるだけで分析を実行するデータサイエンス。データサイエンティストが統計手法や機械学習アルゴリズムを選択するのではなく、「この課題を解決したい」「こんなインサイトが欲しい」という要望を伝え、AIが適切な分析を実行する手法。

側面 従来のコーディング Vibe Coding 従来のデータサイエンス Vibe Data Science
入力 詳細な仕様書・設計書 自然言語での意図・イメージ 分析計画・統計手法の選択 ビジネス課題・欲しい答え
プロセス 手動でコード記述 AI対話でコード生成 手動で分析実行 AI対話で分析自動実行
必要スキル プログラミング言語習得 コミュニケーション能力 統計・ML知識 ビジネス理解力
アウトプット 実装コード 動作するアプリケーション 分析結果・モデル ビジネスインサイト
反復速度 時間/日単位 分/時間単位 日/週単位 時間/日単位

ハンズオン

Databricksアシスタントを用いたバイブデータサイエンスの実践。Pythonコードを直接記述するのではなく、AIアシスタントとの対話を通じてデータサイエンスを実施します。

ハンズオンの準備

こちらの手順に従って、無料版Databricks(Databricks Free Edition)にサインアップしてください。

  1. ワークスペースにログイン
    Screenshot 2025-08-13 at 9.17.50.png

  2. 「新規」→「ノートブック」を選択
    Screenshot 2025-08-13 at 9.18.28.png

  3. 言語がPythonになっていることを確認
    Screenshot 2025-08-13 at 9.19.25.png

  4. 画面右上の紫十字アイコンをクリックしてアシスタントを呼び出します。
    Screenshot 2025-08-13 at 9.21.09.png

  5. これで準備が整いました。
    Screenshot 2025-08-13 at 9.21.55.png

アシスタントのインタフェースに慣れましょう

まず、マニュアルをご一読ください。

Screenshot 2025-08-13 at 9.24.35.png

アシスタントには2つのモードがあります。

  • Chatモード: 日本語での質疑応答に対応してくれます。コードを提示してくれることもありますが、ノートブックを編集はしません
  • Editモード: 日本語での問い合わせや指示に応じて、ノートブックを直接編集します

単に質問に答えて欲しい場合にはChatモード、この後実施するバイブデータサイエンスでのデータ分析ではEditモードを使うことをお勧めします。

データの読み込み

アシスタントがEditモードになっていることを確認の上、以下のプロンプトを入力してみましょう。

pandasでirisデータセットを使った分析がしたいです

すると以下のようなコードが生成されるはずです。生成AIなので常に同じ回答になるとは限らないことに注意してください。

import pandas as pd
from sklearn.datasets import load_iris

# Irisデータセットをロード
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

# 先頭5行を表示
print(iris_df.head())

アシスタントの提案を全て受け入れるには右下のAccept Allをクリックします。
Screenshot 2025-08-13 at 9.32.25.png

コードを確定したら、ノートブックセル左上の▶️ボタンをクリックして、Pythonコードを実行します。
Screenshot 2025-08-13 at 9.33.40.png

無事データを読み込むことができました。
Screenshot 2025-08-13 at 9.34.38.png

探索的データ分析

注意

  • AIも完璧ではないので、エラーが発生することがあります。その場合には、エラーメッセージの下に表示される診断エラーをクリックしてみましょう。
    Screenshot 2025-08-13 at 9.50.24.png
  • グラフが文字化けした際には「plotlyを使ってください」と指示してみましょう。

データを入手した後は、通常データの傾向を把握するために探索的データ分析(Exploratory Data Analysis:EDA)を行います。以下のようなプロンプトを入力しましょう。

このデータの分析の切り口をいくつか挙げて実際に可視化してください

指示に従ってコードを編集してくれるはずです。以下は一例です。

# Plotlyのインストール
%pip install plotly

import pandas as pd
from sklearn.datasets import load_iris
import plotly.express as px
import plotly.graph_objects as go

# Irisデータセットをロード
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
# target(品種)列を追加
iris_df['target'] = iris.target
iris_df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

# 先頭5行を表示
display(iris_df.head())

# 1. 各特徴量の統計量
print('特徴量の統計量:')
display(iris_df.describe())

# 2. 品種ごとの特徴量分布(箱ひげ図)
fig_box = px.box(
    iris_df,
    x='species',
    y='sepal length (cm)',
    title='品種ごとのがく片長の分布',
    points='all',
    color='species'
)
displayHTML(fig_box.to_html())

# 3. 特徴量同士の関係(散布図行列)
fig_scatter = px.scatter_matrix(
    iris_df,
    dimensions=iris.feature_names,
    color='species',
    title='特徴量同士の関係(散布図行列)'
)
displayHTML(fig_scatter.to_html())

# 4. 相関係数のヒートマップ
corr = iris_df[iris.feature_names].corr()
fig_heatmap = go.Figure(
    data=go.Heatmap(
        z=corr.values,
        x=corr.columns,
        y=corr.index,
        colorscale='Blues',
        colorbar=dict(title='相関係数')
    )
)
fig_heatmap.update_layout(title='特徴量間の相関係数')
displayHTML(fig_heatmap.to_html())

データの統計情報などが表示されます。
Screenshot 2025-08-13 at 9.39.09.png

ボックスプロットが表示されます。
Screenshot 2025-08-13 at 9.39.25.png

散布図やヒートマップによって特徴量間の関係を把握することができます。
Screenshot 2025-08-13 at 9.39.34.png

洞察の抽出

通常のデータサイエンスであれば、データサイエンティストの目で可視化の結果から洞察を得ることになります。しかし、今では生成AIに洞察を導き出してもらうことができます。

以下のプロンプトを入力しましょう。

ここまでの可視化の結果から導き出される洞察がありますか

Screenshot 2025-08-13 at 9.42.08.png

まとめ

このハンズオンでは1行のPythonを書くことなしに、日本語だけでデータサイエンスのプロセスの一部を実行できることを体験いただきました。実際には、モデルのトレーニングやMLflowによるモデル管理なども可能ですので是非トライしてみてください。

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?