Databricksアシスタントが編集モードをサポートしたことに興奮して、こちらの先日こちらの記事を書きました。
興奮が少々冷めてから「そもそもバイブデータサイエンスって何だ?」となりました。バイブコーディングは「雰囲気重視でコーディング」ということで、Claude CodeやCursorを使って日本語の指示でコーディングしていくということ何となく理解しています。
そして、Claude CodeとDatabricksでこんなこともやってみました。
でもやっぱり、「バイブデータサイエンスって何だ」という疑問は氷解していませんでした。なので、Claudeに聞いてみたのです。
vibe codingならぬvibe data analytics/data scienceというのもあり得ると思っています。これまでの事例や、どのようなアプローチであればデータ分析の文脈でVibeで分析を行うことができるでしょうか。プロセスの検討からスタートして、ツールの適用例のアイデアをください。
そしたら、どのフェーズにフォーカスするのかという逆質問をもらいまして。考えてみたら、Vibeと親和性が高いのはまずEDA(探索できデータ分析: Exploratory Data Analysis)だろうと思いました。
結果、以下のようなアーティファクトをもらいました。
Vibe型探索的データ分析(EDA)実践ガイド
1. Vibe EDAとは
「Vibe coding」をデータ分析に応用した「Vibe EDA」は、厳密な統計手順よりも直感的で対話的な発見プロセスを重視するアプローチです。従来の仮説駆動型分析とは異なり、データとの「対話」を通じて洞察を得ることを重視します。
核心的な特徴
- 🎯 探索優先: 仮説なしで「何が面白いか」から始める
- 🔄 反復的発見: 各発見が次の探索を導く
- 🎨 視覚的思考: 可視化を通じた直感的理解
- ⚡ 即座のフィードバック: インタラクティブツールによる高速反復
なるほどです。で、さらに冷静になってみると、これってGenieでもできる気がしました。ただ、GenieはあくまでText2SQLなんですよね。SQLで得られる結果しか返せない。可視化もその範囲(別に腐しているわけではないです。そういう機能というわけで)。より柔軟性を求めるようなデータ分析だとPythonノートブックでやりたくなるのは、データサイエンティストの性です。
というこで、上のコメントを参考に実際にDatabricksアシスタントでVibe EDAをやってみます。
Vibe EDAの実践
以下のプロンプトからスタートします。
irisデータセットを使った分析がしたいです
探索的データ分析なので探索してみます。
このデータの分析の切り口をいくつか挙げて実際に可視化してください
色々な切り口で可視化してくれます。
データプロファイルでも似たことは行ってくれますが、アシスタントの説明を聞きながら可視化を確認できるのはいいですね。
次に深掘り質問してみます。
ここまでの可視化の結果から導き出される洞察がありますか
そしたら、以下のマークダウンセルを作ってくれました。
irisデータセットの可視化結果から得られる主な洞察は以下の通りです。
- petal(花弁)の長さ・幅は、アヤメの種類ごとに明確な違いが見られます。
- setosaは他の2種(versicolor, virginica)と特徴量分布が大きく異なり、分類が容易です。
- petal lengthとpetal widthは分類に特に有効な特徴量です。
- versicolorとvirginicaは一部特徴量で分布が重なりますが、petalの特徴量である程度分離可能です。
- 特徴量間の相関では、petal lengthとpetal widthの間に強い正の相関が見られます。
これらの洞察から、irisデータセットは機械学習の分類問題や特徴量選択の教材として非常に有用であることが分かります。
なるほど、であれば。
分類に適しているということであれば一度分類をしてくれませんか
以下のコードを生成してくれました。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
# Irisデータセットの読み込み
iris = load_iris()
X = iris.data
y = iris.target
# データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# ロジスティック回帰モデルの作成
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)
# 予測
y_pred = model.predict(X_test)
# 精度の計算
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')
# 混同行列の計算
cm = confusion_matrix(y_test, y_pred)
# 混同行列の可視化
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=iris.target_names, yticklabels=iris.target_names)
plt.ylabel('Actual')
plt.xlabel('Predicted')
plt.title('Confusion Matrix')
plt.show()
ここまで、日本語での指示しかしてないです。アシスタントの指示は以下のようにしています。
- あなたは日本人のDatabricksの専門家です。
- 質問に対して簡潔かつ正確な日本語で回答します。
- データ分析を円滑に進めるために、データサイエンティストが洞察抽出に集中できるように、データの可視化やデータ分析の代行など様々なサポートを行います。
アシスタントが複数セルを同時に編集してくれるようになって活用の幅が広がっていますね。









