3
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

GitHub Copilot でデータサイエンス: VS Code の拡張機能「Data Wrangler」を軽く試す(Iris のデータを利用)

Last updated at Posted at 2025-09-15

はじめに

2025/9/14 に行われた「VS Code Dev Days Tokyo」に参加した際に話を聞いて、その後、イベントに参加されていた @ ymd65536 さんが以下のブログ記事も書かれていた「GitHub Copilot でデータサイエンス」という話に関する記事です。

上記の記事の話

上記の ymd65536 さんのブログ記事は以下になります。

●メモ:【GitHub Copilot】データサイエンスのためのGitHub Copilot - 404ニキのBlog@hatena
 https://ymd65536.hatenablog.com/entry/2025/09/14/150756

この記事を見ると、関連する GitHubリポジトリ・VS Code用拡張機能の URL が紹介されていて、以下のお試しをした結果も紹介されていました。

2025-09-15_10-34-04.jpg

記事の情報を抜粋1: 公式リポジトリの情報

上記の ymd65536 さんのブログ記事の一部を、さらに抜粋して見てみます。

2025-09-15_08-59-43.jpg

上記のキャプチャ画像内の記載では、以下のリポジトリが紹介されています。

●microsoft/github-copilot-for-data-science: Apply useful GitHub Copilot workflows and patterns in Data Science
 https://github.com/microsoft/github-copilot-for-data-science

記事の情報を抜粋2: 公式ページ・拡張機能のページの情報

そして、以下の部分も見てみます。

2025-09-15_09-04-33.jpg

どうやら、下記の関連する公式ページ・拡張機能があるようです。

●Getting Started with Data Wrangler in VS Code
 https://code.visualstudio.com/docs/datascience/data-wrangler

2025-09-15_09-06-24.jpg

●Data Wrangler - Visual Studio Marketplace
 https://marketplace.visualstudio.com/items?itemName=ms-toolsai.datawrangler

2025-09-15_09-07-20.jpg

とりあえず試してみる

いろいろ説明を見ていきたいところでもありますが、とりあえず拡張機能を入れて触ってみようと思います。

拡張機能のページ

以下、VS Code側でインストールを完了した後の画面です。

2025-09-15_09-19-46.jpg

必要な環境

拡張機能のページ内の説明を見ると、3.8以上の Python が必要になるようです。

2025-09-15_09-23-00.jpg

使い方など

使い方として、Jupyter Notebook から使う方法と、エクスプローラー上のファイルのリストの右クリックメニューから呼び出す方法があるようでした。

2025-09-15_09-24-27.jpg

2025-09-15_09-24-37.jpg

2つ目のエクスプローラー上から呼び出すほうは、例えば .csv が対象にできるという記載があります。

それと画面の表示内容について、以下のように説明がされている部分もありました。

2025-09-15_09-27-39.jpg

データ自体を表示する部分以外に、サマリーやデータの分布を出してくれるところなど、いくつかの表示エリアが組み合わさったものになるようです。

とりあえず、適当な CSVファイルで動作確認をやってみます。

お試し用の CSVデータ

CSVデータを使ったお試しをやってみようと思います。

何のデータを使おうかと思ったのですが、とりあえず有名どころの「Iris」のデータセットで試すことにしました(※ タイタニックのデータとかと並んで、よく見かけるやつ)。それについて、例えば以下だと CSVファイルのものがダウンロードできそうです。

●Iris Species
 https://www.kaggle.com/datasets/uciml/iris

2025-09-15_09-35-47.jpg

ダウンロードしたデータは、以下のように VS Code のエクスプローラーで開いた状態にしました。

2025-09-15_09-40-11.jpg

「Data Wrangler」で CSVファイルを開く

拡張機能のページに書かれていた、エクスプローラー上から開く方法を使ってみます。CSVファイルの上で右クリックメニューを出すと、以下のように「Data Wrangler で開く」というものがあるので、これを選びます。

2025-09-15_09-40-26.jpg

以下のような画面がでてきました。

2025-09-15_09-42-35.jpg

Jupyter の拡張機能のインストール

自分の環境だと、右下に以下のように Jupyter の拡張機能を入れるようにと出たので、拡張機能を追加でインストールしました。

2025-09-15_09-43-19.jpg

ランタイムとの接続

その後、画面内でランタイムに接続するようメッセージが出ていました。

2025-09-15_09-45-25.jpg

接続ボタンを押すと、画面上部に以下のような表示が出ます。ローカルの環境を使うか、クラウド上の環境につなぐかという感じですが、自分はローカルの環境を使うものを選びました。

2025-09-15_09-46-18.jpg

その後、ローカルに複数ある Python のどれを使うか選択する画面が出てきました。とりあえず、3.8以上であれば良いという話があったので、どれを選んでも良いですが、3.13.5 を選びました。

2025-09-15_09-48-31.jpg

ちなみに、複数の Python の選択肢が出てきているのは、以下の記事にも書いた mise での Python のバージョン管理で、複数バージョンの Python を入れているためと思われます。

●mise(ミーズ、旧rtx)で Node.js・Python のバージョンを管理する【Mac での利用】 - Qiita
 https://qiita.com/youtoy/items/f53494806013f0d3f51e

ipykernel・依存関係のインストール

その後、以下が表示されたので、ipykernel をインストールしました。

2025-09-15_09-55-57.jpg

さらに以下の依存関係のインストールというのも出たので、これもインストールしました。

2025-09-15_09-58-16.jpg

「Data Wrangler」上での表示

依存関係のインストールが完了した後は、以下のように「Data Wrangler」を使えるようになりました。

2025-09-15_10-16-24.jpg

画面左を見るとデータの概要を出してくれています。

2025-09-15_10-29-39.jpg

また、上部を見るとデータの分布のヒストグラムを出してくれていたりするようです。

2025-09-15_10-30-53.jpg

「Data Wrangler」でデータの処理

それでは、Data Wrangler を使ったデータの処理を試します。

用いるプロンプト

とりあえずの思いつきで
「Length・Widthの4つの列に対して、元の列を残しつつ、平均0 分散1となるようにデータをスケーリングした列をそれぞれ追加して」
というスケーリングを試してもらうことにしました。

2025-09-15_11-36-54.jpg

生成された Python のコードと実行エラー

生成された Python のコードは、以下のとおりです。

# Scale SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm to mean 0, variance 1
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_columns = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']
scaled_data = scaler.fit_transform(df[scaled_columns])
# Add scaled columns back to the DataFrame
for i, col in enumerate(scaled_columns):
    df[f'{col}_scaled'] = scaled_data[:, i]

これを、以下の「Run code」ボタンで実行します。

そうすると、以下のようにコードの実行失敗という結果になりました。

2025-09-15_11-38-16.jpg

失敗した原因は scikit-learn がないためで、scikit-learn をインストールするよう促されました。

2025-09-15_11-37-31.png

scikit-learn を追加して再度処理を実行

scikit-learn をインストールして、再度処理を実行してみました。そうすると、以下のようにデータが追加されています(※ 以下は全体が表示されるよう、表示をかなり縮小しています)。

2025-09-15_11-39-14.jpg

追加された部分をキャプチャしたものは以下で、どんなデータが追加されるのかをプレビューで見られます。

2025-09-15_11-39-49.jpg

その後、以下の「適用」ボタンを押して、データ追加を反映させます。

2025-09-15_11-49-46.jpg

CSVファイルとして結果を保存

この状態だと結果がファイルになってなさそうなので、CSVファイルとして結果を保存します。

画面上部の「ファイルとしてエクスポート」というボタンを押します。その後、保存形式で「CSV」を選び、ファイル保存先とファイル名を指定します。

2025-09-15_11-50-41.jpg

そのようにして保存した結果を、Excel で開いてみました。

2025-09-15_11-51-36.jpg

その結果、上記のようにスケーリングされた値の列が 4つ、追加されていることが VS Code の外でも確認できました。

3
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?