【2023年版】Google ColabでSQLを使う【DuckDB, JupySQL】

Last updated at 2025-07-02Posted at 2023-03-03

昨年こんな記事を書きましたが、もっといいやり方があったのでupdateします。

0. 使うもの

JupySQLとDuckDBを使う。

JupySQLは以前紹介したipython-sqlと似たようなライブラリだが、現在あまり更新されていないipython-sqlに対して、(i) バグを修正し、(ii) 機能を追加しているものである。基本的な使い方はipython-sqlと変わらない。

DuckDBはSQLiteのOLAP版という立ち位置らしい。お手軽に使え、分析用途に強いDBだと理解している¹。

ということで、実際に簡単に使う方法を見ていく。

!pip install jupysql duckdb-engine

# データ（csvファイル）のダウンロード
!wget https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv

使用するライブラリをインストールし、データをダウンロードする。今回はpalmerpenguinsのデータを使う²。

# エクステンションを読み込む
%load_ext sql

# DuckDBのインメモリのDBに接続する
%sql duckdb://

エクステンションを読み込むと、%sql を付けた行でSQLを実行できるようになる。まずDuckDBのインメモリのDBに接続する。

%%sql
SELECT
  *
FROM
  penguins.csv
LIMIT 3;

%%sql コマンドを頭に付けたセルではSQLを実行できる。なお、DuckDBは直接csvに対してクエリを実行できる。

また、クエリの結果は _ に格納されており、 print(_) で下のような整形された表が出力される。

なお、テーブル一覧を出力は

%sql show tables

%%sql result << 
SELECT 
  *
FROM 
  penguins.csv
LIMIT 4;

%%sql variable_name << から始めると、結果を変数に格納できる。それをpandas.DataFrameに変換するには、 .DataFrame() とするだけ。

result.DataFrame()

%%sql
CREATE OR REPLACE TABLE penguins AS
SELECT * 
FROM 'penguins.csv';

ここもDuckDBだと簡単。

ちなみにpandasのデータフレームから作成する場合は、
%sql --persist df を実行すればよい。

インメモリでなくファイルに残したいのであれば、以下を先に実行しておく（example.dbがファイル名）。

%sql duckdb:///example.db

コードはコチラに置いてるので、そのままcolab立ち上げて触ってみたい方はぜひどうぞ！

2023年はPolarsとDuckDBとPRQLが流行ると思ってます³。使い倒していきたいものです。DuckDB最高！

正直あまりDuckDBについてはちゃんと理解できてないのだが、日本語でも沢山の記事があるのでそれらを見て頂きたい。たとえばこちらなど → https://zenn.dev/notrogue/articles/1193d0ab8d8eda ↩
https://allisonhorst.github.io/palmerpenguins/ ペンギンかわいい。 ↩
既に流行ってるという説もあります。 ↩