Microsoft Access (*.mdb) のデータを読み込んで解析したい機会があったのでメモ
基本的には pandas_access を使用すれば良かった。
※mdbtoolsのWindowsでの動作確認ができていないため、これはLinux限定の記事になります。
実行手順
mdbtoolsのインストール
pandas_access は mdbtools のラッパーのようなものらしいので、mdbtoolsが必須。
brianb/mdbtools: MDB Tools - Read Access databases on *nix
mdbtoolsのインストール(Ubuntu)
$ sudo apt-get install mdbtools
pandas_acccessの使用
pandas_accessのインストール
$ pip install pandas_access
以下実装例
実装例
import pandas as pd
import pandas_access as mdb
# mdb から dataframe の取得
df = mdb.read_table("DB.mdb", "MyTableName")
上記の用に read_table
をすれば Dataframe
が取得できるので、あとは通常のpandasの手順で解析を行える
補足
ソースを見ればわかるが、read_table
は pandas.read_csv
のラッパーなので、第三引数以降に read_csv
と同じ引数を使用することができる。read_csv
で使用できる引数は以下などを参照。