More than 5 years have passed since last update.

AWSにあるJupyter NotebookからpandasでS3のファイルを読み込むときの設定

Last updated at 2016-10-06Posted at 2016-09-16

概要

AWSでのEC2でJupyter Notebookを運用している場合には、以下のようにpd.read_csv()からS3にあるデータのパスを指定して直接読み込むことができます。

import pandas as pd
os.environ["AWS_ACCESS_KEY_ID"] = "XXX..."
os.environ["AWS_SECRET_ACCESS_KEY"] = "YYY..."
all_df = pd.read_csv("s3n://mybucket/path/to/dir/data.csv")

このとき、上記のようにAWS_ACCESS_KEY_IDとAWS_SECRET_ACCESS_KEYをあらかじめ環境変数で指定しておく必要があります。

これらの指定を毎回するのは正直言って面倒です。import pandas as pdなどのパッケージのインポートは手癖のようになっている人は多いと思いますが、ランダムな文字列のキーを覚えられる人なんてそうそういません。それにこういったプライベートな情報はノートブックを他人に共有する際には含めたくない情報なので、そのたびに削るというのはとても非効率ですし危険です。

そこで、Jupyter Notebookで意識せずともS3のファイルにアクセスできるよう、あらかじめ設定をしておきましょう。これには幾つかやり方があるので、それぞれ紹介したいと思います。

jupyter notebookが起動するタイミングで設定を読み込ませる
シェルで環境変数に直接設定する
botoのプロファイルに記載する

なお、これら3つの方法は、どれか一つだけやれば良いです。それほどpros/consがあるわけではないので、好きなやり方で問題ないと思います。

方法

方法1：jupyter notebookが起動するタイミングで設定を読み込ませる

jupyter notebookはインストールされている前提とします。

AWS_ACCESS_KEY_IDとAWS_SECRET_ACCESS_KEYの設定を~/.ipython/profile_default/startup/に00_startup.ipyというファイル名で保存します。ファイル名は自由ですが、先頭に数字を付けるとその順で実行されます。

os.environ["AWS_ACCESS_KEY_ID"] = "XXX..."
os.environ["AWS_SECRET_ACCESS_KEY"] = "YYY..."

ファイルの配置としては以下のような感じです。

$ tree .ipython/profile_default/startup
.ipython/profile_default/startup
├── 00_startup.ipy
└── README

こうすることで、jupyter notebookが起動するタイミングで上記コマンドが実行されますので、ノートブックからos.environで指定しなくてもよくなります。

方法2：シェルで環境変数に直接設定する

これはシェルの環境変数として設定しておく方法です。.bash_profileや.zshrcなど、自身のシェルの設定ファイルに記載してシェル起動時に読み込ませるか、直にプロンプトで実行して設定します。

export AWS_ACCESS_KEY_ID=XXX...
export AWS_SECRET_ACCESS_KEY=YYY...

方法3：botoが読み込むプロファイルに記載する

pandasの裏ではbotoというPythonのAWS SDKが使われており、そのパッケージのプロファイルに直接記載する方法もあります。下記のコードを~/.botoというファイル名で保存します。

[Credentials]
aws_access_key_id = XXX...
aws_secret_access_key = YYY...

==追記:2016/10/03==
上記方法はboto2での方法でした。boto3では~/.botoも読み込まれるものの、boto3からは以下の順で読み込まれるとのことなので、aws自体のcredentialsである~/.aws/credentialsに記載する方が、awscliコマンドとの設定を共有する意味でも良いかと思います。

The mechanism in which boto3 looks for credentials is to search through a list of possible locations and stop as soon as it finds credentials. The order in which Boto3 searches for credentials is:

Passing credentials as parameters in the boto.client() method

Passing credentials as parameters when creating a Session object

Environment variables

Shared credential file (~/.aws/credentials)

AWS config file (~/.aws/config)

Assume Role provider

Boto2 config file (/etc/boto.cfg and ~/.boto)

Instance metadata service on an Amazon EC2 instance that has an IAM role configured.

[default]
aws_access_key_id=foo
aws_secret_access_key=bar

http://boto3.readthedocs.io/en/latest/guide/configuration.html

==追記終わり==

すると、pandasでS3のパスを指定したときにbotoがインポートされ、上記プロファイルが読み込まれます。(source)

なお、pip install pandasだけではbotoがdependenciesに入っていないため一緒にインストールされないので注意が必要です。利用する際は、あらかじめpip install botoをしておきましょう。

まとめ

以上のように、pandasでS3にアクセスするときには設定の方法が幾つかあります。環境構築の際に簡単にできるものばかりですので、ぜひとも設定しておきましょう。

補足

これらの手法はAWS上のJupyter Notebookに限らず、AWSのキーさえあればどのような環境でもS3に接続できるため、ローカルからでも同様にpd.read_csv("s3n://...)でデータを取得できます。ただし、S3からAWS外部へのデータの送信となり転送量が発生するので、利用の際は注意が必要です。そもそも転送時間の問題で重いデータは扱いづらいと思いますが、S3利用が前提のソースコードを違う環境で動かす際には、確認したほうがいいですね。AWSのキーをローカルではデフォルトにしておかないのが賢明かもしれません。

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up