More than 3 years have passed since last update.

seabornのload_datasetを認証付きproxy環境下で読み込む場合

Posted at 2021-09-03

はじめに

seabornには、機械学習や統計分析で有名なサンプルデータを簡単にロードするスクリプトが用意されていますが、proxy環境下ではうまく動かず、いちいちgithub等からダウンロードして手動で読み込ませなければならない場合があり、その時点で挫折してしまいそうになります。
もっと簡単にproxyを突破してダウンロードできるようにならないかと思い調べましたが、簡単に見つからなかったので自分のメモとして記載します。（こんなのにこまるようなヤツは自分しかいないから情報を見つけられなかっただけかもしれませんが…

解決方法

以下を冒頭に入れるだけです

import urllib.request
proxy = urllib.request.ProxyHandler(
    {'http': "http://<USERNAME>:<PASSWORD>@<HOSTNAME>:<PORT>",
    'https': "http://<USERNAME>:<PASSWORD>@<HOSTNAME>:<PORT>"})
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
urllib.request.install_opener(opener)

あとは以下でロードができます

import numpy as np
import pandas as pd
import seaborn as sns

x = np.random.normal(size=100) #ランダムデータをnumpy arrayとして作る

titanic = sns.load_dataset("titanic") ##kaggleで有名な、タイタニック号の生死者データ
tips = sns.load_dataset("tips")  ## お店の食事時間と会計総額とチップの関係のデータ
iris = sns.load_dataset("iris")  ## Rでお馴染みのアヤメの統計データ

まとめ

seabornのload_dataset以外にも、よそからデータを引っ張ってこれるスクリプトを用意しているライブラリは多くあるので、これでもっと楽に読み込めるようになるのかも。。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up