はじめに
seabornには、機械学習や統計分析で有名なサンプルデータを簡単にロードするスクリプトが用意されていますが、proxy環境下ではうまく動かず、いちいちgithub等からダウンロードして手動で読み込ませなければならない場合があり、その時点で挫折してしまいそうになります。
もっと簡単にproxyを突破してダウンロードできるようにならないかと思い調べましたが、簡単に見つからなかったので自分のメモとして記載します。(こんなのにこまるようなヤツは自分しかいないから情報を見つけられなかっただけかもしれませんが…
解決方法
以下を冒頭に入れるだけです
import urllib.request
proxy = urllib.request.ProxyHandler(
{'http': "http://<USERNAME>:<PASSWORD>@<HOSTNAME>:<PORT>",
'https': "http://<USERNAME>:<PASSWORD>@<HOSTNAME>:<PORT>"})
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
urllib.request.install_opener(opener)
あとは以下でロードができます
import numpy as np
import pandas as pd
import seaborn as sns
x = np.random.normal(size=100) #ランダムデータをnumpy arrayとして作る
titanic = sns.load_dataset("titanic") ##kaggleで有名な、タイタニック号の生死者データ
tips = sns.load_dataset("tips") ## お店の食事時間と会計総額とチップの関係のデータ
iris = sns.load_dataset("iris") ## Rでお馴染みのアヤメの統計データ
##まとめ
seabornのload_dataset以外にも、よそからデータを引っ張ってこれるスクリプトを用意しているライブラリは多くあるので、これでもっと楽に読み込めるようになるのかも。。