はじめに
Google Cloud PlatformのAIプラットフォームからGoogle Cloud Strage上にあるcsvを読み込み、pandasのDataFrameに格納する方法を記載します。
実装
csvが以下に格納されているとします。
gs://bucket_name/folder/file_name.csv
上記にcsvが格納されている場合、以下のコードでDataFrameに格納することが出来ます。
project_name = 'your_project_name'
bucket_name = 'bucket_name'
file_name = 'folder/file_name.csv'
#プロジェクト名を指定してclientを作成
client = storage.Client(project_name)
#バケット名を指定してbucketを取得
bucket = client.get_bucket(bucket_name)
#Blobを作成
blob = storage.Blob(file_name, bucket)
#DataFrameを作成
data = blob.download_as_string()
df = pd.read_csv(BytesIO(data))
まとめ
当初、以下のように、folderをbucket_nameに記載していました。もちろん、エラーになります。
project_name = 'your_project_name'
bucket_name = 'bucket_name/folder'
file_name = 'file_name.csv'
あとは、GCSのリージョン周りで躓いたりしたので、エラーが起こったら、その辺りを確認すればいいかなと思います。