More than 5 years have passed since last update.

pandas形式のfileの読み込み

Last updated at 2020-04-11Posted at 2020-04-05

0. 本記事の内容

この記事はデータ分析をするための、ファイルを読み込み、出力の方法をメモとして残すものです。

df = pd.read_csv('train.csv', sep = ',', na_values = '.', header = None)

#Tips　読み込みタイプ
csvファイルの読み込みはread_csv()、tsvファイル（タブ区切り）の読み込みはread_table()

#Tips　データの区切り
カンマでもタブでもないデータの区切りの場合、引数（sepかdelimiter）で区切り文字の指定が可能。

#Tips　読み込みデータにheaderがない場合
標準で読み込みデータの1行目はheaderとして扱われる。読み込みデータにheaderがない場合は、header = None と指定する。

#Tips　読み込みデータにheaderがある場合
headerの読み込み位置を header=2 などで、明示的に指定する。指定個所以前は読み込まれない。

#Tips 読み込みデータ型
データ読み込み時に、データ型を指定する場合は2通りある。1つ目は dtype = strとして指定する場合。これは読み込みデータすべてに適応される。2つ目は dtype={'b': str, 'c': str}と辞書形式で指定する。

#Tips 欠損値の扱い
データ読み込み時に欠損値として扱いたい場合は、 na_values = ["-","."] と指定することで、欠損値扱いすることができる。

1．アイコンクリック
2．Mount Drive選択
3．自動でこの部分が追加される（※）

3以降．別画面にてColaboratoryと連携をするアカウントを求められるので、選択。その後IDが発行されるため、IDをコピーしてColaboratoryに貼り付け。

（※）自動で追加されない場合は以下コマンドを記載

from google.colab import drive
drive.mount('/content/drive')

pd.reac_csv() にて以下の通り、パスを指定をする

data_fixed = pd.read_csv("/content/drive/My Drive/ColabNotebooks/XXX.csv")

それ以降のCSVファイルの読み込みは 2. jupyther- notebookでのCSV読み込み と同じ。

以下コマンドにて、ローカルからアップロードをするファイルをせんたｋ

from google.colab import files
uploaded = files.upload()

import io
df = pd.read_csv(io.StringIO(uploaded['XXX.csv'].decode('utf-8')))

XXX.csvはアップロードをしたCSVファイルです。

出力形式は以下の通り。

df.to_csv("/content/drive/My Drive/Colab Notebooks/XXX.csv")

df.to_csv('XXX.csv' , index=False)
files.download('XXX.csv')

#Tips indexの省略
データ出力時に index 部分が必要ない場合は、 index = False と指定する。kaggleでcommitする際に index が必要ないケースが多いため個人的には役立つ。

#Tips colaboratoryからのダウンロード
colaboratoryからダウンロードする際は以下を読み込む必要がある。

from google.colab import files