#0. 本記事の内容
この記事はデータ分析をするための、ファイルを読み込み、出力の方法をメモとして残すものです。
#1.参考サイト
pandasでcsv/tsvファイル読み込み(read_csv, read_table)
#2. jupyther- notebookでのCSV読み込み
df = pd.read_csv('train.csv', sep = ',', na_values = '.', header = None)
#Tips 読み込みタイプ
csvファイルの読み込みはread_csv()、tsvファイル(タブ区切り)の読み込みはread_table()
#Tips データの区切り
カンマでもタブでもないデータの区切りの場合、引数(sepかdelimiter)で区切り文字の指定が可能。
#Tips 読み込みデータにheaderがない場合
標準で読み込みデータの1行目はheaderとして扱われる。読み込みデータにheaderがない場合は、header = None
と指定する。
#Tips 読み込みデータにheaderがある場合
headerの読み込み位置をheader=2
などで、明示的に指定する。指定個所以前は読み込まれない。
#Tips 読み込みデータ型
データ読み込み時に、データ型を指定する場合は2通りある。1つ目はdtype = str
として指定する場合。これは読み込みデータすべてに適応される。2つ目はdtype={'b': str, 'c': str}
と辞書形式で指定する。
#Tips 欠損値の扱い
データ読み込み時に欠損値として扱いたい場合は、na_values = ["-","."]
と指定することで、欠損値扱いすることができる。
#3. Google ColaboratoryでのCSV読み込み
1.アイコンクリック
2.Mount Drive選択
3.自動でこの部分が追加される(※)
3以降.別画面にてColaboratoryと連携をするアカウントを求められるので、選択。その後IDが発行されるため、IDをコピーしてColaboratoryに貼り付け。
(※)自動で追加されない場合は以下コマンドを記載
from google.colab import drive
drive.mount('/content/drive')
pd.reac_csv()
にて以下の通り、パスを指定をする
data_fixed = pd.read_csv("/content/drive/My Drive/ColabNotebooks/XXX.csv")
それ以降のCSVファイルの読み込みは 2. jupyther- notebookでのCSV読み込み
と同じ。
#3.2 ローカルからアップロード
以下コマンドにて、ローカルからアップロードをするファイルをせんたk
from google.colab import files
uploaded = files.upload()
import io
df = pd.read_csv(io.StringIO(uploaded['XXX.csv'].decode('utf-8')))
XXX.csvはアップロードをしたCSVファイルです。
#4.Google ColaboratoryへのCSVファイル出力
出力形式は以下の通り。
df.to_csv("/content/drive/My Drive/Colab Notebooks/XXX.csv")
#5.ブラウザ経由でローカルへダウンロード(Google ColaboratoryとJupyter-notebook共通)
df.to_csv('XXX.csv' , index=False)
files.download('XXX.csv')
#Tips indexの省略
データ出力時にindex
部分が必要ない場合は、index = False
と指定する。kaggleでcommitする際にindex
が必要ないケースが多いため個人的には役立つ。
#Tips colaboratoryからのダウンロード
colaboratoryからダウンロードする際は以下を読み込む必要がある。
from google.colab import files