More than 5 years have passed since last update.

posデータの整形で、ipython使うときに使った事を走り書き

Posted at 2016-06-01

はじめに

バイトでぐちゃぐちゃのデータを整形しなければならなかったので、そのときのメモです
Rで一月ぐらいにやってた事の走り書きはこちらです。

おなじみのデータ解析ツールのimport

でも、多くのファイルにまたがるデータを扱う事が多いので,
globもimport!!

※今回、numpyについては書きません、すみません。
あくまで、データの整形です。names,headerなどはnampyのarrayを使ったほうがいいです。

data = pd.read_csv("ファイル名.csv")

datas = glob.glob('*')

大量のファイルがあるときはこれでディレクトリ内のファイル全て得られます。

pandasの場合呼び出したファイルはnumpyのarrayとなるのではなく、DataFrame型となります。

邪魔な部分のそぎ落としです。

data.drop([1,2])
# 行の消去
data.drop([1,2],axis=1)
# 列の消去

このようにするとその行、列を消す事ができます。

pd.concat([data[1],data[0]])
# 行の結合
pd.concat([data[1],data[0]],axis=1)
# 列の結合

ファイルやデータがたくさんあるときはこれが便利！

欲しいデータだけにする！

data.query("1==2")

これで、1という名前の列の値が2のものだけにする事ができる。

データの関係性を導き出すためのファイル成型時の必須！

pd.merge(data1, data, on='列の名前')

これで列の値が同じもの同士でデータをくっつけてくれる。

ぶっちゃけデータ整形は忍耐が大事！
あとはforなどを使って一気にやるとすぐできます。
numpyのarrayと途中ファイルを作ったりしてうまく列、行の入れ替えなどはしやすいです。
欲しいデータを考えて、それに向かって頑張ってやっていきましょう。
拙いメモを読んでいただきありがとうございました。