きっかけ
文字列をpandasのDataframeに変換する時に困ったのでメモ。きっかけは、300GBほどのファイルをpandasで扱いたかったという場面の話。直接read_csv()では無理そうなので、細かくopen()とかreadline()とかで切り取るところまでは良かったけど、そういえば文字列からDataframe作ったのは初めて。調べてもあまりいいのが出てこなかった。
解決策
numpyのreshape()つかってみた。
pd.DataFrame(np.array(data.split()).reshape(-1,7))
イメージはこんな感じ。
columnの数が決まっていたのが幸い。行数が決まっていないときはreshape()の引数に-1を入れると良いらしい。列数でも然り。他に良い方法があれば教えてください。