LoginSignup
1
1

40代プログラミング初心者:3万件のCSV操作「遅い」からpandasへ

Last updated at Posted at 2022-08-06

CSVの3万件はエクセルで開くと死ぬ

python初心者おじさんがスクレイピングで3万件ぐらいデータをダウンロードしました

CSVは軽いからすぐ開くだろ

・・・・・
・・・・・・

おっそ!!! 体感1分

ソート、置換、などするともうフリーズして動かない・・・

もう絶望しかない

はっ!機械学習の勉強で2万件のデータ扱ったときpandas早かったぞ!

でもめんどくさいなぁ・・・ぶつぶつ・・・

もういっかいCSV開いてみよ・・・・

おそ!!! しかも回復でバグってだめじゃん

Pandasでやりたかったこと

特定条件の行を削除
データが入っていない部分の保管※欠損値というらしい
データを結合して新しいデータを作る

5分程度で終わった!早い

pandasの学習役立った スッキリわかるpythonによる機械学習入門

スッキリわかるPythonによる機械学習入門

たくさんの機械学習の本を読んだけど、pandasの説明が一番丁寧に書いてあった

なんだよDataframeってっていうことから教えてくれるので丁寧。

機械学習は、基本的にデータをきれいに整える作業がメイン

だから、pandasで大量データをきれいになデータにしていく感じです。そのための知識が満載

より詳しい機械学習をやりたい人はもっとレベルの高い本を買った方がいい

基礎からきっちり、データをきれいにして、分析精度を上げていく作業を学習したい人向け

巻末付録にはpandasの使い方付録もついていてめっちゃ便利

もちろん書籍の中でどのように使っているかページのインディックスもついているので具体例で調べられる

機械学習の勉強をメインじゃなくてもあると便利だと思う

python知らない初心者がいきなり使える?

この本はpythonの関数の知識が必要になるので、一通りのpythonの知識が合ったほうが読みやすい

同じシリーズで学習したいなと思うならこれ
スッキリわかるPython入門 (スッキリわかる入門シリーズ)

pandasの使い方と割り切ってしまえば、学習できなくもないけれど基本的な本は1冊やっておいたほうがいいと思う

python自動化系の本を1冊やれば十分
自分が買ったのはこれ

シゴトがはかどる Python自動処理の教科書

あとは毎日1問ぐらいpaizaのpython問題をコツコツやっていれば自然と身につく気がします
https://paiza.jp/works

そもそもDBにいれて作業しろってレベルになってきたかも

SQLもDBも基本的なことは学習したので、なんとか使えそうなんだけど、まだまだ敷居が高い感じがするので、CSVで作業しちゃっています。

この辺の学習も進めたいんだけど、成果物も作っていかないといけないなぁ~っと思っていろいろチャレンジしています

エクセルで大量データを扱っている事務職にpandasをすすめたい
csvに変換していじれば時短になると思います

1
1
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1