Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
21
Help us understand the problem. What is going on with this article?
@kaeken1jp

データ前処理に使えるノウハウ満載の書籍『Pythonではじめるデータラングリング』レビュー

More than 3 years have passed since last update.

プログラマによる書籍『Pythonではじめるデータラングリング』の簡単なレビューです。

本書では、さまざまなデータ処理に関するノウハウが多数紹介されており、データ前処理に悩む方にはおすすめです。

https://www.oreilly.co.jp/books/9784873117942/
Pythonではじめるデータラングリング
――データの入手、準備、分析、プレゼンテーション
Jacqueline Kazil、Katharine Jarmul 著、長尾 高弘 訳、嶋田 健志 技術監修
2017年04月 発行
516ページ
ISBN978-4-87311-794-2
フォーマット Print PDF
原書: Data Wrangling with Python

上記URLに目次が記載されています。各章を通読する必要はなく、必要に応じてひろい読みすれば良いかと思います。

以下気になったところです。

----
データ処理のプロセスは以下の通り。
・ストーリー、問題の設定
・データの明確化
・データのパースとクリーンアップ(獲得、保存、探求)
・プレゼンテーション、データ共有

----
・まず、データの型を決める、確認することが重要
数値
文字列
リスト、辞書

・次に、データを格納するファイル形式を決めることが重要
いわゆるmachine readable(機械可読)なフォーマット
例)
CSV、JSON、XML
そしてExcel
注)エクセル用Pythonライブラリの例
http://www.python-excel.org/
ほかにもさまざまある

注)PDFはパースが難しいので使わない

----
データの獲得について
・APIの長所、短所
長所
すぐアクセスできる
大量のデータがある
ストレージの心配不要

短所
大規模APIはデータの信頼性に欠ける
データが重すぎる
APIの制限やダウンタイムに左右される

----
以下気になったライブラリ
Celery:キューベースの自動化

分散キューシステムを作るためのPythonライブラリ

向いているタスク
・期限がない
・タスク数を知る必要がない
・タスクは必ずしも順番に実行しなくてもよい
・タスクが失敗しても再実行すればよい

逆に上記以外であれば、
一般的なスケジュールベースの処理にすべき


----
最後に
データアナリスト向け
開発者向け
ビジュアルストーリーテラー向け
システムアーキテクト向け
の発展的な課題を示しています

以上、気になったところです。

汎用的な前処理フレームワークは存在しないので、
前処理プラグインを多数準備していくことが、
実装上で必要となります。

以上です。

余談:
データ前処理について、以下のイベントで研究しているので、参加をおすすめします。
https://teamai.connpass.com/event/70920/

21
Help us understand the problem. What is going on with this article?
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away

Comments

No comments
Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account Login
21
Help us understand the problem. What is going on with this article?