こちらの記事でデータ集計RTAをやられていたので私も参加したいと思います。
データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust)
個人的にRでやったほうがさらに早い気がします。
諸事情によりpixiedustの処理は省略しています、後日追記したいと思います。
TL;DR
- GoogleColabratoryを利用してPython環境準備を簡単化
- 手元のファイルをアップロードするとpandas-profilingが走るようにした
方法について
前提
- Googleアカウントを作成済みである(約10分)
- GoogleColabratoryをインストール済みである(約5分)
- インストール方法はこちらを参照
- Google Colabの知っておくべき使い方 – Google Colaboratoryのメリット・デメリットや基本操作のまとめ
- 元記事と同じくテーブル形式のcsvデータは既に用意されているものとします。
作成済みJupyterNotebookをGoogleDriveへコピーする(所要時間3分)
GoogleColabratory - auto_padas_profiling.ipynbを自分のGoogleDriveへコピーする。
全てのセルを実行する(所要時間5分)
終わり