#背景
巷にはデータ分析のツールとして複数のサービスが提供されています。私は製造業に関連するお仕事をしていますが、主に下記2手法をデータ分析及び視覚化用途として耳にします。
- 環境① Python + Numpy + Pandas + αを用いたデータ分析
- 環境② BIツール(Business Intelligence tools)によるデータ分析
この2ツールの違いについて比較検討する上で、「2ツールで同じ分析をやってみればいいんじゃない?」とのアイデアの元、実際に試してみました。
※初投稿です。お気づきの点等ありましたら、ご指摘頂けますと幸いです。
#システム構成
###共通環境
使用PC OS:Microsoft社製 Windows10 Pro 64bit
使用ブラウザ: Microsoft社製 Edge
###環境① ”Python + Numpy + Pandas + αを用いたデータ分析” 動作環境
・使用環境:kaggle notebook
クラウドサービスのためバージョン確認出来ず、2020/8/24時点でのものとなります。
kaggleとは、データ分析を行う方のコミュニティー兼コンペティションWebサイトです。懸賞金が付くコンペも存在し、データ分析にエンジニアがその分析精度を競いあっている様です。
詳細内容は下記リンク先が分かりやすいです。
いまさら聞けないKaggleチュートリアル第1回 Kaggleとは?参加する意味とは?
また下記リンクを参考に私はアカウントを開設しました。アカウントがあればkaggle notebookを含め データ分析関連サービスを無償利用できます。
Kaggle初心者向け入門編!アカウント開設からタイタニック提出まで
###環境② "BIツールによるデータ分析" 動作環境
・使用環境:Microsoft社製 Power BI Desktop Ver 2.84.802.0 64-bit
Microsoft Storeより、PowerBI Desktopを入手できます。今回の作業を含め大部分の機能が無償で利用出来ます。
#やったこと(サマリ)
データ分析の流れは、Udemyのデータサイエンスコースの一部を拝借しました。
下記コースは基礎から簡単な実習迄網羅されており、データサイエンスを体系立てて学ばれたい方にはおススメします。
【世界で18万人が受講】実践Pythonデータサイエンス
udemy内の上記カリキュラムに乗っ取り、データ分析の第一歩として有名な「タイタニック号沈没」に関わる下記分析を、2手法で行ってみます。
・タイタニック号の乗客はどの様な人達だったのか?(性別・年齢など)
・上記に大別される特性やその複合関係と、生存率との因果関係
#やったこと(詳細) Python + Numpy + Pandas + α 編
本記事では、2ツール共通の処理及び、"Python + numpy + pandas + α"ツールでの操作結果を記述します。
”BIツールによるデータ分析” 結果は、次回の記事に記載します。
1.データを、ローカル(自PC)に取得する
kaggleよりタイタニック沈没時の顧客データをCSVデータとして取得します。
2.ローカルデータを環境上に取り込み、サマリを表示する
先頭の5データのみを抜粋しデータの全貌を俯瞰します。
4.客室の等級ごとに男女の比率を確認する
Pclassという項目が客室の等級を示します。三等客室には男性が多い事が判ります。
5.年齢(Age)及び性別(Sex)という項目を用い、"男性"、"女性"、"子供(16歳未満)"という項目(Person)を作成
その上で、等級ごとのPersonの分布を確認します。
一等客室は高価なのか子供は殆どいません。加えて三等客室は男性の成人男性の比率が高いことが判ります。更に子供の比率も高いことから、三等客室は独身男性や家族連れが多かったのでは?と想像できます。
以上が簡単な分析の流れです。
実際にはこの先、上記特性および周辺の特性と生存者の因果関係を俯瞰していく流れとなりますが、初段だけ抜粋し記載しました。
#まとめ(所感)
上記作業を行いながら、私の感想としては、
- 先頭等の一部の実データを見て、データ全体の雰囲気を捉える
- データが壊れていないかをデータサマリで見る & チョコチョコっと直す
- 自分の意図した情報を取るために、自身でデータを作る
の様に、莫大なデータを色々な軸で「かいつまみ」ながら分析を進めていけるのが、kaggle等のpython系notebookの利点と感じました。
(当然といえば当然なのですが…)
次回の記載では、同一の作業をBiツールであるMicrosoft社製 PowerBIを用いて試してみます。