私の会社ではPythonを使っている人はいませんが、業務ではPythonが必要だなと思う機会が増えてきました(AWSのLambdaとか)
データ分析でpythonを使用することになりそうなので環境構築を備忘録がてらにつらつらと書きます...
想定環境:Ubuntu18.04 Python3
●pip
パッケージ管理で、ライブラリのインストール
インストール
$sudo apt-get inatall python3-pip
$sudo pip3 install パッケージ名
●Numpy
多次元配列などの数値計算を高速に処理できます。書籍でnpと略されることが多いです
インストール
$sudo pip3 install numpy
●Scipy
最適化、保管、積分、空間解析、信号処理、画像処理などができるそうです
私の業務では統計・クラスタリングで使用します
spと略されます
インストール
$sudo apt-get install libblas-dev gfortran liblapack-dev g++
●Matplotlib
データを可視化のためにグラフを描画します、データ分析ではグラフは欠かせませんね!
pltと略されます
インストール
$sudo apt-get install libgtk2.0-dev
$sudo apt-get install libfreetype6-dev libpng-dev graphviz
$sudo pip3 install matplotlib
●pandas
データ構造やデータ解析に使用し、行列型データを扱います
CSV、Excelに対応しており、データ分割、インデックス、2次元・3次元・時系列データを操作できます
pdと略されます
インストール
$sudo pip3 install pandas
csvデータの読み込み
import pandas as pd
iris = pd.read_csv("iris.csv")
iris.info()
データ分析に使えそうなライブラリ(IPythonとか)はまだあると思うのですが今の想定はこんなとこです
相関係数を求めたり検定を行う場合以外はBIツールで可視化はできそうですが、BIツールでできない部分をPythonで補えたらいいなと思います