データ解析のためのPythonインストールまとめ

  • 190
    いいね
  • 0
    コメント
この記事は最終更新日から1年以上が経過しています。

注意:この記事は古い情報です。

下記のページを代わりに読んでください。

データサイエンティストを目指す人のpython環境構築 2016 - Qiita

以下は、上記を読んで足りない場合のみ、読むようにしてください。


この記事は、他の言語でのプログラミング経験はあるけどPythonは初めての人向けに、Pythonを使ったデータ解析プログラミングを始めるまでのおすすめルートを示すものです。

対象者は、WindowsまたはMacユーザです。Linuxユーザは自分でできると思うので割愛。

データ解析に必要なもの・ライブラリ

  • Python本体
  • NumPy: 配列データ(ベクトルや行列)を簡単に扱うためのライブラリ
  • SciPy: 科学計算用ライブラリ
  • matplotlib: グラフの作図ライブラリ
  • pandas: Rみたいなデータフレームが使える
  • (オプション)IPython: 便利な対話環境+レポート作成機能
  • (オプション)pip: 便利なパッケージマネージャ
  • (オプション)scikit-learn: 機械学習用ライブラリ

Pythonのインストール

Windowsの場合

1. Python, NumPy, SciPy, matplotlibのインストーラを使う

この記事に従います。

注意すべきは、Windowsが64bitでも、Pythonのインストーラは32bit用を使うこと です。

以下引用:

  1. Pythonをインストールします。Win用のインストーラがあります。
    http://www.python.org/ftp/python/2.7.4/python-2.7.4.msi

  2. NumPyをインストールします。Win用のインストーラがあります。
    http://sourceforge.net/projects/numpy/files/NumPy/1.7.0/numpy-1.7.0-win32-superpack-python2.7.exe/download

  3. SciPyをインストールします。Win用のインストーラがあります。
    http://sourceforge.net/projects/scipy/files/scipy/0.12.0/scipy-0.12.0-win32-superpack-python2.7.exe/download

  4. matplotlibをインストールします。Win用のインストーラがあります。
    https://github.com/downloads/matplotlib/matplotlib/matplotlib-1.2.0.win32-py2.7.exe

2. pandasのインストール

Windows32bit で Python27 & Pandas/StatsModels - けいれん現象の幽玄美よ に従います。

  1. http://pandas.pydata.org/getpandas.html から 「pandas-0.10.0.win32-py2.7.exe」をダウンロード
  2. exeをダブルクリックしてインストール。

Macの場合

SciPy Superpackを使ってインストールします。

1. 準備

Xcodeを予めインストールしておきます。
Pythonは2.x系が予めインストールされているはずなので、これを使います。

2. SciPy Superpackをインストール

PythonをMacで使う.主に研究用.: Scipy Superpackをインストール に従います。

  1. http://fonnesbeck.github.com/ScipySuperpack/からinstall_superpack.shをダウンロード。
  2. ターミナルでinstall_superpack.shのあるディレクトリに移り、実行する:

    sh install_superpack.sh
    
  3. 以下のように聞かれるので、「n」と答える。

    Are you installing from a repository cloned to this machine (if unsure, ansew no)?(y/n) n
    

3. pipを使って各種ライブラリをインストール

後述の「pip, IPythonのインストール(Win/Mac) 」に従ってpipをインストールした上で、pipを使って残りのライブラリをインストールします。

pip install pandas
pip install scikit-learn

pip, IPythonのインストール(Win/Mac)

この項の方法はWindowsとMacで共通しています。

pip と ipython インストール手引き (Windows編) - secretbase.log を参考にpipとIPythonをインストールしてみます。以下、引用。

setuptoolsのインストール

setuptools をインストールします。この中に easy_install も含まれています。
http://pypi.python.org/pypi/setuptools

pythonのバージョンに合わせた ファイルをダウンロードします。(引用者注:Windowsの場合は)setuptools-0.6c11.win32-py2.6.exeを選択し実行します。

pip のインストール

pipは、easy_install を置き換えるものとして開発されていて、パッケージのuninstallもできて便利なのでこちらを入れます。
easy_install から pip をインストールします。

コマンドプロンプトを起動します。

easy_install pip

ipython のインストール

環境が整いました。pip にて ipython をインストールします。

pip install ipython
pip install pyreadline

別の方法(Win/Mac):Enthought Canopyを使う方法

上記のライブラリ一式をインストールするには、別の方法があります。Enthought Canopy のパッケージであるCanopy Expressを使うと、データ解析に必要な色々なライブラリ(NumPy, SciPy, matplotlib, IPython, pandasなど)が一気にインストールできるそうです。インストール方法は Windows7 IPython インストール - 蛇使いのブログ にも載っています。

インストールするには、https://www.enthought.com/products/canopy/ にアクセスしてCanopy Express(無料)をインストールすれば、(Windowsの場合)スタートメニューにある「Canopy command prompt」からPythonの処理系一式を使うことが出来ます。

ただし、この記事を書いた時点(14.03.07)では、上記のURLはInternal Server Errorとなってアクセス出来ませんでした。もしアクセスできるなら、試してみてもいいかもしれません。

おすすめの開発環境

おすすめの開発環境(IDE)を紹介します。Emacs/Vimを使いたい方は、自分で調べて下さい。

PyCharm Community Edition (Win/Mac/Linux)

僕が愛用しているIDEです。無料で使えて、補充などもうまく効いてくれます。
マルチプラットフォームなのが最大の特徴です。プラグインでVimエミュレータもあります。

データ解析には、無料のCommunity Editionだけで十分間に合うのでこれを使います。

PyScripter(Windows)

僕は使ったことがないですが、Windowsの人はこれを入れてもいいかもしれません。