機械学習の未経験者が、必要なライブラリやツールを調べたときのメモ。
Python がよく使われているらしいが、Python を使用する利点の一つとして、Jupyter Notebook(ジュピター・ノートブック) などのツールを利用することで、インタラクティブに開発、データ解析を進めることができる。
調べていると、scikit-learn(サイキット・ラーン)というライブラリがキーワードとして挙がってきた。
- 機械学習分野における重要な Python ライブラリ。
- オープンソースプロジェクト。
- 公式ユーザガイド
- 科学技術計算を行うためのPythonパッケージ NumPy(ナンパイまたはナムパイ)と SciPy(サイパイ)の上で構築されている。
その他、関連のありそうなライブラリについて。
- グラフ描画ライブラリとしては、matplotlib(マットプロットリブ)がある。
- インタラクティブ開発用のシェルとして、IPython(アイパイソン)がある。
- インタラクティブ開発環境として、Jupyter Notebook がある。
- データを変換したり解析したりするためのライブラリとして、pandas(パンダス、パンダズまたはパンダ) がある。
必要なパッケージが含まれているPythonディストリビューションの一つとして、Anaconda (アナコンダ)があり、開発環境の構築に非常に便利。
Python が既にインストールされている場合、pip コマンドでこれらのパッケージをインストールできる。
pip install numpy scipy matplotlib ipython scikit-learn pandas