機械学習を始めたいけど、環境構築が難しそう?
セクションタイトル通りですが、「機械学習を始めたいけど、環境構築が難しそう」と思っている方はいませんか?
そんな方に「かんたん機械学習キット」と題して、最低限用意したいものとその導入手順をご紹介します!
※ 導入手順はWindows10を前提としていますが、キットの内容はどのOSでも参考になると思います。
かんたん機械学習キット
- 言語
- Python
- エディタ
- Jupyter Notebook
- ライブラリ
- scikit-learn
- NumPy
- SciPy
- matplotlib
- pandas
言語
Python
Pythonは、多くのデータサイエンティストの共通語となっていて、「データのロード」「可視化」「統計」「自然言語処理」「画像処理」などに使える便利なライブラリがたくさん用意されています。
【導入手順】
-
公式サイトのダウンロードページへアクセスする
-
ダウンロードしたインストーラを実行する
【確認】
- 下記のコマンドを実行して、「Python」と「pip」のバージョンが表示されたらOK
python --version
pip --version
エディタ
Jupyter Notebook
Jupyter Notebookは、ブラウザ上でコードを実行できるインタラクティブな環境です。
【導入手順】
- 下記のコマンドを実行する
pip install jupyterlab
【確認】
- 任意の場所で下記のコマンドを実行する(ブラウザは普段よく使うものを選んで大丈夫です)
jupyter notebook
ライブラリ
scikit-learn
scikit-learnは、オープンソースで公開されている機械学習ライブラリです。
多くの機械学習アルゴリズムが実装されている点、どのアルゴリズムでも同じような書き方で使える点から、初心者にも扱いやすいライブラリだと思います。
【導入手順】
- 下記のコマンドを実行する
pip install scikit-learn
NumPy
NumPyは、数値計算を高速に効率的に行うことができるライブラリです。
上で紹介したscikit-learnで使用するデータはNumPy配列に変換しなければいけないことを覚えておいてください。
【導入手順】
- 下記のコマンドを実行する
pip install numpy
SciPy
SciPyは、高度な科学計算を行うための関数を集めたライブラリで、「線形代数処理」「信号処理」「統計分布」など様々な機能を持ちます。
【導入手順】
- 下記のコマンドを実行する
pip install scipy
matplotlib
matplotlibは、Pythonで最も広く使われているグラフ描画ライブラリです。
データや解析結果を様々な視点から可視化することは、データ分析・機械学習において非常に重要です。
【導入手順】
- 下記のコマンドを実行する
pip install matplotlib
pandas
pandasは、データの変換や解析に使用するライブラリです。
テーブル(表)のようなDataFrameという構造でデータを扱います。
【導入手順】
- 下記のコマンドを実行する
pip install pandas
各ライブラリの確認
各ライブラリが正常にインストールできているかを、Jupyter Notebookを使って確認してみましょう。
- Jupyter Notebookを開いたら、画面右上の「New > Python 3」をクリック
- 作成したファイルで各import文を書き、「shift + enter」で実行し、エラーにならなけらばOK
import sklearn
import numpy
import scipy
import matplotlib
import pandas
おわりに
機械学習を始めるにあたっておすすめなのが、世界中のデータサイエンティストが参加するコミュニティサイト「Kaggle」で入門コンペとして用意されている「Titanic - Machine Learning from Disaster」に挑戦することです。(無料、無期限)
このコンペを通して「データの前処理」「学習モデルの構築」「モデルの評価・検証」など、機械学習に必要な一通りの手順の基本を学ぶことができます。
Kaggleのチュートリアル記事も書いているので、是非ご覧ください!
それでは、良い機械学習ライフを。