LoginSignup
23
31

More than 1 year has passed since last update.

はじめての機械学習環境構築(かんたん機械学習キット)

Last updated at Posted at 2021-02-21

機械学習を始めたいけど、環境構築が難しそう?

セクションタイトル通りですが、「機械学習を始めたいけど、環境構築が難しそう」と思っている方はいませんか?
そんな方に「かんたん機械学習キット」と題して、最低限用意したいものその導入手順をご紹介します!

※ 導入手順はWindows10を前提としていますが、キットの内容はどのOSでも参考になると思います。

かんたん機械学習キット

  • 言語
    • Python
  • エディタ
    • Jupyter Notebook
  • ライブラリ
    • scikit-learn
    • NumPy
    • SciPy
    • matplotlib
    • pandas

言語

Python

Pythonは、多くのデータサイエンティストの共通語となっていて、「データのロード」「可視化」「統計」「自然言語処理」「画像処理」などに使える便利なライブラリがたくさん用意されています。

【導入手順】

  • 公式サイトのダウンロードページへアクセスする

  • latest version のインストーラをダウンロードする
    01_ダウンロードページ.png

  • ダウンロードしたインストーラを実行する

  • 「Add Python 3.x to PATH」にチェックを入れて、「Install Now」をクリックする
    02_インストール1.png

【確認】

  • 下記のコマンドを実行して、「Python」と「pip」のバージョンが表示されたらOK
python --version
pip --version

エディタ

Jupyter Notebook

Jupyter Notebookは、ブラウザ上でコードを実行できるインタラクティブな環境です。

【導入手順】

  • 下記のコマンドを実行する
pip install jupyterlab

【確認】

  • 任意の場所で下記のコマンドを実行する(ブラウザは普段よく使うものを選んで大丈夫です)
jupyter notebook
  • 下図のような画面が表示されればOK 05_ジュピター.png

ライブラリ

scikit-learn

scikit-learnは、オープンソースで公開されている機械学習ライブラリです。
多くの機械学習アルゴリズムが実装されている点、どのアルゴリズムでも同じような書き方で使える点から、初心者にも扱いやすいライブラリだと思います。

【導入手順】

  • 下記のコマンドを実行する
pip install scikit-learn

NumPy

NumPyは、数値計算を高速に効率的に行うことができるライブラリです。
上で紹介したscikit-learnで使用するデータはNumPy配列に変換しなければいけないことを覚えておいてください。

【導入手順】

  • 下記のコマンドを実行する
pip install numpy

SciPy

SciPyは、高度な科学計算を行うための関数を集めたライブラリで、「線形代数処理」「信号処理」「統計分布」など様々な機能を持ちます。

【導入手順】

  • 下記のコマンドを実行する
pip install scipy

matplotlib

matplotlibは、Pythonで最も広く使われているグラフ描画ライブラリです。
データや解析結果を様々な視点から可視化することは、データ分析・機械学習において非常に重要です。

【導入手順】

  • 下記のコマンドを実行する
pip install matplotlib

pandas

pandasは、データの変換や解析に使用するライブラリです。
テーブル(表)のようなDataFrameという構造でデータを扱います。

【導入手順】

  • 下記のコマンドを実行する
pip install pandas

各ライブラリの確認

各ライブラリが正常にインストールできているかを、Jupyter Notebookを使って確認してみましょう。

  • Jupyter Notebookを開いたら、画面右上の「New > Python 3」をクリック

06_ジュピター2.png

  • 作成したファイルで各import文を書き、「shift + enter」で実行し、エラーにならなけらばOK
import sklearn
import numpy
import scipy
import matplotlib
import pandas

10_ライブラリ確認.png

おわりに

機械学習を始めるにあたっておすすめなのが、世界中のデータサイエンティストが参加するコミュニティサイト「Kaggle」で入門コンペとして用意されている「Titanic - Machine Learning from Disaster」に挑戦することです。(無料、無期限)

このコンペを通して「データの前処理」「学習モデルの構築」「モデルの評価・検証」など、機械学習に必要な一通りの手順の基本を学ぶことができます。

Kaggleのチュートリアル記事も書いているので、是非ご覧ください!

それでは、良い機械学習ライフを。

23
31
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
23
31