初めての機械学習
初めて機械学習を行う方向け、初めての機械学習特集です。
今回は機械学習とはの概要と開発環境について紹介していきます。
機械学習とは
データから知識を引きだし活用すること。
大きく教師あり学習と教師なし学習の2種類ある。
教師あり学習
ユーザーが入力データと望ましい出力のペア群をアルコリズムに与える。このペアのデータを「教師」としてアルコリズムは出力を生成するからである。詳しくは次回紹介。
教師なし学習
ユーザーが入力データのみをアルコリズムに与える。よって出力結果はどういったものになるか、わからない。詳しくは第3回で。
開発環境
Visual Studio Code
マイクロソフトが開発しているソースコードエディタ。
Windows、Mac OS、Linux上でも使え、マークダウン エディタとしても使える優れもの。
多言語対応、拡張機能もあり、Pythonのデバックを可能にできる。
ダウンロード:https://code.visualstudio.com
Python
Pythonは多くのデータサイエンスアプリケーションの共通語となっている。
今回Pythonを用いていく。
ダウンロード:https://www.python.org/downloads/
Pythonの便利ツール
何もPythonパッケージをインストールしていない方はこちら。
今後紹介していくPythonで頻繁に使うライブラリ、Numpy、Scipy、matplotlib、IPython、Jupyter Notebook、scikit-learnが含まれている。
Anaconda:https://store.continuum.io/cshop/anaconda
・scikit-learn
科学技術計算向けPythonライブラリ
・Jupyter Notebook
ブラウザ上でコードを実行するためのインタラクティブな環境
テキスト、画像の取り込みも簡単
コード例:https://github.om/amueller/introduction_to_ml_with_python
・Numpy
Pythonで計算する際の基本的ツール。
scikit-learnではNumpyの配列で入力を受け取るため、データはNampy配列に変換する必要がある
・Scipy
Pythonで使用する関数を集めたもの。特に疎行列を表現するscipy.sparseが重要。
Scipy Lecture Note:http://www.scipy-lectures.org/
・matplotlib
Pythonのグラフ描画ライブラリ。データの可視化を実現する関数群を提供。
・Pandas
データを変換、解析を行うライブラリ。エクセルのスプレッドシートに似ている。Numpyと異なり列ごとに異なる型であっても良い。また様々なファイルやデータベースからデータを取り込むことができる。
・mglearn
読みやすく作成するために絵を生成したり、データをロードしたりできる。
コード:https://github.om/amueller/introdution_to_ml_with_python
これで基本の開発環境が整いました。
ananonda、またJupyter Notebookの使い方はこちらのサイトがわかりやすかったです。
「データ分析デ欠かせない!Jupyter Notebookの使い方【初心者向け】」
https://techacademy.jp/magazine/17430
次回は教師あり学習を深堀りしていきます。
参考文献
・Pythonではじめる機械学習ーscikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎
(著者 Andreas C.Muller、Sarah Guido 発行所 株式会社オライリー・ジャパン)
・Visual Studio Code(https://code.visualstudio.com 2018/10/05参照)