More than 5 years have passed since last update.

機械学習を1ヵ月で実践レベルにする #1 (とっかかり編)

Last updated at 2017-01-10Posted at 2016-12-14

はじめに

会社から1ヵ月の自由研究期間を頂いたので、かねてより興味のあった機械学習の勉強を始めました。せっかくなので学習の記録をつけていこうと思います。1日目の今日は、機械学習を学ぶ上での文献や、学び方へのまとまりのないリファレンスとなりました。

1ヵ月後のゴールを以下のように定めました。

まず、この短い1ヵ月を有意義に過ごすために、自由研究期間にはいる前から、助走代わりにいくつか書籍を用意しておきました。

ビジネスに活かすデータマイニング
- 同僚が社内LTのたびに持ち出す良書
- 理論と実践を行き来したいので、実践パートで読みたいです
- (理論好きですけど、理論だけですと疲れますし飽きますから)
はじめてのパターン認識
- こちらも機械学習の実践例のひとつとして
データ解析のための統計モデリング入門
- 通称「みどりぼん」
- 統計学の知識としてこれを入れておくといいとのことです。
自然言語処理 (放送大学教材)
- 想定している課題のうちいくつかは明らかに自然言語の知識を必要とするので
深層学習 (機械学習プロフェッショナルシリーズ)
- どうせやるならディープラーニングまで行きたいですよね。
- 個人的に囲碁やポーカーが好きなので、そっちに応用できると嬉しいです。
- 興味枠。

戦略的データサイエンス入門
- データサイエンスとはなにか
- なにができてなにができないのか
- データサイエンスの有用性
- 最初に読んでおくと、勉強前のテンションがあがります！
- (これ読んでテンションあがらなければ向いていないです。)
- それを判定する意味でも読んでおくといいです。
集合知プログラミング
- 読んだのはもう8年も前なので復習したいです。
- 当時はこれを読むためにPython を始めたくらいです。
- 今回は目次だけ一通り再確認しました。
ITエンジニアのための機械学習理論入門
- タイトルまま。機械学習の理論を広く浅く学べました。
- 読書メモがそのままこれからの学習のリンクリストになりました。
- ツールもたくさん紹介されているので、実践もしやすいです。
- この記事の付録として読書メモを最後にまとめておきます。

そして、1日目に当たる今日は、どういう筋道で学習していくかを決めるため、さらにランダムにいろいろなサイト、スライドを見まくりました。

機械学習分野はとにかく需要がある！
機械学習は大きく分けて「教師あり学習と教師なし学習」にわけられる
- (僕が興味あるのは、とりあえず教師あり学習のほう)
教師あり学習とはつまり正しい答えが与えれているもの。
特徴のリストは無限の長さにもなり得るがそれに対応できるアルゴリズムがある。
回帰問題 => 連続値出力の予測
分類問題 => 離散値出力の予測
機械学習を学ぶときに使う言語はOctave 一択！
- 過去の実績でOctave を使うと、機械学習の習得が最速
- Python よりも。
- Python いろいろ準備しようとしてたのに...
WEEK 1 を終えての感想
- 1WEEK あたり3時間くらい。
- スケジュール通りやると3月くらいまでかかる
- がんばれば午前に1WEEK、午後にもう1WEEK進められそう
- 内容は「IT エンジニアのための機械学習理論入門」と似ている
- ただ、よりゆっくりかつ詳しく説明してくれるので理解しやすい

明日からはこちらの、Stanford の機械学習講座をやります。WEEK 11 まであるようで、午前と午後にひとつずつやっても1週間で終わるので、クリスマス前にはこの講座を終了して肌感をつかみたいと思います。

それから、手を動かそうとしたときに本質的でないところでつまづいたり時間をとられたりして、コンテキストスイッチされても嫌なので、Python における機械学習環境を見直して、最強の環境も明日作ります。と思っていたのですが、Octave の環境も作っておかないとですね。

Machine Learning - Stanford University | Coursera
- これの WEEK 2, WEEK 3
- (↑これだけで6時間消費する...)
Octave の環境づくり
Python の機械学習環境見直し(or 再構築)
- pyenv / virtualenv
- anaconda
- IPython
- Jupyter
- NumPy
- pandas
- SciPy
- matplotlib
- PIL(Python Image Library)
- scikit-learn

563