機械学習をゼロから1ヵ月間勉強し続けた結果

  • 697
    いいね
  • 1
    コメント

はじめに

2016/12/14 から約1ヵ月間、機械学習の勉強をし続けました。これは会社の自由研究という制度を利用させて頂いて、1ヶ月間は業務から離れて、機械学習の勉強だけをやり続けた記録です。

勉強してきたもののうち教師あり学習までは、Qiita にその記録をまとめましたので過去記事一覧からご覧ください。

過去記事一覧

1ヵ月なにをしたか

  1. ITエンジニアのための機械学習理論入門 を読破
  2. Coursera でStanford が提供しているMachine Learning の講座

基本的にはほぼひたすら2. の講座をやりました。どのようにこの講座に取り組んだかと、この講座の内容をまとめておきます。

Machine Learning の講座

Machine Learning

  • 1日あたりの講義ビデオがだいたい2〜4時間くらいあるのでまずそれを見ます。
    • 1本あたりは5〜10分くらいなので、あまり飽きがこないで見ることができます。
    • ビデオの合間には簡単なクイズがでるので「それに答えられる」ということで理解できていることを確認できます。
  • 数本のビデオの合間には前述のよりもう少し大きめのクイズがあります。
    • 4択クイズが5問で80%以上の正答率を出す(4問以上正解する)と次へ進めます。
    • 8時間以内に3回しかRetake できないのでこれをクリア出来ない場合は少し講座が止まってしまいます。
    • Retake 時には問題文や選択肢が少し変わるので間違っていたところだけをやり直すという形ではありません。
    • しっかり理解しないと次へ進めないので逆に進めることができれば安心できます。
  • 1日の最後に実装のテストがあります。
    • PDF にして15ページくらいの課題で、それをOctave で実装します。
    • ある程度ヒントを与えてくれていて穴埋め形式で不足しているところをコーディングします。
    • オンラインで提出して、リアルタイムで採点されます。
    • 100% 正解してようやく次に進めます。
    • Web などで正解を探してコピペなどするのは厳しく罰せられ、場合によっては講座から追い出されます。
    • 理解できないと本当に進めません。
    • 穴埋め形式とはいえ、中盤から(ニューラルネットワークあたりから)はかなり難しくなってきます。
  • 全部で11週あります。内容は後述。
  • 僕は上記の他に、学んだことを大学ノートに手書きでまとめることで理解を進めました。
  • さらに、一部(教師あり学習とその改善まで)をQiitaにまとめることで理解の確認を行いました。

講座の内容

Machine Learning

講座の内容は上記のページのシラバスに掲載されていますが、僕なりに訳して再掲しておきます。


第1週目
  • イントロダクション
    • 機械学習がどこで活躍するかなど
  • 単一変量による線形回帰
    • 予測モデル
  • (オプション) 機械学習に必要な線形代数概観
第2週目
  • 多変量による線形回帰
    • 多変量(特徴ベクトル)による予測モデル
  • Octave 基礎
    • 機械学習を学ぶためにはOctave が最適であると、Ng 教授はいいます。
    • 過去にPython を含むいろいろなツールを使ってきたが、理解度が最も高かったのがOctave とのこと
    • 環境構築や言語そのものでつまづかずに、機械学習に集中するにはOctave が良い
    • まずOctave でやってみて、できるようになってからそれをPython なり、自身のプロダクトで採用している言語なりで置き換えるのがよいと。
第3週目
  • ロジスティック回帰(分類)
    • 主に二値分類
    • 多値分類は、one-vs-all を使って二値分類の繰り返しで表現
  • 正規化
    • $ \lambda $ を使って正規化し、オーバーフィッティングに対処する
第4週目
  • ニューラルネットワーク概観
第5週目
  • ニューラルネットワーク詳細
第6週目
  • 機械学習を実践する時のアドバイス
  • 機械学習で問題(主に誤差)が起きたときのネクストステップ

ここはとてもためになりました。

第7週目
  • サポートベクターマシン(いわゆるSVM)
第8週目
  • 教師なし学習
    • K-means 法
    • クラスタリング
  • 次元削減

7週目まではすべて教師あり学習の話で、8〜9週目は教師なし学習の話です

第9週目
  • 異常検知
  • レコメンド
    • 協調フィルタリング
第10週目
  • 大規模なデータにおける機械学習
    • 確率的勾配降下法
    • オンライン学習
第11週目
  • 機械学習の実践例: Photo OCR

とにかく、Ng 教授は教え方がうまいです。また、こちらのモチベーションをあげてくれるのもとても上手です。ある程度進んだところでは「シリコンバレーにいるたいていの機械学習エンジニアより、ここまできたあなたのほうが理解している」とか、講座最後の「サンキュースピーチ」みたいなものは、感動して涙が出そうになりますし、今後この道でもっと腕を磨きたいと奮い立たせてくれます。本当におすすめの講座です。

講座で僕が提出したものはすべてgithub にまとめてあります。講座を受講される予定の方は、講座終了後にご覧ください。「Machine Learning Honor Code」という誓約によると、それ以前には見ないほうが良いものとなっていますので。

https://github.com/junichiro/ml-programming-assignments

before / after

before

before でいうと、もともとほぼゼロだったので、なにもないというところからのスタートです。理系の学部卒なのでそれなりに数学の知識はあるということと、統計が好きということは多少プラスに働いたとは思いますが。

after

この1ヵ月で手に入れたスキルを列挙します。

  • 機械学習
    • 線形回帰の理解
    • ロジスティック回帰の理解
    • ニューラルネットワーク及び深層学習の理解
    • サポートベクターマシン(SVM)の理解
    • 教師なし学習によるクラスタリングの理解(分類とは全く別物)
    • 次元削減の理解
    • オンライン学習の理解(確率的勾配降下法とともに)
    • 機械学習中に発生する問題点の理解と、対処法についての理解
  • Octave
    • Octave はじめて書きました。
    • $ \sum $ の計算やベクトルの計算をスムーズにできます。
    • 行列の計算をスムーズにできます。
    • 機械学習で思いついたアイデアをそのままOctave のコードで表現できます。
    • 最急降下法などの最小を求める問題で適切なライブラリを利用できます。
  • Qiita
    • Qiita ではじめて記事書きました。
    • Qiita で数式を書きました。いまではコスト関数くらいならチートシートなしで書けます。これは便利ですね。
    • フォロワーやストックやいいねもいくつか頂きました。

1ヵ月やるとここまでのスキルが手に入りますので、講座はオススメです。

リファレンス

今後

今後はこの1ヵ月で身につけた知識、ノウハウを使って、具体的な分類やレコメンドの実装に取り組みます。ニューラルネットワークを理解したうえで、TensorFlow などのチュートリあるに取り組んで見るのもいいかなと思っています。

自由研究を終えて業務に戻ると、機械学習とは一度離れたプロジェクトを担当する予定なので、そのときは個人的に20% ルールなどを用いて、継続的に実践課題に取り組みたいと思いますので、よろしければフォローしておいて頂ければと思います。ありがとうございました。

ここまで連載(?) をご覧いただきありがとうございました。今後も、身につけたものなどのフィードバックを得るためにも定期的にQiita に記事を書いて行きたいと思います。