現在、AIや機械学習界隈で最も有名なスタンフォード大学のAndrew Ng教授が、「Machine Learning Yearning」というオンライン書籍を執筆中です。2018年4月に、そのドラフト版(1-22章)がオンラインで公開中です。この投稿では、いち早く翻訳を進めています。
この本は、機械学習プロジェクトの構築方法を提供します。また、機械学習アルゴリズムを教えるのではなく、機械学習アルゴリズムが機能する方法に焦点を当てています。
本投稿は、17-18章の翻訳になります。少しづつ翻訳していきます。※翻訳違っていたらご指摘ください。
本書籍は、とても読みやすく、かつ各章短めに記載されています。
1~5章の翻訳
【Draft版公開】Machine Learning Yearning 1~5章 by stanford大学Andrew Ng教授
6章の翻訳
【Draft版公開】Machine Learning Yearning 6章 by stanford大学Andrew Ng教授
7-8章の翻訳
【Draft版公開】Machine Learning Yearning 7~8章 by stanford大学Andrew Ng教授
9-10章の翻訳
【Draft版公開】Machine Learning Yearning 9~10章 by stanford大学Andrew Ng教授
11-12章の翻訳
[【Draft版公開】Machine Learning Yearning 11~12章 by stanford大学Andrew Ng教授]
(https://qiita.com/Ishio/items/35c756e073a1f2f1d244)
13-14章の翻訳
機械学習プロジェクトの進め方:『Machine Learning Yearning』13-14章(スタンフォード大学Andrew Ng教授)
15-16章の翻訳
機械学習プロジェクトの進め方:『Machine Learning Yearning』15-16章(スタンフォード大学Andrew Ng教授)
17-18章の翻訳
機械学習プロジェクトの進め方:『Machine Learning Yearning』17-18章(スタンフォード大学Andrew Ng教授)
19. Takeaways: Basic error analysis(要点:基本的なエラー分析の考え方)
- 新しいプロジェクトを開始したら、特にあなたが専門ではない領域にいる場合には、最も有望な方向性を推測してプロジェクトを正確に動かすことは難しいです。
- そこで、完璧なシステムのデザイン・構築から始めるのはやめましょう。代わりに、ベーシカルなシステムを迅速に構築し訓練しましょう。できれば数日以内に。次にエラー分析を利用して、最も有望な方向性(アイデア)を特定し、反復的にあなたのアルゴリズムを改善していきます。
- アルゴリズムが誤分類した100件未満の開発セットのサンプルを人手で検査し、主要なエラーカテゴリを数えることによって、エラー分析を実行してください。この情報を利用して、どのタイプのエラーを修正するか、優先順位付けを行います。
- 開発セットを「目玉の親父開発セット※」と「ブラックボックス開発セット」の2つサブセットに分けることを検討してください。もし、「目玉の親父開発セット」のパフォーマンスが、「ブラックボックス開発セット」よりもとても優れている場合、前者のサブセットに対してオーバーフィットしているので、さらにデータが必要になることを検討してください。
- 目玉の親父開発セット:手動で検査する用 ※目玉の親父<- 意訳です。
- ブラックボックス開発セット:手動で検査しない用
- 「目玉の親父開発セット」は、アルゴリズムの誤分類を検査するに十分大きいサイズにするべきです。「ブラックボックス開発セット」は多くのアプリケーションにとって、1,000~10,000サンプルあれば十分です。
- あなたの開発セットが上記のようにサブセットに分割するに十分なサイズではない場合には、人手でのエラー分析・モデル選択・ハイパーパラメーターの調整のために「目玉の親父開発セット」だけを使います。