現在、AIや機械学習界隈で最も有名なスタンフォード大学のAndrew Ng教授が、「Machine Learning Yearning」というオンライン書籍を執筆中です。2018年4月~に、そのドラフト版(1-50章)がオンラインで公開中です。この投稿では、いち早く翻訳を進めています。
この本は、機械学習プロジェクトの構築方法を提供します。また、機械学習アルゴリズムを教えるのではなく、機械学習アルゴリズムが機能する方法に焦点を当てています。
本投稿は、44-46章の翻訳になります。少しづつ翻訳していきます。※翻訳違っていたらご指摘ください。
本書籍は、とても読みやすく、かつ各章短めに記載されています。
1~49章までの翻訳
50. Choosing pipeline components: Data availability(パイプラインコンポーネントの選択:データ可用性)
非end-to-endパイプランのシステムを構築している場合には、何がパイプラインのコンポーネントの候補となるでしょうか。
パイプラインの設計方法は、システム全体のパフォーマンスに大きな影響を与えます。重要なポイントの1つは、各コンポーネントを訓練するために、「データを容易に収集できるかどうか」です。
例えば、次の自律走行のアーキテクチャを考えてみましょう。
機械学習を利用して、車と歩行者を検知することはできます。さらに、これらのデータを取得することは難しくありません。というのも、車と歩行者のラベルが付いた巨大なコンピュータビジョンのデータセットがあります。クラウドソーシング(Amazon Mechanical Turkなど)を利用して、大規模なデータセットを手に入れることもできます。このように比較的容易に、車や歩行者の検知器を構築するための訓練データを手に入れることができます。
対照的に、純粋なend-to-endのアプローチを考えてみましょう。
このシステムを訓練するために、大規模なペア(画像/操縦方向両方)のデータセットが必要です。運転を行いつつ、データを収集し操縦方向を記録することは、とても時間がかかり、費用を伴います。あなたは特別な装置を装備した自動車の車隊と、可能なシナリオを広範囲でカバーするための大量の運転が必要になります。
これは、end-to-endシステムを訓練することが困難です。大規模なラベル付きの車や歩行者の画像データセットを取得する方がずっと簡単です。
さらに一般的には、パイプラインの「中間モジュール」(自動車検出器や歩行者検出器)を訓練に利用できるデータが大量にある場合、複数ステージを持つパイプラインを使用することを検討するでしょう。この構造は、利用可能なデータ全てを利用して中間モジュールを訓練できる点で優れているといえます。より多くのend-to-end データが利用可能になるまでは、非end-to-end アプローチは自律走行運転においては非常に有望であると思います。そのアーキテクチャーは、データの可用性の観点で適しています。
51. Choosing pipeline components: Task simplicity(パイプラインコンポーネントの選択:タスクの簡素化)
データの可用性以外にも、パイプラインのコンポーネントを選ぶ際の第2の要素を考えるべきです。それは、個々のコンポーネントによって、どれくらいそのタスクがシンプルになるか、ということです。
ここに容易に構築し、学習できるパイプラインのコンポーネントを選択するようにするべきです。しかし、学習が「容易」とは、いったいどういう意味でしょうか。
難易度の高い順に、機械学習のタスクを列挙します。
- 画像が(上記の画像の例のように)露出過度であるかどうかを分類する。
- 画像が屋内か屋外かを分類する。
- 画像にネコが含まれるか分類する。
- 画像に黒と白両方の毛をもつネコが含まれているか分類する。
- 画像にシャムネコ(=特定の品種)が含まれているかどうかを分類する。
これらは画像のバイナリ(2値)分類タスクです。画像を入力し、0か1を出力しなくてはなりません。しかし、リストの初期のタスクは、ニューラルネットワークで学習すれば「より簡単に」実行できるように見えます。少数の訓練データのサンプルで、「より簡単に」タスクを学習することができるでしょう。
機械学習は、タスクを容易にするか、困難にするかという正式な定義はまだありません。
ディープラーニングと多層ニューラルネットワークの登場により、もし少ない計算ステップ(浅いNN)で実行することができれば、1つのタスクは「容易」であり、多くの計算ステップ(より深いNN)が必要とされる場合には、「困難」であると、時に言うでしょう。しかし、これらは非公式の定義です。
もし複雑なタスクを実行して、より簡単なサブタスクに分割できれば、サブタスクのステップを明示的にコーディングすることによって、タスク全体をより効率的に学習するのに役立つ事前知識をアルゴリズムに与えていることになります。
あなたがシャムネコの検出器を構築しているとします。 これは完全なend-to-endのアーキテクチャです。
対照的に、代わりに2ステップでパイプラインを使用することもできます。
最初のステップ(ネコ検出器)は、画像内のすべてのネコを検出します。
次に、検出された各ネコが切り抜かれた画像をネコの種別分類器に渡し、検出されたネコがシャムネコである場合には、最終的に1を出力する。
0/1ラベルだけを利用した純粋なend-to-end分類器を訓練するのと比較し、パイプライン上の2つのコンポーネント(ネコ検出器とネコ品種分類器)は、はるかに学習しやすく、要求されるデータは少なくなります。
最後の1つの例として、自律走行のパイプラインを再訪します。
このパイプラインを利用することで、アルゴリズムには3つのキーステップがあります。(1)他の車の検出、(2)歩行者の検出、(3)車の進路計画、です。さらに、これら各コンポーネントは、比較的シンプルな機能です。そして、純粋なend-to-endシステムと比較して、より少ないデータで学習することができます。
要約すると、パイプラインのコンポーネントを決定する場合には、各コンポーネントが比較的シンプルな機能、すなわち僅かなデータ量から学習が可能であるパイプラインを構築してみてください。
52 Directly learning rich outputs(リッチな出力を直接学習する)
画像分類アルゴリズムは画像xを入力し、カテゴリを示す整数を出力します。代わりに、画像について記述した文章をアルゴリズムが出力することはできるでしょうか?
教師あり学習の伝統的なアプリケーションは、関数h:X→Yを学習した。ここで、出力yは通常整数もしくは実数である。例えば、次のイメージです。
end-to-endの深層学習における最もエキサイティングな開発の1つは,、数字よりもさらに複雑な出力yを直接学習させることです。
上記の画像キャプションの例では、ニューラルネットワークに画像(x)を入力し、直接キャプション(y)を出力します。
さらに例を挙げます。
この例は深層学習における機運の高まりです。正しい(入力、出力)のラベルペアがある場合、出力が文章、画像、オーディオ、その他の単一数字よりも複雑な何かであっても、end-to-endで学習することができます。