docomo Developer supportの赤塚です.
11月28日のAWS re:Invent 2018のKeynoteにてAndy Jassy(AWSのCEO)からMachine Learningに関連するAWSソリューションのリリースがアナウンスされました.Keynoteの動画はここで確認することができます.3時間のKeynoteでMachine Learningだけで1時間を割いていることからMachine Learningの重要性がわかります.
今回の発表では,学習コスト及び推論コストを削減するためのソリューションが提供され,実運用でのGPGPUリソースの利用コストの改善が見込まれます.また,品質の高い大規模な学習データを作成するためのソリューションや自身のアルゴリズムを売買出来るMarketplaceがリリースされ,これまで以上に機械学習を用いたサービスの開発がしやすい環境が整ってきました.
本投稿でAndy JassyのKeynoteで発表されたサービスリリースを私の個人的に意見も踏まえて解説していきます.なお,DeepRacerについては記載を省略しています.個人的な意見はイタリックで記載するようにしています
リリースされたサービスのまとめ
-
ML Framework + Infrastructureは機械学習のフレームワーク及びインフラストラクチャ
- GPUインスタンスのP3dn (※1)
- TensorFlowにおいて学習時のGPUリソースの利用を最適化 (※2)
- AWS Inferentia
- Amazon Elastic Inference
-
ML Service
- Amazon SageMaker Ground Truth
- AWS Marketplace for machine learning
- Amazon SageMaker Neo (※1)
-
AI Service
- Amazon Textract「
- Amazon Personalizeをリリース
- Amazon Forecastをリリース
※1: P3dnとAmazon SageMaker NeoはAndy JassyのKeynoteではなく,Monday Night Liveでリリースされたものですが,リストに追記しておきました.
※2: ソリューションではないですが興味深い内容だったので追記しておきました.
はじめに
AWSが提供しているAI/MLのソリューションのカテゴリを下記の通り分けている.
- ML Framework + Infrastructureは機械学習のフレームワーク及びインフラストラクチャ
- ML Serviceはフルマネージドの機械学習サービス
- AI ServiceはAIの知識を必要なく利用できるAWSサービス.
それぞれに関してのリリースを以降記載します.
1. ML Framework + Infrastructure に関するリリース
ML Framework+InfrastructureはTensforFlow/mxnext/PyTorchなどの機械学習フレームワークや,GPUインスタンスなどのインフラストラクチャに関するリリースです.AWSが提供するサービスで最も機械学習の知識が必要な方を対象にしています.
1.1 よりパワフルなGPUインスタンスのリリース (P3dnのリリース)
AWSからはよりパワフルな新しいGPUインスタンスとしてP3dnをリリースされます. これは,11月26日月曜日の夜のMonday Night LiveでAWSから発表されました.AWSブログでも記載があります..P3dnを利用することで機械学習においてより複雑な大きな学習モデルの構築が可能となります.
1.2. TensorFlowにおいて学習時のGPUリソースの利用を最適化
AWSにおいてGPUリソースは利用料金が高く,いかに効率的にリソースを利用できるかが一つの課題です.TensorFlowの利用において,GPUリソースを有効活用できていない課題がありました.AWSでは,TensorFlowにおいて学習時のGPUリソースの利用を最適化することで,これまで65%しか有効活用できていなかったGPUリソースを90%の利用まで改善しました.これにより学習時間が30分から14分に短縮したとAndy Jassyは説明しています.
AWSとしては利用者が使いたいフレームワークを選択出来るように複数のソリューションを常にサポートすると言っています.現状はTensorFlow, mxnet, PyTorchが特に手厚くサポートされていますが,将来的には別のフレームワークに変わる可能性があるとAndy Jassyは説明します.
すべてのTensorFlowを利用しているユーザに
1.3. 推論のサポート
これまでは学習に対するサポートするためのソリューションをAWSはフォーカスしていましたが,実際の利用に置いて,インフラのコストの観点から推論と比べると学習にかかるリソース費用はごく一部で,約9割のインフラのコストは推論だと説明しています.
1.3.1 GPU処理能力(TFLOPS)を柔軟に選択出来るソリューションを提供 (Amazon Elastic Inference の リリース)
これまでは,実利用において推論時にGPUリソースを無駄にすることが多かったです(弊社でもこれはあるあるです).Amazon Elastic Inference は 必要なGPU処理能力(TFLOPS)だけをEC2インスタンスにアタッチすることでこのムダを最大75%省くことができます.本日から利用可能.(Generally Available Today)
1.3.2. 推論専用チップをAWSが開発(AWS Inferentiaのリリース)
詳細は不明ですが,ハイスループット,低いレイテンシー,高い処理能力を実現するために推論専用チップをAWSが開発しているようです.このチップを利用することで,推論時の無駄を省く事ができることが期待されます.このチップはAmazon SageMaker, Amazon EC2, and Amazon Elastic Inferenceなどで利用が可能とあります.2019の後半にリリース.(Available Late 2019)
2. ML Services に関するリリース
下記の通り学習に置いて複数ステップがあります.
- 学習データの収集
- 最適な学習アルゴリズムの選定
- 学習環境の構築
- 学習及びチューニングの実施
- 学習モデルを利用環境にデプロイ
- プロダクション環境の保守運用(スケーリング含む)
個人的には,この中でも最も時間がかかり,且つ,最も重要なステップは学習データの収集です.OSSで機械学習への敷居が下がった今,いかに大規模かつ品質の高い学習データを持つことが出来るかが鍵となります.
2.1. 学習データを自動的に増やしてくれるソリューション (Amazon SageMaker Ground Truth)
Andy Jassyの説明では,Amazon SageMaker Ground Truthでは,Machine Learningを用いて,入力されたデータの認識結果の信頼度が高ければ,機械的にデータにアノテーションを実施し,信頼度が低ければ人手でアノテーションを実施します.本日から利用可能(Generally Avaiable Today).
本ソリューションのメリットは機械的に大規模の学習データの作成できることと,アノテーションに必要な人件費を削減出来ることです.
で上記の当日の発表では説明がありませんでしたが,下記のブログにあるとおりAWSはアノテーションに必要となるGUIも提供してくれるようです.
Amazon SageMaker Ground Truth — 高い精度のデータセットを構築し、ラベル付けのコストを最大70%削減
画像認識において,本ソリューションは機械学的に学習データを増やすだけでなく,アノテーションに必要となる環境も提供してくれるので,学習データ作成にはぜひ使うべきだと思いました.
2.2. アルゴリズムが売買できるMarketplaceを提供 (AWS Marketplace for machine learningをリリース)
Amazon SageMakerは大きく分けで2つ利用方法があります.一つはAWSが準備したbuilt-inアルゴリズムを利用する.一つは自身でコーディングしアルゴリズムを作る.後者はDeep Learningフレームワークを利用し,自身でネットワークを構築して学習したりすることを意味します.
SageMakerリリース後,built-inアルゴリズムの数は増えてきましたが,AWS利用者が求める全ての提供はできていないようです.
そこで,AWSでは利用者間でアルゴリズムの売買が可能なマーケットプレイスをリリースしました.本日から利用可能 (Generally Available Today)
確かにAWSだけで作れるアルゴリズムの数は限りがあるので,なるほどなと思いました.気になったのは利用するアルゴリズムがセキュリティ的によろしくないことをしないかの確認方法があるかどうかです.
2.3. 強化学習のソリューションを提供 (Amazon SageMaker RLをリリース)
機械学習には教師あり学習,教師なし学習,そして強化学習の3つがあります.AWSは強化学習に特化したサービスを提供します.フルマネージドのサービスです.本日から利用可能(Generally Available Today)
AWSのブログにて本ソリューションについて細かく紹介がされています.
講演ではDeepRacerの紹介がありますが,本投稿では省略します.
3. AI Services に関するリリース
AWSは画像認識, Chatbot, 音声認識, 翻訳と様々な技術を開発者に提供しています.いくつか追加でリリースがあったので,それを紹介します.
個人的にはこれらAPIは簡易的なAPIであり,あくまで初めのスタートとしてコストをかけずにソリューションを作成出来るが売りだと理解しています.より深くユーザが抱えている課題を解決するには高度な技術の開発が必要です.
3.1. 文字認識を提供 (Amazon Textractをリリース)
Amazon Textractは単純な文字認識ではなく,表などの構造データも認識することが可能です.フルマネージドのサービスです.本日から利用可能 (Available in Preview Today)
従来のOCRは構造データを理解できない.
Amazon Textractでは構造データを理解
3.2. パーソナライズソリューションを提供 (Amazon Personalizeをリリース)
Amazon Personalizeで入力されたデータを学習し,ユーザに対して最適なレコメンデーションが出来るパーソナライズ機能を提供します.フルマネージドのサービスです.詳細はAWSの技術ブログを参照してください.
本日から利用可能です.(Generally Available Today)
詳細を把握できていませんが,簡易的なレコメンデーションを提供できる機能だと推察します.
3.3. 時系列データから予測するソリューションを提供(Amazon Forecastのリリース)
時系列データを事前に学習することで,将来を予測する機械学習サービスを提供.ユースケースでいうと,需要予測,ウェブのトラヒック予測,などなどです.本日から利用可能です.(Generally Available Today)
どうでしたでしょうか? AI/ML系で沢山のサービスがリリースされました.個人的には推論コストが削減出来るAmazon Elastic Inference,学習データの作成をサポートしてくれるAmazon SageMaker Ground Truth,アルゴリズムの売買ができるAWS Marketplace for machine learningに期待しています.