More than 5 years have passed since last update.

AWSの機械学習エンジニア認定試験を受けてきた

Posted at 2019-05-06

AWS Certified Machine Learning - Specialtyを受けてきた。830点くらいで合格できた。その攻略方法を後学のためにメモ書き。

試験の流れ

制限時間は180分。出題数は65問だった。
試験のあとに10問程度のアンケートがある。
時間に関してはかなり余裕があるので心配無用。

試験を受けるために本人確認書類が必要である。運転免許証とクレジットカードでなんとかなった。運転免許証と保険証ではNGみたい。

試験のサンプルではAmazon Machine Learningという古めかしいサービスがやたらと参照されていたが、実際のところあまり重要ではなかった。

本当に重要なのはSageMakerなので、ドキュメントは読み込んだほうが良い。これをどこまで熟知しているかで合否が決まる。

特に重要なポイントを挙げる。

S3との連携
- Pipeモード、RecordIO protobuf 形式
- 「S3に巨大なデータがあって、リアルタイムにトレーニングしたいんだけど〜」みたいな設定が多かった
- ステップ 2.2.3: トレーニングデータセットを変換し、Amazon S3 にアップロードする - Amazon SageMaker
エンドポイントの負荷テスト
- 本番稼動用バリアントの自動スケーリングの負荷テスト - Amazon SageMaker
ハイパーパラメータの調整
- ハイパーパラメータ調整の仕組み - Amazon SageMaker
組み込みアルゴリズム
- ランダムカットフォレストがよく出た

DeepLearningの問題が出てくるが、AlexNetやVGGなどの固有名詞は出なかった。
- seq2seqやCNNなどがわかればOK。
- 学習曲線のグラフからモデルの評価が出来るようにしておく。
本格的なGPUの使い方などは出なかった。インスタンスタイプ(P3とG3の違い)くらいまで。
TP/TN/FP/FN、AUC、F1、Recall/Precision...などは簡単なので落とさない。
DBSCAN/T-SNEくらいの用語は選択肢に出てくるので「あーあのクラスタリングのアルゴリズムね」くらいは把握しておく必要あり。
欠損値の埋め方（多重代入、ペアワイズ）とかカテゴリ変数の処理（One-hot/ラベル/ターゲット）なども出てくる。

試験サンプルでは不均衡データの扱いが多かったが、本番でも多少出てきた。アンダーサンプリング/オーバーサンプリング/重み付けなどでどれが適切かをきちんと選べるようにしておく。

学習/検証のerrorが乖離していく → 過学習/未学習に対する打ち手を選ばせる問題も多かった。

教師あり/教師なしがわかれば一発などの設問もあるので、ある程度詳しい人は特に対策しなくていいと思う。

「ぱっと見では全部の選択肢で実現可能なんだけど、一番効率がいいのはどれ？」みたいな設問が多かった。これがこの認定試験の難しい&参考になるポイントなんだと思う。基本的にはAWSのベストプラクティスに書いてあるが、選択肢からなんとなく感じたコツを書いておく。

選択肢の中に「EC2にOSSの〜を突っ込んで〜する」みたいなものが出てきた。これが正答になることはほぼないと思われる。

AWSも「自社のサービスを知って欲しい、使って欲しい」という目的でこの試験を作っているのだから、AWSのサービスを差し置いて「単純にOSSを使おう！」を選ばせるとは思えない。おそらくAWSのサービスが正答になるような問題を作ってくるはずである。

日本語は機械的に翻訳されたなーという感じの文章。意図が汲み取れない場合は英語に切り替えることも可能なので、応募するときは日本語でいいと思う。
試験のサンプルと比べて、出てくるサービスが新しい。
- PollyやTranslateなどのマネージドサービスも出てくる
セキュリティ重視
問題の想定シーンが割とリアル
- 新サービスを出すときに経営陣から「絶対にミスるなよ？」と言われています（どうデプロイするか？）
- 大量のデータがS3に格納されていて前処理をする必要があります。もっとも効率良い方法は？
ヒストグラムが出てスケールを変更できるボタン？があったが押しても何も機能しなかった。¹