はじめに

こんにちは moto です。
先日 (2024/01/06) AWS MLS に合格しました。
本記事は合格体験記として MLS の学習方法やその内容をお伝えします。
これから MLS を受験される方のご参考になれば幸いです。

私のバックグラウンド

学習開始時点では、以下のようなバックグラウンドでした。

AWSの業務経験約２年
AWS認定資格取得状況
CLF, SAA, SOA, DVA, SAP, DOP, SCS, DBS, DAS
機械学習の知識なし

受験結果と感想

他の AWS 認定試験と比較して、機械学習の一般的な知識が前提となるやや特殊な試験でしたが、機械学習の知識さえ身に付けてしまえば、問題の難易度自体はアソシエイトレベルくらいかなと感じました。あまり考える問題はなく、知識を問う問題でした。

学習方法

学習方法は次の通りです。

1. 機械学習の勉強

機械学習の知識がない場合、まずは機械学習の体系的な知識を得ることをオススメします。焦って問題演習に走らず、まずは基礎固めしましょう。

私が利用した参考書は次の２冊です。

図解即戦力　機械学習&ディープラーニングのしくみと技術がこれ1冊でしっかりわかる教科書
こちらは入門書としてサクッと読んでしまいましょう。
深層学習教科書ディープラーニング G検定（ジェネラリスト）公式テキスト第2版
こちらで体系的に知識を付けていきます。全て読んでいるとキリがないので、必要な部分だけ学習します。必要な部分というのは、第４章「機械学習の具体的手法」、第５章「ディープラーニングの概要」、第６章「ディープラーニングの手法」の３章だけです。MLS の学習という意味では、あとは読まなくて大丈夫です。また、章末の問題演習もスキップしましょう。

2. Cloud License

Cloud License で問題演習をしていきます。解説を読み込み、なぜその解答になるのかを理解します。必要に応じて参考書を参照したり、WEB検索したりしましょう。私はよく ChatGPT に「XXXとは？200文字以内で簡潔に説明して。」みたいな感じで質問しています。

学習メモ

試験で頻出の押さえておくべきキーワードだけ残しておきます。
わからないキーワードは、書籍やWEB検索などで理解しておきましょう。
また、キーワードを押さえる際は AWS 試験ガイドも参考になります。

1. 機械学習・ディープラーニングの基礎

機械学習の種類

教師あり学習
- 分類
- 回帰
教師なし学習
- クラスタリング
強化学習

教師あり学習の手法

ロジスティック回帰
ロジスティック関数（シグモイド関数）、２値分類（バイナリ分類）、多クラス分類にはソフトマックス関数
サポートベクターマシン (SVM)
線形回帰
決定木とアンサンブル学習
ブートストラップサンプリング、バギング、ブースティング、ランダムフォレスト、ランダムカットフォレスト (RCF)、勾配ブースティング、XGBoost
自己回帰モデル
時系列データ、ARIMA、DeepAR
k-近傍法 (k-NN)

教師なし学習の手法

k-means法
主成分分析 (PCA)
次元削減
協調フィルタリング
レコメンデーション
トピックモデル
ニューラルトピックモデル (NTM)、潜在的ディリクレ配分法 (LDA)

モデルの評価

k-分割交差検証
層化k-分割交差検証
混同行列
真陽性、真陰性、偽陽性、偽陰性、正解率、適合率、リコール率（再現率）、F値
ROC曲線
AUC (Area Under the Curve)

過学習

正則化、L1正則化、L2正則化、ドロップアウト、早期終了

欠損値補完

多重代入法（Multiple Imputation）、平均法、LOCF（Last Observation Carried Forward）、リストワイズ除去法

クラス不均衡の解消

アンダーサンプリング、オーバーサンプリング、SMOTE（Synthetic Minority Over-sampling Technique）

ディープラーニング

ディープラーニング
パーセプトロン、入力層、出力層、隠れ層、活性化関数 (tanh関数やReLU関数など)、誤差逆伝播法、勾配消失問題、勾配降下法
オートエンコーダ（自己符号化器）

ディープラーニングの手法

畳み込みニューラルネットワーク (CNN)
物体検出 (オブジェクト検出)
RNN
LSTM (Long Short Term Memory)、Seq2Seq、アテンション機構
転移学習
敵対的生成ネットワーク (GAN)
セマンティックセグメンテーション
ResNet-50

自然言語処理（テキストデータ）

n-gram
Bag-of-Words (BoW)
TF-IDF
word2vec

2. MLS頻出のAWSサービス

SageMaker
ノートブック、推論パイプライン、ハイパーパラメータ、RecordIO protobuf 形式、ファイルモードとパイプモード、FastFile モード、スクリプトモード、Ground Truth、Debugger、Model Monitor、Processing、Clarify、Data Wrangler、Elastic Interface、ウォームスタートハイパーパラメータ調整ジョブ、Training Compiler、マネージドスポットトレーニング、ネットワーク分離
Polly
text to speech
Transcribe
speech to text、カスタム言語モデル、カスタム語彙
Rekognition
画像分析、動画分析、ラベルとテキスト抽出、顔分析
Comprehend
自然言語処理（NLP）、キーフレーズ検出、感情判定
Textract
光学式文字認識（ORC）機能による画像からのテキスト抽出
Forecast
時系列予測
Personalize
パーソナライズされたレコメンデーション
Lex
対話型インターフェイス、チャットボットや自動応答音声、カスタムスロットタイプ
Panorama
ビデオストリーム解析
Athena
S3 データをクエリ、Parquet または ORC の列指向データフォーマット
Kinesis
Kinesis Data Streams、Kinesis Data Firehose、Kinesis Data Analytics、Kinesis Video Streams、PutRecords API、Producer Library
Glue
ETL、ジョブ、データカタログ、クローラ、トリガー、Spark
Data Pipeline
ワークフロー
Lake Formation
S3 上のデータレイクと Glue データカタログに対するきめ細かなアクセスコントロールが可能
QuickSight
ML Insights
IoT Greengrass
機械学習モデルをエッジデバイスに直接デプロイ
Lookout for Vision
製品の欠陥を発見

おわりに

最後までご覧いただきありがとうございました。
少しでもお役に立てていれば幸いです。

AWS Certified Machine Learning - Specialty 合格体験記（2024/01/06）