はじめに
こんにちは moto です。
先日 (2024/01/06) AWS MLS に合格しました。
本記事は合格体験記として MLS の学習方法やその内容をお伝えします。
これから MLS を受験される方のご参考になれば幸いです。
私のバックグラウンド
学習開始時点では、以下のようなバックグラウンドでした。
- AWSの業務経験約2年
- AWS認定資格取得状況
CLF, SAA, SOA, DVA, SAP, DOP, SCS, DBS, DAS - 機械学習の知識なし
受験結果と感想
他の AWS 認定試験と比較して、機械学習の一般的な知識が前提となるやや特殊な試験でしたが、機械学習の知識さえ身に付けてしまえば、問題の難易度自体はアソシエイトレベルくらいかなと感じました。あまり考える問題はなく、知識を問う問題でした。
学習方法
学習方法は次の通りです。
1. 機械学習の勉強
機械学習の知識がない場合、まずは機械学習の体系的な知識を得ることをオススメします。焦って問題演習に走らず、まずは基礎固めしましょう。
私が利用した参考書は次の2冊です。
-
図解即戦力 機械学習&ディープラーニングのしくみと技術がこれ1冊でしっかりわかる教科書
こちらは入門書としてサクッと読んでしまいましょう。 -
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版
こちらで体系的に知識を付けていきます。全て読んでいるとキリがないので、必要な部分だけ学習します。必要な部分というのは、第4章「機械学習の具体的手法」、第5章「ディープラーニングの概要」、第6章「ディープラーニングの手法」の3章だけです。MLS の学習という意味では、あとは読まなくて大丈夫です。また、章末の問題演習もスキップしましょう。
2. Cloud License
Cloud License で問題演習をしていきます。解説を読み込み、なぜその解答になるのかを理解します。必要に応じて参考書を参照したり、WEB検索したりしましょう。私はよく ChatGPT に「XXXとは?200文字以内で簡潔に説明して。」みたいな感じで質問しています。
学習メモ
試験で頻出の押さえておくべきキーワードだけ残しておきます。
わからないキーワードは、書籍やWEB検索などで理解しておきましょう。
また、キーワードを押さえる際は AWS 試験ガイド も参考になります。
1. 機械学習・ディープラーニングの基礎
機械学習の種類
- 教師あり学習
- 分類
- 回帰
- 教師なし学習
- クラスタリング
- 強化学習
教師あり学習の手法
-
ロジスティック回帰
ロジスティック関数(シグモイド関数)、2値分類(バイナリ分類)、多クラス分類にはソフトマックス関数 - サポートベクターマシン (SVM)
- 線形回帰
-
決定木とアンサンブル学習
ブートストラップサンプリング、バギング、ブースティング、ランダムフォレスト、ランダムカットフォレスト (RCF)、勾配ブースティング、XGBoost -
自己回帰モデル
時系列データ、ARIMA、DeepAR - k-近傍法 (k-NN)
教師なし学習の手法
- k-means法
-
主成分分析 (PCA)
次元削減 -
協調フィルタリング
レコメンデーション -
トピックモデル
ニューラルトピックモデル (NTM)、潜在的ディリクレ配分法 (LDA)
モデルの評価
- k-分割交差検証
- 層化k-分割交差検証
-
混同行列
真陽性、真陰性、偽陽性、偽陰性、正解率、適合率、リコール率(再現率)、F値 -
ROC曲線
AUC (Area Under the Curve)
過学習
正則化、L1正則化、L2正則化、ドロップアウト、早期終了
欠損値補完
多重代入法(Multiple Imputation)、平均法、LOCF(Last Observation Carried Forward)、リストワイズ除去法
クラス不均衡の解消
アンダーサンプリング、オーバーサンプリング、SMOTE(Synthetic Minority Over-sampling Technique)
ディープラーニング
-
ディープラーニング
パーセプトロン、入力層、出力層、隠れ層、活性化関数 (tanh関数やReLU関数など)、誤差逆伝播法、勾配消失問題、勾配降下法 - オートエンコーダ(自己符号化器)
ディープラーニングの手法
- 畳み込みニューラルネットワーク (CNN)
- 物体検出 (オブジェクト検出)
-
RNN
LSTM (Long Short Term Memory)、Seq2Seq、アテンション機構 - 転移学習
- 敵対的生成ネットワーク (GAN)
- セマンティックセグメンテーション
- ResNet-50
自然言語処理(テキストデータ)
- n-gram
- Bag-of-Words (BoW)
- TF-IDF
- word2vec
2. MLS頻出のAWSサービス
-
SageMaker
ノートブック、推論パイプライン、ハイパーパラメータ、RecordIO protobuf 形式、ファイルモードとパイプモード、FastFile モード、スクリプトモード、Ground Truth、Debugger、Model Monitor、Processing、Clarify、Data Wrangler、Elastic Interface、ウォームスタートハイパーパラメータ調整ジョブ、Training Compiler、マネージドスポットトレーニング、ネットワーク分離 -
Polly
text to speech -
Transcribe
speech to text、カスタム言語モデル、カスタム語彙 -
Rekognition
画像分析、動画分析、ラベルとテキスト抽出、顔分析 -
Comprehend
自然言語処理(NLP)、キーフレーズ検出、感情判定 -
Textract
光学式文字認識(ORC)機能による画像からのテキスト抽出 -
Forecast
時系列予測 -
Personalize
パーソナライズされたレコメンデーション -
Lex
対話型インターフェイス、チャットボットや自動応答音声、カスタムスロットタイプ -
Panorama
ビデオストリーム解析 -
Athena
S3 データをクエリ、Parquet または ORC の列指向データフォーマット -
Kinesis
Kinesis Data Streams、Kinesis Data Firehose、Kinesis Data Analytics、Kinesis Video Streams、PutRecords API、Producer Library -
Glue
ETL、ジョブ、データカタログ、クローラ、トリガー、Spark -
Data Pipeline
ワークフロー -
Lake Formation
S3 上のデータレイクと Glue データカタログに対するきめ細かなアクセスコントロールが可能 -
QuickSight
ML Insights -
IoT Greengrass
機械学習モデルをエッジデバイスに直接デプロイ -
Lookout for Vision
製品の欠陥を発見
おわりに
最後までご覧いただきありがとうございました。
少しでもお役に立てていれば幸いです。