More than 1 year has passed since last update.

AWS 認定機械学習 – 専門知識（MLS）：合格への近道

Last updated at 2023-06-21Posted at 2022-05-09

AWS 認定機械学習 – 専門知識（MLS）に向けて、下記の通り対策すれば合格できます！

AWS MLSは、AWS周りで関連する機械学習のサービスや、機械学習そのものの知識が問われます。
一般的な機械学習の資格と違い、問われるのは知識であるため、用語を理解すれば合格できます。
試験名が名前負けしていると言いますか、そこまで難しい試験ではないので、
データサイエンス未経験の方は、これを機に機械学習とはどういうものかといった知識を蓄えられるチャンスです٩( 'ω' )و

まず初めに「1」に取り掛かってから、「2」「3」を同時並行で進めてください。
いきなり、「2」「3」から取り掛かると、わけがわからず挫折する可能性があります。

※機械学習経験済みのデータサイエンティストの方は「１」を飛ばして、「2」「3」で合格できます。

1. 機械学習の参考書を一つ読み込む
 2. 問題集を解く
 3. AWSサービスや機械学習の意味を理解する

1. 機械学習の参考書を一つ読み込む

書籍：「Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎」
Pythonと書いてありますが、読書として活用できます！
１〜５章を読んでください。
Pythonを理解する必要はなく、ざっくりこういうことをしている程度の理解で大丈夫です。
逆に簡単すぎる機械学習の書籍を読むと、理解に苦労する場合があるので、こちらの書籍がおすすめです。

書籍：深層学習教科書ディープラーニング G検定(ジェネラリスト)公式テキスト第2版
どうしてもPythonに抵抗がある方は、こちらの書籍でも十分合格できます！
1〜7章を読んでください。

2. 問題集を解く

こちらの問題集のみで十分に合格できます。
問題数も100~200問程度なため、そこまで時間を要さないのがとてもコスパが良いです。
しかし、問題集に出てくる用語の理解は必要です。

☆ CloudTech

3. AWSサービスや機械学習の意味を理解する

下記は書籍や問題集に出てきた用語を簡単にまとめたものですが、そのまま参考にしないことをお勧めします。
用語が出て来るたびに、メモ帳などで用語を自分でまとめながら進めていくと、頭に入りやすいです！
実際に学習していくときは、「２」と並行して進めながら、用語を理解していけば、合格できます！

AWS Polly

テキスト文を読み込み音声が行われる。

Amazon Transcribe

音声をテキスト文に変換する。

Amazon Lex

会話型チャットボット。

Amazon Comprehend

指定したテキストを分析し、キーフレーズの検出や感情の判定などを行う。

Amazon Translate

自動翻訳サービス。

推論パイプライン

前処理、モデル、後処理における、３つの機械学習の順序を一貫して、行う。
事前にパイプラインを作成することで、自動化の実装も可能となる。

Word2Vec

文章中の単語を数値ベクトルに変換してその意味を把握する自然言語処理の手法。

BlazingText

BlazingTextは単語ベクトルを生成する手法であるWord2Vecの実装。
単語ベクトル生成の用途としては、単語の分類や文章の意味解析の前段で使用すること。

Object2Vec アルゴリズム

高次元のベクトルを、できるだけ情報量を減らさずに次元削減し、類似した物体を近距離に配置する。

DeepAR 予測

再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測するための、教師あり学習アルゴリズム。

再帰型ニューラルネットワーク(RNN)

・数値の時系列データなどのシーケンスデータのパターンを認識するように設計されたニューラルネットワークのモデル
・自然言語で成果を上げている

ARMA・ARIMAモデル

時系列分析を行う際に使われるモデル。

TF-IDF

文書を分類する際の単語の重要度の推定を行う。

N-gram

テキスト文書の分割を行う。

Bag-of-Words

テキスト文書に出現した単語の回数。

直角のスパースなバイグラム (OSB) 変換

OSB は、テキスト上で n サイズのウィンドウをずらし、ウィンドウの最初の単語を含む、各単語ペアを出力することにより生成。

クラス分類

既存のデータにラベルの設定をすることで、そのラベルに対して予測する教師あり学習。

回帰

数値などの連続値を予測する教師あり学習。

因数分解機

分類と回帰の両方に使用できる汎用的な教師あり学習。

K-最近傍法

新しい点に最も近い点を訓練データから探し、新しい点に最も近かった点のラベルを、新しいデータポイントに与える。

多変量回帰

ある対象から得られたお互いに関連のある多種類のデータ（変数、変量）を総合的に要約したり、将来の数値を予測したりといった解析作業の「総称」

ナイーズベイズモデル

線形モデルやSVCより高速に処理が可能であるが、性能が劣る可能性が高い。

XGBoost

決定木の手法を用いる。

アンサンブル法

複数の機械学習モデルを組み合わせて、性能を向上させる手法。

ランダムフォレスト

アンサンブル学習のバギングをベースに、少しずつ異なる決定木をたくさん集めたもの

クラスタリング(K-means)法

グループごとの規則を分類する手法。

エルボー法

クラスタ数を変えながら上記のSSEを計算し、結果を図示することで最適（と思われる）クラスタ数を推定する手法。

ランダムフォレストカット

異常検知を行う、教師なし学習。

エポック数

訓練データの繰り返し回数。過学習が起きないエポック数、汎化性能が優れているエポック数を発見することが重要である。

seq2seq

機械翻訳や文章要約などの分野で成果あり。
EncoderとDecoderを備えたEncoder-Decoderモデルを使って、系列データを別の系列データに変換するモデル

汎化性能

学習データではなく、テストデータの性能。

過学習

学習データのモデルが良すぎるあまり、汎化性能が落ちてしまうこと。

L1正則化(ラッソ回帰)・L2正則化(リッジ回帰)

過学習を防ぐための手法。
Lasso(alpha=${})・Ridge(alpha=${})

モンテカルロシミュレーション

数値計算手法の一つで、乱数を用いた試行を繰り返すことにより近似解を求める手法。

Amazon Mechanical Turk

裏側の人間がクラウドソーシングを介して、色々な作業を行うことで、データを集めることができるツール。

勾配ブースティング回帰

複数の決定木を組み合わせて、性能を向上させる手法。

強調フィルタリング

ある対象者が普段利用する類似製品を出力する手法。

正規化

全てのデータを0~1の間になるよう変換する。

標準化

データに対して平均値が０、標準偏差が１になるよう変換する。

アプローチ

オーバーサンプリング(障害発生や異常値などの少ないデータを増やす)を行う。

RMSE(平均二乗誤差)

評価指標

正解率

全体のうちどれだけ正解したか

感度・再現率

全ての陽性データのうち、どれだけ陽性と分類できたか

適合率

陽性データと判断されたうち、どれだけ陽性と分類できたか

特異性

陰性データと判断されたうち、どれだけ陰性と分類できたか

AUC曲線/ROC曲線

偽陽性を横軸に、真陽性を縦軸にプロットしたもの。

混同行列

サニタイズ

利用者が入力した文字データを受け取る際に、プログラムにとって特別な意味を持つ可能性のある文字や文字列を検知して、
一定の規則に従って別の表記に置き換えること

転移学習

転移学習に学習済みモデルを転用することで、大量のデータと学習にかかる時間を削減することができる。

学習率/バッチサイズ

学習率とは一回の学習で重みパラメータをどれくらい変化させるか、という指標になります。これが大きいと一気にパラメータが更新され、逆に小さいとチビチビと進んでいくイメージです。
ミニバッチ学習は、複数のデータの塊（ミニバッチ）に対する損失関数の微分を計算し重みを更新します。ミニバッチのサイズが大きいとデータの特徴が平均化されてしまい、データの個性が失われるリスクがあります。

データドリフト

環境や時代の変化などにより、学習データのモデルとテストデータのモデルに乖離が発生してします事象。

ドロップアウト

ニューロンを消去して、性能を向上させる手法。

t-SNE

高次元データを2次元又は3次元に変換して可視化するための次元削減アルゴリズム。

勾配消失問題

勾配が消失することで学習ができなくなってしまう問題

ニューラルトピックモデルアルゴリズム

ドキュメントのコーパスをそれらの統計的分布に基づいた単語のグループかを含むトピックに編成するために使用される教師なし学習アルゴリズム。

オブジェクト検出アルゴリズム

単一のニューラルネットワークを使用して、イメージ内のオブジェクトを検出及び分類するアルゴリズム。

線形学習アルゴリズム

分類や回帰の問題を解決するために使用される、教師あり学習アルゴリズム。

潜在的ディリクレ配分 (LDA) アルゴリズム

一連の観測値を異なるカテゴリの混合として記述しようとする教師なし学習アルゴリズム。

最後に

用語が出てくる度に、Google検索やYoutubeなどをみて、理解していく方法が一番の近道です！
CloudTechの問題集に出題される用語は、理解にそこまで苦労するものではないため、こちらだけは手を抜かずに、お願いします🙇‍♂️

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up