はじめに
AWSMLA合格に向けて自分の知らなかった用語の整理をしたので、忘れないように残しておこうと思います。
用語
機械学習系
-
ランダムカットフォレスト
異常検知に特化した教師なし学習アルゴリズム。データセット内の異常なデータポイントを検出するために利用される
-
DeepAR
時系列予測に特化した教師あり学習アルゴリズム。再帰型ニューラルネットワークを使用して1次元時系列を予測する
-
K-Means
クラスタリングに特化した教師無し学習アルゴリズム。データポイントをK個のクラスタに分割し、各クラスタの中心を計算することで、データのグループ化を行う
-
Shapley値
各特徴がモデルの予測にどの程度貢献しているかを定量化するために使われる
-
部分依存プロット (PDP)
特定の特徴がモデルの予測に与える影響を視覚化するための手法
-
F1スコア
機械学習モデルの性能を評価するための指標の1つ。F1スコアは、精度(Precision)と再現率(Recall)の調和平均を取ったもの
-
AUCとROC
機械学習モデルの性能を評価するための指標とグラフ。
以下のような特徴がある- ROC曲線
分類モデルの性能を視覚的に評価するためのグラフ。真陽性率と偽陽性率の関係をプロット - AUC
ROC曲線の下の面積を表す指標。0.5から1の範囲で値を取り、1に近いほどモデルの性能が高いことをしめす
- ROC曲線
-
特徴量の分割
特徴量を異なるカテゴリや範囲に分割する方法。
以下のような手法がある- ビニング
連続値の特徴量を離散的な区間に分割する。
例:年齢を「0-18歳」「19-35歳」「36-50歳」など
- ワンホットエンコーディング
カテゴリカルデータをバイナリベクトルに変換する。
例:赤、青、緑を[1,0,0,]、[0,1,0]、[0,0,1]など
- ビニング
-
オーバーサンプリング
少数クラスのサンプル数を増やすことで、クラス分布を均等化する手法
-
アンダーサンプリング
多数クラスのサンプル数を減らすことで、クラス分布を均等化する手法
-
アンサンブル学習
複数の機会学習モデルを組み合わせて予測精度を向上させる手法。
以下のような手法がある- バギング
複数のモデルを並列に学習させ、予測結果を平均化または多数決で決定
-
ブースティング
モデルを直列に学習させ、誤分類されたデータに重みをつけ、
次のモデルを学習する- XGBoost
ブースティングの1種、勾配ブースティングを用いている。勾配ブースティングは、複数の弱い予測モデルを組み合わせて、より強いモデルを構築する
- XGBoost
- スタッキング
複数の異なるモデルを組み合わせ、ベースモデルの出力を入力として使用し、メタモデルが最終的な予測を行う
- バギング
-
コンセプトドリフト
機械学習モデルが予測する対象の意味やルールが時間の経過とともに変化する現象
-
Amazon Comprehend
自然言語処理(NLP)を利用してテキストデータからインサイトを抽出するAWSサービス
例:感情分析、エンティティ認識、言語識別
-
Amazon Rekognition
画像および動画分析サービス
-
Amazon Polly
テキスト読み上げサービス。リアルで自然な音声を生成する
-
Amazon Textract
OCR技術を使って、ドキュメントのスキャン画像からテキストを抽出するためのツール
-
Amazon Kendra
機械学習を活用して、高度な検索機能を提供するサービス
-
Amazon Macie
AWS S3バケットのデータをスキャンして、個人情報や財務情報などの機密データを特定
-
Amazon Q Business
ビジネス向けの生成AI機能をすぐに利用できるようにするサービス
-
Amazon Bedrock
完全管理されたサービスで、生成AIアプリケーションを構築・スケールするための基盤モデルを提供する
-
Amazon Augmented AI
機械学習の予測の精度を保証するために人間のレビューを組み込むことを容易にするフルマネージド型サービス
-
AWS Glue
AWSが提供する完全マネージド型のETL-
AWS Glue FindMatches
機械学習を利用してデータセット内の重複または一致するレコードを特定する機能 -
AWS Glue Crawler
データソースのスキーマを自動的に検出し、AWS Glue Data Catalogにメタデータを登録する
-
Amazon SageMaker
AWSの機械学習モデルの構築、訓練、デプロイをより簡単かつ効率的に行うプラットフォーム
-
Amazon SageMaker DataWrangler
データ準備と特徴エンジニアリングを簡素化するためのツール。画面上で行える
-
Amazon SageMaker Debugger
トレーニングジョブ中のメトリクスやモデル状態をモニタリングし、過剰適合や学習率の異常などの問題をリアルタイムで検出する
-
Amazon SageMaker Clarify
機械学習モデルの公平性と説明可能性を評価するためのAWSサービス
-
Amazon SageMaker Feature Store
機械学習モデルの特徴量を保存、共有、管理するためのAWSの管理サービス
-
Amazon SageMaker Model Registry
機械学習モデルの管理を効率化するためのツール
-
Amazon SageMaker Pipelines
機械学習のワークフローの自動化サービス
-
Amazon SageMaker Autopilot
機械学習モデルの構築、トレーニング、デプロイを自動化するサービス
-
Amazon SageMaker Ground Truth
データラベル付けサービス
-
Amazon SageMaker Experiments
モデルのトレーニングやチューニングの実験を整理・追跡するためのツール
その他
-
AWS CloudFormation
AWSリソースの作成と管理をテンプレートを使用して自動化するサービス
-
AWS Lake Formation
構造化データ、半構造化データ、非構造化データを一元的に保存できるデータレイク