0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AWS MLA用のメモ

Posted at

はじめに

AWSMLA合格に向けて自分の知らなかった用語の整理をしたので、忘れないように残しておこうと思います。

用語

機械学習系

  • ランダムカットフォレスト
    異常検知に特化した教師なし学習アルゴリズム。データセット内の異常なデータポイントを検出するために利用される

  • DeepAR
    時系列予測に特化した教師あり学習アルゴリズム。再帰型ニューラルネットワークを使用して1次元時系列を予測する

  • K-Means
    クラスタリングに特化した教師無し学習アルゴリズム。データポイントをK個のクラスタに分割し、各クラスタの中心を計算することで、データのグループ化を行う

  • Shapley値
    各特徴がモデルの予測にどの程度貢献しているかを定量化するために使われる

  • 部分依存プロット (PDP)
    特定の特徴がモデルの予測に与える影響を視覚化するための手法

  • F1スコア
    機械学習モデルの性能を評価するための指標の1つ。F1スコアは、精度(Precision)と再現率(Recall)の調和平均を取ったもの

  • AUCとROC
    機械学習モデルの性能を評価するための指標とグラフ。
    以下のような特徴がある

    • ROC曲線
      分類モデルの性能を視覚的に評価するためのグラフ。真陽性率と偽陽性率の関係をプロット
    • AUC
      ROC曲線の下の面積を表す指標。0.5から1の範囲で値を取り、1に近いほどモデルの性能が高いことをしめす

  • 特徴量の分割
    特徴量を異なるカテゴリや範囲に分割する方法。
    以下のような手法がある

    • ビニング
      連続値の特徴量を離散的な区間に分割する。
      例:年齢を「0-18歳」「19-35歳」「36-50歳」など

    • ワンホットエンコーディング
      カテゴリカルデータをバイナリベクトルに変換する。
      例:赤、青、緑を[1,0,0,]、[0,1,0]、[0,0,1]など

  • オーバーサンプリング
    少数クラスのサンプル数を増やすことで、クラス分布を均等化する手法

  • アンダーサンプリング
    多数クラスのサンプル数を減らすことで、クラス分布を均等化する手法

  • アンサンブル学習
    複数の機会学習モデルを組み合わせて予測精度を向上させる手法。
    以下のような手法がある

    • バギング
      複数のモデルを並列に学習させ、予測結果を平均化または多数決で決定

    • ブースティング
      モデルを直列に学習させ、誤分類されたデータに重みをつけ、
      次のモデルを学習する

      • XGBoost
        ブースティングの1種、勾配ブースティングを用いている。勾配ブースティングは、複数の弱い予測モデルを組み合わせて、より強いモデルを構築する

    • スタッキング
      複数の異なるモデルを組み合わせ、ベースモデルの出力を入力として使用し、メタモデルが最終的な予測を行う  

  • コンセプトドリフト
    機械学習モデルが予測する対象の意味やルールが時間の経過とともに変化する現象

  • Amazon Comprehend
    自然言語処理(NLP)を利用してテキストデータからインサイトを抽出するAWSサービス
    例:感情分析、エンティティ認識、言語識別

  • Amazon Rekognition
    画像および動画分析サービス

  • Amazon Polly
    テキスト読み上げサービス。リアルで自然な音声を生成する

  • Amazon Textract
    OCR技術を使って、ドキュメントのスキャン画像からテキストを抽出するためのツール

  • Amazon Kendra
    機械学習を活用して、高度な検索機能を提供するサービス

  • Amazon Macie
    AWS S3バケットのデータをスキャンして、個人情報や財務情報などの機密データを特定

  • Amazon Q Business
    ビジネス向けの生成AI機能をすぐに利用できるようにするサービス

  • Amazon Bedrock
    完全管理されたサービスで、生成AIアプリケーションを構築・スケールするための基盤モデルを提供する

  • Amazon Augmented AI
    機械学習の予測の精度を保証するために人間のレビューを組み込むことを容易にするフルマネージド型サービス

  • AWS Glue
    AWSが提供する完全マネージド型のETL

    • AWS Glue FindMatches
      機械学習を利用してデータセット内の重複または一致するレコードを特定する機能

    • AWS Glue Crawler
      データソースのスキーマを自動的に検出し、AWS Glue Data Catalogにメタデータを登録する

Amazon SageMaker

AWSの機械学習モデルの構築、訓練、デプロイをより簡単かつ効率的に行うプラットフォーム


  • Amazon SageMaker DataWrangler
    データ準備と特徴エンジニアリングを簡素化するためのツール。画面上で行える

  • Amazon SageMaker Debugger
    トレーニングジョブ中のメトリクスやモデル状態をモニタリングし、過剰適合や学習率の異常などの問題をリアルタイムで検出する

  • Amazon SageMaker Clarify
    機械学習モデルの公平性と説明可能性を評価するためのAWSサービス

  • Amazon SageMaker Feature Store
    機械学習モデルの特徴量を保存、共有、管理するためのAWSの管理サービス

  • Amazon SageMaker Model Registry
    機械学習モデルの管理を効率化するためのツール

  • Amazon SageMaker Pipelines
    機械学習のワークフローの自動化サービス

  • Amazon SageMaker Autopilot
    機械学習モデルの構築、トレーニング、デプロイを自動化するサービス

  • Amazon SageMaker Ground Truth
    データラベル付けサービス

  • Amazon SageMaker Experiments
    モデルのトレーニングやチューニングの実験を整理・追跡するためのツール

その他

  • AWS CloudFormation
    AWSリソースの作成と管理をテンプレートを使用して自動化するサービス

  • AWS Lake Formation
    構造化データ、半構造化データ、非構造化データを一元的に保存できるデータレイク

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?