0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

AWS Certified Data Analytics - Specialtyに向けた勉強メモ

Posted at

はじめに

本記事は、DAS-C01を受けるにあたっての勉強内容をメモするための記事です。

簡単なプロフィール

現在、都内の金融系IT会社に勤める28歳男性です。
業務内でAWSを扱っている関係で今年度中にAWS全資格取得を目指して勉強をしています。

今まで取得したAWS資格一覧

DBS-C01
SCS-C01
DOP-C01
DVA-C01
SOA-C02
SAP-C01
SAA-C02

勉強内容

メモ

データ分析基礎知識

  • データカタログとメタデータの違い

    • データカタログ:データ辞書、構造化データから非構造データまでデータ形式は多岐にわたる
    • メタデータ:RDS等の構造化が約束されたデータ群、データカタログを効率的に使用するために使用するデータ
      ご参考
  • 列指向データと行指向データについて

    • 列指向データ:大量の行データに対して少数の列を抽出するような集計が得意
    • 行指向データ:少数の行に対して大量の列を抽出するような集計が得意

ご参考

  • MapReduceとは

    • 大量データを処理するための分散コンピューティング用プログラミングモデル
  • Hadoop関連用語整理

AWSサービスについて

  • AWS Glueについて

    • データカタログ作成に特化したサービス
    • データカタログ作成元データについて多岐にわたるサービス(S3, Redshift, RDS etc.)を選択できることが強み
    • 処理済データを追跡する、ブックマーク機能あり
    • バッチ処理に向いており、リアルタイム分析には不向き
  • Amazon Redshiftについて

    • 分散スタイル
      • KEY
        • 一行ごとにと特定の列の値に従って分散される
      • All
        • 変更が少ないデータの場合に選択
      • EVEN
      • AUTO
    • 暗号化
      • 既存のデータベースを暗号化するように変更は不可
        • 暗号化したDBに既存DBのデータを移行する必要がある
        • KMSもしくはHSMによる暗号化が可能
    • バックグラウンドで自動的にバキューム処理が実行されている
      • ユーザー側の処理が連続して実行されているとバキューム処理が実行されず処理落ちの原因となる
  • Amazon Athenaについて

    • クロスリージョンアクセス非対応
    • S3 Glacierアクセス不可
    • 複雑クエリ実行に不向き
    • 実行タスクはワークグループで定義
      • ワークグループごとにデータ使用量の閾値を設定可能
  • Elastic Searchについて

    • 文字列検索が可能
  • kinesis Data Streams について

    • 過去にストリームしたデータの順番に沿って再生が可能
    • データボトルネック発生時の観点
      • シャードスが足りているか
      • パーティションキー(データをどのシャードに割り当てるかを決めるルール)の振り方は適当か
    • 最大データは1MBまで
      • それ以上の場合はManeged Streaming for Kafkaを検討
  • kinesis Data Analytics

    • 取り込んだデータに応じて追加のカラムを追加可能
      • 追加カラムのデータライブラリをS3に格納
  • Lake Formation

    • Data Lakeへのアクセス制御管理を行うためのサービス
    • クロスアカウントのリソースを集約可能
  • Amazon Quicksight

    • データ単位でのアクセス制御
      • RLS(Row-Level Security)の設置(Enterprise Editionのみ )
  • Amazon EMR

    • パフォーマンス向上案
      • マッパーサイズの変更
      • JOB入力サイズの変更
        • JOB完了時間を早くさせる
    • S3バケットとの連携手法
      • Hadoop環境との直接統合する際にS3DistCpを使用する
    • コストは高い(らしい)
  • DynamoDB

    • ホットキーの要因になりうるのはLSI(GSIは無関係)
0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?