AWS
Cloudtrail
DataLake
Athena

CloudTrailのログをAthenaで見る【DataLake入門】

CloudTrailがS3に溜め込んだログをAthenaを使って読み込む

CloudTrailとは

AWS CloudTrail は、AWS アカウントのガバナンス、コンプライアンス、運用監査、リスク監査を可能にするサービスです。 CloudTrail を使用すると、AWS インフラストラクチャ全体でアカウントアクティビティをログに記録し、継続的に監視し、保持できます。CloudTrail では、AWS マネジメントコンソール、AWS の SDK やコマンドラインツール、その他の AWS のサービスを使用して実行されるアクションなど、AWS アカウントアクティビティのイベント履歴を把握できます。このイベント履歴により、セキュリティ分析、リソース変更の追跡、トラブルシューティングをより簡単に実行できるようになります。

何もしなくても90日間はイベントをログとして保持している。

名称未設定.jpg

まずは証跡を作る

名称未設定2.jpg

 

Athenaで使うテーブルを作成する

名称未設定3.jpg
名称未設定4.jpg

Amazon Athena

  • Athenaとは

Amazon Athena はインタラクティブなクエリサービスで、Amazon S3 内のデータを標準的な SQL を使用して簡単に分析できます。Athena はサーバーレスなので、インフラストラクチャの管理は不要です。実行したクエリに対してのみ料金が発生します。
Athena は簡単に使えます。Amazon S3 にあるデータを指定して、スキーマを定義し、標準的な SQL を使ってデータのクエリを開始するだけです。多くの場合、数秒で結果が出てきます。Athena を使用すると、分析用データを準備するための複雑な ETL ジョブは不要になります。これによって、誰でも SQL のスキルを使って、大型データセットをすばやく、簡単に分析できるようになります。
Athena は初期状態で AWS Glue データカタログと統合されており、さまざまなサービスにわたるメタデータの統合リポジトリを作成できます。データソースのクロールとスキーマの解析、新規および修正したテーブル定義とパーティション定義のカタログへの入力、スキーマのバージョニング保持が可能です。また、Glue の完全マネージド型 ETL 機能を使用すると、データ変換や列指向の形式への変更を実行でき、コストを最適化してパフォーマンスを向上できます。

さっき作ったテーブルに対してクエリを投げてみる

名称未設定5.jpg

結果を確認する

名称未設定6.jpg

結構簡単にデータが取れるのでDataLake入門には良さそう