はじめに
株式会社ジールの @oreo_tです。
2024年12月のアップデートで、AWSのS3にメタデータテーブルの機能が追加されたので紹介しようと思います。
今回の更新情報
S3に、メタデータテーブルの機能が追加されました。これは、バケット内のオブジェクトに変更があった際に自動でそれを検知し、SQLでクエリできる形式のメタデータを専用のテーブルで保持するというものです。
公式の記事は以下のリンクを参照してください。
https://aws.amazon.com/jp/about-aws/whats-new/2024/12/amazon-s3-metadata-preview/
機能自体の紹介や導入方法はすでにほかの方が記事にしているので、今回はオブジェクトの更新に伴ってメタデータがどのように記録されるか、またそれらをどう活用するかという点にフォーカスした紹介をしようと思います。
メタデータテーブルの参照方法
まずはメタデータテーブルを見るためにAthenaへ移動します。
今回、メタデータテーブルを利用するために必要なテーブルバケットの作成~メタデータテーブルの作成まではすでに他の記事等で紹介されているので割愛させていただきます。詳しくは各自検索をお願いします。
メタデータテーブルの作成が済んだら、対象のバケットの「メタデータ - プレビュー」のタブを開き、「Athenaクエリエディタに移動」をクリックします。
先ほどの画面のテーブルバケット名の付いたカタログ、名前空間と同じデータベース、メタデータテーブル名と同じテーブルがあることを確認します。
この先の検証では、このテーブルでメタデータを確認します。
機能検証
S3のオブジェクトに対する様々な操作をして、メタデータテーブルにどのように記録されるかを検証してみます。
①ファイルアップロード
コンソールからファイルをアップロードします。今回はオープンソースの統計データのcsvファイルを利用しています。
メタデータテーブルにはこのように記録されました。(※主要項目のみ抜粋)
各項目の簡単な説明です。
key:バケット配下のファイルパス
record_type:どの種別のメタデータか
record_timestamp:メタデータの発生時刻(UTC)
size:ファイルサイズ(byte)
last_modified_date:オブジェクトの更新日時(UTC)
②ファイルコピー
メタデータテーブルにはこのように記録されました。
コピー先のキーが記録され、他はファイルアップロード時の記録内容と変わりませんでした。
③ファイル名の変更
すると、メタデータテーブルには2行記録されました。
既存のファイルが削除されて新しいファイルができるのと同じ扱いのようです。
④ストレージクラスの変更
ストレージクラスをスタンダードからIntelligent-Tieringに変更します。
すると、メタデータテーブルにはストレージクラスが変更された1行だけが記録されました。
注意点として、レコードタイプはCREATEで登録されるので、既存のオブジェクトの変更なのか新規のオブジェクト追加なのかはメタデータからは判断できなさそうです。
⑤タグの編集
オブジェクトに付くタグを編集します。
すると、メタデータテーブルにはレコードタイプ"UPDATE_METADATA"のものが登録され、"object_tags"に付与したタグが表示されました。
⑥ファイルの改変
ファイルをアップロードして既存のファイルを上書きする際、ファイルの中身を事前に書き換えてアップロードします。
すると、メタデータテーブルでは次の画像の下のレコードが生成されました。
"e_tag"という項目の値が変わっているのですが、これはファイルの中身を元にS3側で発行する文字列で、ファイルの中身が変わらなければ上書きしても値が変わらないのですが、中身が改変されるとここの値も変化しました。
メタデータの活用方法
これらの機能を使って、S3運用にどのように役立つか考えてみます。
①メタデータ取得の簡略化
メタデータテーブルの機能ができる前から、メタデータを取得してテーブルに格納するような運用は他のAWSサービスを組み合わせて実装しようと思えばできました。しかし、今回はメタデータの取得処理を組まなくてもテーブルバケットの作成と通常のバケットとの紐づけさえ行えばすぐにできてしまうので、より簡単に運用管理ができるようになります。
②ファイルの改ざんチェック
ファイルの中身が変わったときにe_tagの値が変わることを利用して、ファイルが上書きされたときにe_tagが変わったものを抽出するようなクエリを定期実行することで、ファイルの改ざんを検知するような運用ができるようになります。
③アクセス元の監視
上の検証では載せていませんでしたが、メタデータテーブルにはメタデータ発生契機となったAWSアカウントのIDや、IPアドレスも記録されます。そのため、想定外のアカウントやIPアドレスからのアクセスがされていないか管理することができます。
まとめ
この機能を使えば、今までより労力をかけずにデータ管理、セキュリティ管理ができるようになると思います。ぜひご活用ください。
株式会社ジールでは、「ITリテラシーがない」「初期費用がかけられない」「親切・丁寧な支援がほしい」「ノーコード・ローコードがよい」「運用・保守の手間をかけられない」などのお客様の声を受けて、オールインワン型データ活用プラットフォーム「ZEUSCloud」を月額利用料にてご提供しております。
ご興味がある方は是非下記のリンクをご覧ください: