はじめに
AWS re:Invent2024にて開催期間中に発表されたアップデートに関するWorkshopに参加してきました。
セッション名は [ANT313] [NEW LAUNCH] Build a trusted data foundation with data lineage in Amazon DataZone
です。
参加前
re:Inventに関して先達から教わったことの一つに「キーノート中にセッションが追加される」という情報がありました。今回せっかく現地で参加するからには、発表されたばかりのアップデートに関するセッションに参加してみたいと思っていました。
日本時間の11/29夕方頃(12/2がre:Invent1日目)、なんとなくセッション情報を確認していると・・・
フィルターにNew Launch
を見つけました!
この時点では内容は書かれておらず、スピーカーの名前や「NET」「AIM」等の識別子からなんとなく推測する他ありませんでした。とりあえずスケジュールの空きを見てWorkshopをいくつか予約しましたが、その中の一つが今回参加したWorkshopです。
Workshop概要
概要は下記のとおりです。
(翻訳)
このハンズオンワークショップでは、Amazon DataZoneを使用して堅牢なデータリネージを実装し、組織のデータガバナンスを強化する方法を学びます。システム間のデータ移動の追跡、データ起源のトレース、複数のデータストアにまたがるデータセットの統合など、実践的な経験を積むことができます。
セールスチームが分析に必要な販売データを提供し、分析チームがそのデータの品質をチェックして利用するところまでの流れを体験できます。ところどころで「Lineage」機能でビジュアライズされた「データの系統」を確認しながら進めます。
AWSの良いところ
データ分析・管理系の業務に従事したことのない私の状況は下記のとおりでした。
- DataZone触ったことない、概要も知らない
- データリネージって何?
でも、AWSの良いところは
とにかく写経でもいいので使ってみて動くところを見れば何かが分かるようになる
ところだと個人的に思っていたので、とにかく手を動かすことに集中してきました!
結果
半分ほど進んだところでタイムアップでした・・・
下図はWorkshopページからの抜粋ですが、このようにデータの流れが視覚的に表現され、データのマネジメント・ガバナンスに有効そうであることが感じられました。
最後にWorkshopの公開URLを教えてもらうことができました。
時間を見つけて再チャレンジできればと思います。
調べてみた
DataZoneとは
DataZoneというサービス自体は、2022年のre:Inventで発表され、2023年10月にGAになりました。
データの提供者と利用者が散在するデータを単一のポータルで安全に閲覧・利用できるようにするサービスであるようです。
Amazon DataZone とは何ですか?
Amazon DataZone は、AWS、オンプレミス、およびサードパーティのソース全体に保存されているデータを迅速かつ簡単にカタログ化、発見、共有、管理できるようにするデータ管理サービスです。Amazon DataZone を使用すると、エンジニア、データサイエンティスト、プロダクトマネージャ、アナリスト、ビジネスユーザーは組織全体のデータにすばやくアクセスできるため、データに基づくインサイトを発見、使用、コラボレーションして導き出すことができます。組織のデータアセットを監督する管理者やデータ所有者は、データへのアクセスを簡単に管理および管理できます。Amazon DataZone には、データコンシューマーがデータへのアクセスをリクエストしたり、データ所有者がアクセスを承認したりするためのビルトインワークフローが用意されています。
すべての企業は、さまざまなデータストアに存在するデータを所有および利用する複数のチームで構成されています。データ担当者はこのデータをまとめなければなりませんが、このデータにアクセスしたり、データを把握したりするための簡単な方法を持っていません。DataZone は、データプロデューサーからコンシューマーまで、組織内の誰もが統制された方法でデータにアクセスしたり、データを共有したりできる統合環境を提供します
今回のアップデート内容
データリネージ機能自体は2024/6/27にプレビュー公開されており、それが今回のre:InventでGAとなりました。
データリネージビジュアライゼーション機能の開始(プレビュー)(2024/6/27)
Amazon DataZone ではデータリネージのプレビューが導入され、お客様が OpenLineage 対応システムまたは API からのリネージイベントを視覚化し、ソースから使用までのデータ移動を追跡できるようになりました。これによって、データエンジニアなどのデータプロデューサーは、自分が作成したデータを誰が利用しているかを追跡するのに役立ちます。一方、データコンシューマーはデータの出所を確認することができるので、分析に利用しているのが適切なデータであるかどうかを把握するのに役立ちます。
(翻訳)
AWS は、Amazon DataZone のデータリネージと次世代の Amazon SageMaker の一般提供を発表しました。これは、AWS Glue と Amazon Redshift から自動的にリネージをキャプチャして、ソースから消費までのリネージイベントを視覚化する機能です。OpenLineage と互換性があるため、データプロデューサーは、OpenLineage 対応システムまたは API を通じてキャプチャされたリネージイベントを使用して自動化されたリネージを拡張し、データコンシューマーに包括的なデータ移動ビューを提供できます。
Amazon DataZone のデータ系統は OpenLineage 互換の機能で、OpenLineage 対応システムまたは API から系統イベントをキャプチャして視覚化し、データの起源をトレースし、変換を追跡し、組織間のデータ消費を表示するのに役立ちます。データ資産の包括的なビューが提供され、資産の起源と接続チェーンを確認できます。系統データには、カタログ化された資産、それらの資産のサブスクライバー、API を使用してプログラムでキャプチャされたビジネスデータカタログ外で発生するアクティビティなど、Amazon DataZone のビジネスデータカタログ内のアクティビティに関する情報が含まれます。
この機能は、時間の経過に合わせたデータ移動のエンドツーエンドのビューを提供します。データリネージは Amazon DataZone 内の新しい機能であり、ユーザーによるデータの出自の視覚化および理解、変更管理の追跡、データエラーが報告された際の根本原因分析の実行、ソースからターゲットへのデータ移動に関する質問への準備に役立ちます。この機能は、Amazon DataZone のカタログから自動的にキャプチャされたリネージイベントと、Amazon DataZone の外部でプログラムによってキャプチャされた他のイベントをつなぎ合わせてアセットとしてまとめた包括的なビューを提供します。
データリネージとは
リネージ (lineage)とは、言葉の意味としては、血統・系統・家柄などを意味するそうです。
「データの系統」という言葉だけでは今ひとつ理解しづらいように感じたので調べてみました。
システム内でのデータの移動(データの送信元、データの通過先、データに適用される変換)を追跡できます。
データ・リネージュとは、時間の経過に伴うデータの流れを追跡するプロセスであり、データがどこから発生し、どのように変更されたか、データ・パイプライン内での最終的な保管先を明確に把握できるようにします。
データが取得されてからETLを経て分析にかけられるまでの流れ(これをデータパイプラインといいます)を適切に管理するという考え方です。またこのようにデータについてのデータを特にメタデータといい、データリネージのようなメタデータを活用したデータマネジメントが近年注目されつつあります。
さいごに
普段業務で使用しないようなサービスに触れる良い機会になりました。
New Launch系のセッションは人気で当日にWalkUpに並ぶ方も大勢いるため、参加してみたい方はre:Invent開催前からたまにセッション情報をチェックして予約しておくことをお勧めします。
re:Invent会場で参加した全てのWorkshopに対して言えることではありますが、1~2時間その他の業務のことを忘れてハンズオンに没頭する体験は貴重なものだと感じました。
弊社では一緒に働く仲間を募集中です!
現在、様々な職種を募集しております。
カジュアル面談も可能ですので、ご連絡お待ちしております!
募集内容等詳細は、是非採用サイトをご確認ください。