いつも記事を読んでいただきありがとうございます!
モブエンジニア(@mob-engineer)です!
今回は2025.01.29(水)に開催した**BigData-JAWS 勉強会 #28 (re:Invent 2024 re:Cap)**へ参加しましたので、アウトプットとしてイベントレポートを執筆しました。
初学者でもサクッと読めるように平易な表現で執筆しておりますので、お気軽に読んでいただければ幸いです。
誤字脱字、分かりづらい表現などはなくすように心がけていますが、リアルタイムで執筆しているため誤字脱字があるかもしれません。
イベントページ
目次
- Analytics関連アップデートまとめ
- LT
- LT①: Apache Icebergの解説とAWSでの運用
- LT②: Amazon S3 Tablesと外部分析基盤連携について
- LT③: Amazon SageMaker Unified Studioを触ってみた
- LT④: Q in QuickSight Scenariosを使ってみた
- まとめ
Analytics関連アップデートまとめ
Amazon Datazone
Zero-ETL
- 自己紹介
- AWS所属のソリューションアーキテクトの方
- 直近ではData and AI関連の開発組織に所属している
- お伝えしたいこと
- 今年の特徴的なテーマ(データ、分析、AIの統合)にフォーカスを当てて説明
- SageMaker関連のアップデート
- Building Blockの世界も展開しつつ統合した環境を提供していく
- 伝える内容は基礎的な内容
- 今年の特徴的なテーマ(データ、分析、AIの統合)にフォーカスを当てて説明
- SageMaker以外のアップデート情報
- AWS Glue 5.0を発表
- パフォーマンス向上・セキュリティ向上を実現
- データカタログの自動統計機能
- Amazon S3 Tablesを発表
- 表形式データを保存し分析できる
- 自動でメンテナンスできるため工数削減出来る
- スループット3倍(マーケティング向け)
- Amazon Redshiftデータ共有によるマルチデータウェアハウスの書き込み
- データ共有が読み取りから書き込みも実現
- ワークロードに応じた処理を実現出来る
- Amazon Q in QuickSightのシナリオ分析機能
- ステップバイステップでドリルダウン分析を行っていける
- AWS Glue 5.0を発表
- 次世代のAmazon SageMaker
- 様々なサービスに関する概念・利用方法をキャッチアップするのは困難
- 一つのプラットフォームで管理できるようにするといった思想でSageMakerへ統合していった
- 次世代のSageMaker機能
- Unified Studio:統合開発環境
- Lakehouse:レイクハウス機能
- などなど
- ざっくり言えば、今までのSageMakerの進化版
- 従来のSageMakerはSageMaker AIにリネーム
- Unified Studio
- AWSコンソールでなく別のプラットフォームで操作する
- データ前処理、コード生成、モデル構築からコンピューティングまでフォロー
- 権限に関してはプロジェクト単位で設定していく
- (個人的意見)プロジェクトが大量に作成された場合の運用はどうしよう
- GlueのようなETLパイプラインをGUIで操作できる
- Data and AI Governance
- Amazon DataZoneのコンポーネントを利用している
- ざっくり言えば、役割に応じた権限設定を行ってくれる
- LakeHouse
- 統合:すべてのデータへ総合的にアクセス可能
- オープン:オープンなインターフェースでアクセス可能
- セキュア:AWS内でデータ管理が完結している
- ストレージ周り:
- 汎用S3、S3Tableだけでなく、Redshiftもフォローしている
- カタログ周り:
- Federated Catalog:サードバーティ利用するユーザ向け
- Managed Catalog:AWSのみで完結するユーザ向け
LT
LT①: Apache Icebergの解説とAWSでの運用
Apache Iceberg
- 自己紹介
- 日本IBM所属の方
- Jr.チャンピオン1期生の方
- Storage JAWS運営の方
- きっかけはキーノート
- 2024 re:Invetのキーノートで言葉を知ったがよく分からなかったので調べてみた
- Apache Iceberg
- Javaでの分析がきつくなってきたのでHive(SQLっぽく分析するツール)が2008年に開発
- 時代が進むにつれストレージの多様化、データフォーマットの多様化が進んできた
- Hive Table Formatのデメリット
- スループット問題、検索速度問題などなど
- 解決策としてIcebergが開発された
- アーキテクチャ
- データ変更時にはスナップショットが紐付いていくイメージ
- データに関してはイミュータブル(変更不可)
- AWSでのIcebergの取り扱い
- 基本的にはAWS Glue Data Catalogを利用する
- カタログセットアップは自分で行っていく
- ストレージはS3 Tables
- re:invent前はストレージ最適化を自分で行う必要があったが今は自動で行ってくれる
- 基本的にはAWS Glue Data Catalogを利用する
- 質問
- S3 Standard⇒S3 Tablesにする場合移行処理が必要か?
- 移行処理は必要
- 移行ツールがあれば嬉しい
- オブジェクトストレージでも利用可能
- 強い整合性がフォローしていたとしてもメタデータの更新が必要
- S3 Standard⇒S3 Tablesにする場合移行処理が必要か?
LT②: Amazon S3 Tablesと外部分析基盤連携について
- 自己紹介
- NTTコミュニケーション所属の方
- Pythonチョットデキルのガチ勢の方
- Amazon S3 Tablesの背景
- Amzon S3をデータレイクとして利用するユーザが増えた
- データ分析基盤のはじまりもS3のローンチタイミング(2006年)と同じ
- 歴史が進むにつれ、データ分析アプリも進化していった
- 高コストのオンプレミス基盤から低コストのクラウド基盤に変わっていく
- Amzon S3をデータレイクとして利用するユーザが増えた
- Open Table Format
- ざっくり言えば、テーブル形式のファイルフォーマット
- Parquet、Avro、OCRなどが有名
- ざっくり言えば、テーブル形式のファイルフォーマット
- Amazon S3 Tablesの設定
- Standardと同じように設定できるわけではない
- あくまで名前しか設定できない
- 操作方法に関してはブログで公開されている
- Standardと同じように設定できるわけではない
- やってみたこと
- 別の基盤からAWS S3 Tablesへ触ってみた
- アーキテクチャ構築に関するドキュメントがほとんどなかった
- まとめ
- ドキュメントが少ないため、ユーザが育てていくことが重要
- AWS Glueから利用するのが主流のため、他クラウドからの利用に関するドキュメントは少ない
LT③: Amazon SageMaker Unified Studioを触ってみた
- 自己紹介
- NTTドコモ所属の2年目社員
- Amazon SageMaker Unified Studioとは
- 次世代のSageMakerで追加された機能
- ざっくり言えば統合開発環境
- 環境構築
- SageMaker Studioとほとんど同じ
- VPCを作成をクリックすると、CloudFormation画面へ遷移し28個エンドポイントが作成される
- Unified Studio作成後、プロジェクト作成画面へ遷移する
- 最小構成であればS3とCodeCommitが作成される
- CodeCommitさん、消えるのでは🐱
- GUI操作だけでデータ追加を行うことが出来る
- データ分析に関してもいい感じのグラフを生成してくれる
- Tableauほどではないがよく利用されるグラフは利用可能
- 考えられる強み
- S3のデータをAthenaでクエリしたいといった要件では強みを発揮できる
- まとめ
- S3へデータを放り込めば可視化は出来そう
- 他サービスとの連携を行っていきそうなUI
- サービス間の行ったり来たりがなくなる
- アイデがあればほしい!
LT④: Q in QuickSight Scenariosを使ってみた
登壇レポート
サイト
- 自己紹介
- クラスメソッド所属のエンジニアの方
- 現在はデータ分析・可視化業務を担当している
- Q in QuickSight Scenarios
- re:inventのキーノートで発表
- "プロ"ロールのQuickSightユーザが必要
- 月額250ドルがかかるので、個人開発は..
- プレビュー機能なのでPreview Managerから利用可能
- 利用可能なファイル形式はCSV or Excelのみ
- 3KB位のファイルでも1分くらいアップロード時間がかかる
- 推論に関して30秒くらいかかる
- プロンプトを入れることで推論をさせ直すことも出来る
- 推論に関してはステップバイステップ
- 推論結果に対する提案も行ってくれる
- 次のステップに対していくつかの質問案を示してくれる
- 所感
- データを読み込める凄く高性能なAIチャットアプリ
- 現在は英語のみ対応している(コミュニティ内で多言語対応は議論されている)
- データはあるけど何したらいいか分からないときの次の手を構築するツールとして活用できる
- 質問
- ダッシュボード生成もフォローしてくれるのか
- ダッシュボードに関しては別サービスで作成してくれる
- ダッシュボード生成もフォローしてくれるのか
まとめ
BigData関連のアップデートについて、情報は知っていたもののどのような嬉しいことがあるのかをきちんと理解できていなかったため、本イベントを通じてキャッチアップすることが出来ました。
そのうえで、個人開発(お財布が耐えられる)レベルでサービスを触ってみたいと思いました