LoginSignup
2

AWS re:Invent 2022、Swami SivasubramanianによるDB・アナリティクス・機械学習キーノートセッション速報!

Last updated at Posted at 2022-11-30

こんばんは、みなさんAWS re:Invent 2022楽しんでますか?
本日、日本時間12月1日の夜中1:30-3:30でAWSのDB/Analytics/Machine LearningのVPであるSwami Sivasubramanianによるキーノートセッションが放送されました。

私はTwitter上でメモをとりながらリアルタイム視聴してました。
https://twitter.com/kmotohas/status/1597993102756958208

生放送では同時通訳付きでしたが、近々(通訳なしのものが)YouTube上でも公開される予定です。
その前にキーノートセッションの速報を書きたいと思います!(現在朝4時)

なお、本稿はAI/ML on AWS Advent Calendar 2022の1日目の記事です。現時点でまだ枠空いてるのでぜひご参加ください!!
https://qiita.com/advent-calendar/2022/ai-ml-on-aws

イントロ

まずはパーシースペンサーによる電子レンジの発明のアナロジーでデータの観察と洞察の大事さを説明するところから始まりました。創造性を高めるためにはデータへのアクセスや、処理の自動化、可視化が容易であることが重要です。

データは直感に勝る (Data beats intuition) ということはAmazon.comでは初期から意識されており、レコメンデーションや需要予測を活用してきました。データのイノベーションを進め、AWSでS3やRDSなどを提供するに至っています。

AWSのデータ戦略のコアとなる要素は以下の3つに集約できます。

  1. Build future-proof foundations: suppored by core data services
  2. Weave connective tissue: across your organization
  3. Democratize data: with tools and education

今回のキーノートはこの3つの要素を深掘りしていく流れで進められました。

1. Build future-proof foundations: suppored by core data services

データの量や種類が変化しても対応できるデータ基盤が必要です。ここでいう future-proof とは、あらゆるワークロードに対応できること、大規模にスケールすること、不必要な重労働 (heavy lifting) を取り除くこと、信頼性とセキュリティを担保すること、に分類できます。

単一のサービスであらゆるワークロードに対応するのは難しく、実際AWSのお客様のうち94%が用途に合わせて10以上のデータベースやアナリティクスサービスを利用しています。Store & Query、Act、Catalog & Governといったカテゴリのサービスを組み合わせてエンドツーエンドのデータ戦略を実現することができます。
image.png

Amazon S3のデータをクエリするためにAmazon Athenaがありますが、Apache Sparkを用いたデータ分析に対応しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-athena-now-supports-apache-spark/

image.png

昨日発表されたRedshift integration for Apache Sparkも合わせてAthena / EMR / Glue / SageMaker / Redshift でSparkを利用可能になりました。

次に、大規模にスケールできるべしという観点です。Aurora、DynamoDB、Redshiftなどに比べてDocumentDBは書き込み時のスケールの方法が複雑でしたが、Amazon Document DB Elastic Clustersの一般提供を開始しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-documentdb-mongodb-elastic-clusters-available/

image.png

また、重労働 (heavy lifting) から解放するためのサービスとして、Amazon DevOps Guru / Amazon S3 Intelligent-Tiering / Amazon SageMaker といったものがあります。

SageMakerは機械学習の開発運用プロセスを簡素化するツールです。ただし、企業データの80%は非構造・半構造化データでその準備は大変です。SageMaker GroundTruthなどラベリングツールはあるものの、地理空間データ(衛星画像や地図情報など)の利用には課題がありました。地理空間データに対するアクセスもデータ準備も可視化もツールが限られていましたが、この度SageMakerの地理空間データに対するMLのサポートを開始しました(プレビュー)。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-sagemaker-geospatial-ml-preview/

image.png

キーノート内では、洪水など自然災害が起こった際にリアルタイムの道路状況の予測対応を行うデモを実演していました。SageMakerで地理データを可視化してどの道路が水没しているか、どの空港にアクセスできるかなど予測しました。デモで利用した土地分類(道路判別など)の学習済みモデルはSageMaker JumpStart経由でプリセットで利用可能です。

image.png

そして、信頼性とセキュリティに関してです。信頼性の高いデータストアであるS3、ガバナンスを提供するLake Formation、Multi-AZ / Region構成がそれを支えています。

ミッションクリティカルな状況で利用されているデータウェアハウスにさらなる信頼性を与えるためAmazon Redshift Multi-AZのオプションを追加しました(プレビュー)。

image.png

また、PostgreSQLのセキュリティの拡張モジュールはRDS/Auroraでサポートされるまでラグがありましたが、Trusted Language Extensions for PostgreSQLという新しいオープンソースプロジェクトを用いてその制限を緩和できるようになりました。

https://aws.amazon.com/about-aws/whats-new/2022/11/trusted-language-extensions-postgresql-amazon-aurora-rds/
image.png

脅威検知のサービスであるAmazon GuardDutyもRDSの保護機能を追加しました。

image.png

2. Weave connective tissue: across your organization

まずは、インドの先住民が作った弾力性のある木の根の橋のアナロジーで、データストア同士のコネクションとガバナンスの重要性を説明しました。

現在、何百万ものデータレイクがAWSで稼働しています。しかし、質の高いデータが担保されていないとデータ沼になってしまいます。データ品質を管理するためのルール作りが必要だがマニュアル作業でした。今回、AWS Glue Data Qualityを発表しました。裏側ではオープンソースのDeequが活用されています。
https://aws.amazon.com/about-aws/whats-new/2022/11/aws-glue-data-quality-preview/

image.png

サイロ化されたデータストアを適切につなぐためにはガードレールを整備してガバナンスを確保するが必要です。AWS Lake Formation使ったRedshift data sharingのアクセスコントロール機能を発表しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-redshift-data-sharing-centralized-access-control-lake-formation-preview/

image.png

また、機械学習のガバナンスも困難です。ユーザーの権限管理、開発したモデルの情報の共有、運用中のモデルパフォーマンスの可視化などさまざまな課題があります。そこで、Amazon SageMakerの新しいMLガバナンス機能を提供開始しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/new-ml-governance-tools-amazon-sagemaker/
https://aws.amazon.com/blogs/aws/new-ml-governance-tools-for-amazon-sagemaker-simplify-access-control-and-enhance-transparency-over-your-ml-projects/

image.png

昨日ローンチしたAmazon DataZoneでは組織にまたがったデータのカタログ化や共有、利用を簡素化します。キーノート内でプロダクト担当からDataZoneのデモもありました。DataZoneではデータプロデューサーとコンシューマーのギャップを埋めることができます。プロデューサーが共有したデータをコンシューマーはDataZoneの画面から簡単に検索してサブスクライブし、Athena/Redshift/QuickSightなどで利用することができます。

image.png

一方、データ統合は一般的に複雑なETLパイプラインが必要です。AWSはZero ETLの未来に向けて前進しています。サービス間の統合の例として、KinesisからのRedshiftへのリアルタイムストリーミング、SageMakerとRedshift/Athenaの統合などがあります。AuroraとRedshiftのzero-ETL統合も昨日発表しました。さらに今回、S3のデータをRedshiftに継続的に自動コピーするオプションを追加しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-redshift-supports-auto-copy-amazon-s3/

image.png

Kinesis Data FirehoseやSageMaker Data Wrangler (データサイエンス向けのローコードデータ準備ツール)、Amazon AppFlowを用いると3rd party含めてさまざまなデータソースからのデータを収集することができます。今回、AppFlowおよびSageMaker Data Wranglerで多数のデータソースへのコネクターを追加しました。

https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-appflow-supports-over-50-connectors/
image.png

https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-sagemaker-data-wrangler-over-40-third-party-applications-data-sources/
image.png

3. Democratize data: with tools and education

最後に、データの民主化です。AWSはデータの民主化のために教育やローコードツールへの投資を行っています。

Swami自体もインドの郊外で育ち、学校にパソコンが一台しかないような環境で過ごしてきました。アメリカも同様に、5万4千のComputer Science卒業者がいるもののAI関連で100万の仕事があるとされています。まだまだ教育が足りていません。そこで、AWS Machine Learning Universityで教育者を教育するプログラムも追加しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/aws-machine-learning-university-educator-enablement-program-higher-education/

image.png

他にも、AWS AI&ML Scholarship Programという奨学金プログラムもあります。学生だけではなく社会人のリスキリングも重要です。AWS DeepRacerは310,000ディベロッパーが利用しています。150以上のコースもSkill Builder上で提供しています。

さらに、AWSでは専門知識なく利用できるローコードやノーコードツールも提供しています。QuickSightはML-poweredのBIツールです。QuickSIght Qではコードを書かずに自然言語で予測分析することができます。SageMaker CanvasというノーコードのMLモデル開発分析ツールも用意しています。

今回お話しした3つの要素に基づいたデータ駆動の文化から次の大きな発明が生まれてほしいといったメッセージでキーノートを締めくくりました。

さいごに

いかがでしょうか。簡単にですがSwamiによるキーノートセッションの速報をまとめてみました。

実は、キーノートで触れられなかったSageMaker周りのアップデートも発表終了後に多数出てきています。

他にも、執筆時点ではWhat's Newページには情報がないですが、Jupyterノートブックをジョブ実行できるようになったりというのも、データサイエンスの実務家目線で嬉しいアップデートですね。
https://aws.amazon.com/blogs/aws/next-generation-sagemaker-notebooks-now-with-built-in-data-preparation-real-time-collaboration-and-notebook-automation/

12月2日 (金) の12:00-13:00には「AWS Black Belt Online Seminar 2022 年 AWS re:Invent 速報」という日本語のセミナーが開催されます。今回のDB/Analytics/MLキーノートだけでなくre:Inventで発表された内容に関して1時間でぎゅーっとまとめて解説されます。興味がありましたら是非ご参加ください。
https://pages.awscloud.com/blackbelt-online-seminar-reinvent-recap-reg.html

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
2