こんばんは、みなさんAWS re:Invent 2022楽しんでますか?
本日、日本時間12月1日の夜中1:30-3:30でAWSのDB/Analytics/Machine LearningのVPであるSwami Sivasubramanianによるキーノートセッションが放送されました。
私はTwitter上でメモをとりながらリアルタイム視聴してました。
https://twitter.com/kmotohas/status/1597993102756958208
生放送では同時通訳付きでしたが、近々(通訳なしのものが)YouTube上でも公開される予定です。
その前にキーノートセッションの速報を書きたいと思います!(現在朝4時)
なお、本稿はAI/ML on AWS Advent Calendar 2022の1日目の記事です。現時点でまだ枠空いてるのでぜひご参加ください!!
https://qiita.com/advent-calendar/2022/ai-ml-on-aws
イントロ
まずはパーシースペンサーによる電子レンジの発明のアナロジーでデータの観察と洞察の大事さを説明するところから始まりました。創造性を高めるためにはデータへのアクセスや、処理の自動化、可視化が容易であることが重要です。
データは直感に勝る (Data beats intuition) ということはAmazon.comでは初期から意識されており、レコメンデーションや需要予測を活用してきました。データのイノベーションを進め、AWSでS3やRDSなどを提供するに至っています。
AWSのデータ戦略のコアとなる要素は以下の3つに集約できます。
- Build future-proof foundations: suppored by core data services
- Weave connective tissue: across your organization
- Democratize data: with tools and education
今回のキーノートはこの3つの要素を深掘りしていく流れで進められました。
1. Build future-proof foundations: suppored by core data services
データの量や種類が変化しても対応できるデータ基盤が必要です。ここでいう future-proof とは、あらゆるワークロードに対応できること、大規模にスケールすること、不必要な重労働 (heavy lifting) を取り除くこと、信頼性とセキュリティを担保すること、に分類できます。
単一のサービスであらゆるワークロードに対応するのは難しく、実際AWSのお客様のうち94%が用途に合わせて10以上のデータベースやアナリティクスサービスを利用しています。Store & Query、Act、Catalog & Governといったカテゴリのサービスを組み合わせてエンドツーエンドのデータ戦略を実現することができます。
Amazon S3のデータをクエリするためにAmazon Athenaがありますが、Apache Sparkを用いたデータ分析に対応しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-athena-now-supports-apache-spark/
昨日発表されたRedshift integration for Apache Sparkも合わせてAthena / EMR / Glue / SageMaker / Redshift でSparkを利用可能になりました。
次に、大規模にスケールできるべしという観点です。Aurora、DynamoDB、Redshiftなどに比べてDocumentDBは書き込み時のスケールの方法が複雑でしたが、Amazon Document DB Elastic Clustersの一般提供を開始しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-documentdb-mongodb-elastic-clusters-available/
また、重労働 (heavy lifting) から解放するためのサービスとして、Amazon DevOps Guru / Amazon S3 Intelligent-Tiering / Amazon SageMaker といったものがあります。
SageMakerは機械学習の開発運用プロセスを簡素化するツールです。ただし、企業データの80%は非構造・半構造化データでその準備は大変です。SageMaker GroundTruthなどラベリングツールはあるものの、地理空間データ(衛星画像や地図情報など)の利用には課題がありました。地理空間データに対するアクセスもデータ準備も可視化もツールが限られていましたが、この度SageMakerの地理空間データに対するMLのサポートを開始しました(プレビュー)。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-sagemaker-geospatial-ml-preview/
キーノート内では、洪水など自然災害が起こった際にリアルタイムの道路状況の予測対応を行うデモを実演していました。SageMakerで地理データを可視化してどの道路が水没しているか、どの空港にアクセスできるかなど予測しました。デモで利用した土地分類(道路判別など)の学習済みモデルはSageMaker JumpStart経由でプリセットで利用可能です。
そして、信頼性とセキュリティに関してです。信頼性の高いデータストアであるS3、ガバナンスを提供するLake Formation、Multi-AZ / Region構成がそれを支えています。
ミッションクリティカルな状況で利用されているデータウェアハウスにさらなる信頼性を与えるためAmazon Redshift Multi-AZのオプションを追加しました(プレビュー)。
また、PostgreSQLのセキュリティの拡張モジュールはRDS/Auroraでサポートされるまでラグがありましたが、Trusted Language Extensions for PostgreSQLという新しいオープンソースプロジェクトを用いてその制限を緩和できるようになりました。
https://aws.amazon.com/about-aws/whats-new/2022/11/trusted-language-extensions-postgresql-amazon-aurora-rds/
脅威検知のサービスであるAmazon GuardDutyもRDSの保護機能を追加しました。
2. Weave connective tissue: across your organization
まずは、インドの先住民が作った弾力性のある木の根の橋のアナロジーで、データストア同士のコネクションとガバナンスの重要性を説明しました。
現在、何百万ものデータレイクがAWSで稼働しています。しかし、質の高いデータが担保されていないとデータ沼になってしまいます。データ品質を管理するためのルール作りが必要だがマニュアル作業でした。今回、AWS Glue Data Qualityを発表しました。裏側ではオープンソースのDeequが活用されています。
https://aws.amazon.com/about-aws/whats-new/2022/11/aws-glue-data-quality-preview/
サイロ化されたデータストアを適切につなぐためにはガードレールを整備してガバナンスを確保するが必要です。AWS Lake Formation使ったRedshift data sharingのアクセスコントロール機能を発表しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-redshift-data-sharing-centralized-access-control-lake-formation-preview/
また、機械学習のガバナンスも困難です。ユーザーの権限管理、開発したモデルの情報の共有、運用中のモデルパフォーマンスの可視化などさまざまな課題があります。そこで、Amazon SageMakerの新しいMLガバナンス機能を提供開始しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/new-ml-governance-tools-amazon-sagemaker/
https://aws.amazon.com/blogs/aws/new-ml-governance-tools-for-amazon-sagemaker-simplify-access-control-and-enhance-transparency-over-your-ml-projects/
昨日ローンチしたAmazon DataZoneでは組織にまたがったデータのカタログ化や共有、利用を簡素化します。キーノート内でプロダクト担当からDataZoneのデモもありました。DataZoneではデータプロデューサーとコンシューマーのギャップを埋めることができます。プロデューサーが共有したデータをコンシューマーはDataZoneの画面から簡単に検索してサブスクライブし、Athena/Redshift/QuickSightなどで利用することができます。
一方、データ統合は一般的に複雑なETLパイプラインが必要です。AWSはZero ETLの未来に向けて前進しています。サービス間の統合の例として、KinesisからのRedshiftへのリアルタイムストリーミング、SageMakerとRedshift/Athenaの統合などがあります。AuroraとRedshiftのzero-ETL統合も昨日発表しました。さらに今回、S3のデータをRedshiftに継続的に自動コピーするオプションを追加しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-redshift-supports-auto-copy-amazon-s3/
Kinesis Data FirehoseやSageMaker Data Wrangler (データサイエンス向けのローコードデータ準備ツール)、Amazon AppFlowを用いると3rd party含めてさまざまなデータソースからのデータを収集することができます。今回、AppFlowおよびSageMaker Data Wranglerで多数のデータソースへのコネクターを追加しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-appflow-supports-over-50-connectors/
https://aws.amazon.com/about-aws/whats-new/2022/11/amazon-sagemaker-data-wrangler-over-40-third-party-applications-data-sources/
3. Democratize data: with tools and education
最後に、データの民主化です。AWSはデータの民主化のために教育やローコードツールへの投資を行っています。
Swami自体もインドの郊外で育ち、学校にパソコンが一台しかないような環境で過ごしてきました。アメリカも同様に、5万4千のComputer Science卒業者がいるもののAI関連で100万の仕事があるとされています。まだまだ教育が足りていません。そこで、AWS Machine Learning Universityで教育者を教育するプログラムも追加しました。
https://aws.amazon.com/about-aws/whats-new/2022/11/aws-machine-learning-university-educator-enablement-program-higher-education/
他にも、AWS AI&ML Scholarship Programという奨学金プログラムもあります。学生だけではなく社会人のリスキリングも重要です。AWS DeepRacerは310,000ディベロッパーが利用しています。150以上のコースもSkill Builder上で提供しています。
さらに、AWSでは専門知識なく利用できるローコードやノーコードツールも提供しています。QuickSightはML-poweredのBIツールです。QuickSIght Qではコードを書かずに自然言語で予測分析することができます。SageMaker CanvasというノーコードのMLモデル開発分析ツールも用意しています。
今回お話しした3つの要素に基づいたデータ駆動の文化から次の大きな発明が生まれてほしいといったメッセージでキーノートを締めくくりました。
さいごに
いかがでしょうか。簡単にですがSwamiによるキーノートセッションの速報をまとめてみました。
実は、キーノートで触れられなかったSageMaker周りのアップデートも発表終了後に多数出てきています。
-
Introducing Amazon SageMaker support for shadow testing
- デプロイしたモデルのA/Bテスト支援
-
Launch Amazon SageMaker Autopilot experiments from Amazon SageMaker Pipelines to easily automate MLOps workflows
- SageMaker PipelinesにAutoML Stepが追加
-
Amazon SageMaker Studio launches redesigned user interface
- SageMaker StudioのUI刷新
-
Amazon SageMaker JumpStart now enables you to more easily share ML artifacts within your organization
- 組織内でのSageMaker JumpStart経由のモデルやノートブック共有
-
Amazon SageMaker Studio now supports real time collaboration
- 共有作業スペースやノートブックのリアルタイム編集機能
-
Amazon SageMaker Data Wrangler now provides built-in data preparation in notebooks
- ノートブック上におけるGUIでのデータ準備・インサイト取得
他にも、執筆時点ではWhat's Newページには情報がないですが、Jupyterノートブックをジョブ実行できるようになったりというのも、データサイエンスの実務家目線で嬉しいアップデートですね。
https://aws.amazon.com/blogs/aws/next-generation-sagemaker-notebooks-now-with-built-in-data-preparation-real-time-collaboration-and-notebook-automation/
12月2日 (金) の12:00-13:00には「AWS Black Belt Online Seminar 2022 年 AWS re:Invent 速報」という日本語のセミナーが開催されます。今回のDB/Analytics/MLキーノートだけでなくre:Inventで発表された内容に関して1時間でぎゅーっとまとめて解説されます。興味がありましたら是非ご参加ください。
https://pages.awscloud.com/blackbelt-online-seminar-reinvent-recap-reg.html