株式会社NTTデータ Data & Intelligence事業部 の nttd-saitouyun です。
昨年12月の AWS re:Invent 2022 に参加してきました。今回はブース展示(通称Expo)をガッツリ(4時間×2日)回って得られた所感をご紹介します。
写真は各ブースでいただいたノベルティです。時間をかけて回ったので、1日でこんなにたくさんのアイテムをいただきました。
Expoとは
AWS re:Invent に協賛している300以上の企業が大きな会場で展示を行っています。調べてみたところ、約17,465平方メートルの会場のようです。よって、約130メートル四方になる計算ですが、体感では2倍以上あるように感じました。
この広大な会場を、話を聞きながら回るので、あっという間に時間が過ぎます。全部回るのは不可能です。
ブースの配置を含めた詳細なマップはこちらから確認できます。
マップをよく見ていただくとわかるのですが、#3519にゴールドイベントスポンサーとして、NTTデータも出展しています!!
今回が初の出展となり、北米のメンバが主体となってAWSのナレッジを紹介いたしました。
それでは、本題に入りましょう。
Expoめぐり所感:全体
ブースはゾーンによって分けられており、スタートアップゾーンを除くと、開発、セキュリティ、AI/ML、データアナリティクスの4つのゾーンがあります。
開発とセキュリティは従来から大きなスペースが取られていましたが、それらと同等の規模でデータアナリティク、AI/MLのスペースが取られています。今回、キーノートでも、データアナリティクスサービス、機械学習サービスのアップデートが多かったことからもわかるように、AWSにおいて、このアナリティクス、機械学習領域はいま最も盛り上がっている領域だと言えるのではないでしょうか。
Expoめぐり所感:データマネジメント系ソリューション
私は以下のブースを回りました。印象的だったのは、SaaS 型のデータ統合、つまり、ETL/ELTソリューションがとても多かったことです。いずれもGUIで加工コンポーネントをつないでデータフローを作成する、GUIベースのツールでした。
企業名・ソリューション名 | 提供形態 | 主要機能 |
---|---|---|
SnapLogic | iPaaS | Data Integration |
Matillion | SaaS | Data Integration |
Fivetran | SaaS | Data Integration |
Precisely | SaaS | Data Integration, Data Quality, MDM, Data Governance |
Etleap | Package | Data Integration |
StreamSets | SaaS | Data Integration |
Tamr | SaaS | MDM |
デモだけでは各製品の詳細な違いを見極めることができませんでしたが、いずれの製品も「シンプルさ」や「簡単に始められること」を売りにしていました。これまでインフラエンジニアやデータエンジニアが専門的に行っていたデータ処理を「気軽に誰にでもできるようにする」ような流れがあるのだと思います。
今回、AWS も Amazon DataZone や AWS Glue Data Quality などのデータマネジメント系のサービスを発表しているので、今後このデータマネジメント領域の動向から目が離せません。
ちなみに、データマネジメントソリューションといえば、当部のパートナーである、Informatica社が有名ですが、ブースは大盛況でした!!
Informaticaにおいても、製品のクラウド化を積極的に進めており、簡単さや分かりやすさを追求しているのではないかと思います。
Expoめぐり所感:データストア系ソリューション
話を聞いたソリューションの概要をまとめてみました。表を見ていただくと、すぐにわかると思いますが、「リアルタイム」がキーワードです。他にも「イベントドリブン」「ローレイテンシー」というワードも何度も聞きました。
企業名・ソリューション名 | 概要 |
---|---|
Confluent | 継続的でリアルタイムのストリームとしてデータに簡単にアクセスし、それを保存および管理できるフルスケールのストリーミングプラットフォーム。Apache Kafkaの商用クラウドサービス。 |
SingleStore | データ集約型アプリケーション用に設計されたリアルタイム分散 SQL データベース。旧MemSQL。 |
Rockset | クラウド用に構築されたリアルタイム分析データベース。 |
Aerospike | マルチモデル・リアルタイムデータプラットフォーム。 |
Datastax | スピードとスケールのために構築されたオープンでモダンなデータアーキテクチャで、リアルタイムアプリケーションを提供。Apache Cassandra上に構築されたソリューション。 |
MongoDB | (有名な)ドキュメント指向データベース。 |
Couchbase | 対話型アプリケーション用に最適化されたオープンソースの分散型NoSQLドキュメント指向データベース。 |
InfluxDB | 時系列データを活用するための統合プラットフォーム。 |
CockroachDB | オープン ソースのクラウドネイティブな分散 SQL データベース。 |
従来はデータを集積し、バッチ的にデータ処理を行い、その結果をエンドユーザにフィードバックしていくケースが多かったと思います。
しかし、今後は、データをリアルタイムに処理、監視し、イベントが発生した直後にエンドユーザにアクションを行うことで、データの発生からアクションまでの期間を短くし、より高度なソリューションの実現やより良いCXの実現を目指すような流れがあると感じました。
DB-Engines Rankingでこれらのソリューションを見てみると次のようになります。(ランキングは1/19時点のものです。)
いま現在では、高くもなく低くもないような順位のソリューションが多いです。知っている人は知っているようなレベルなのではないでしょうか。定期的にランキングを見て、順位の変動を見るのも楽しいと思います。私も試したことのないソリューションが多かったので、検証してみようと思います!
Expoめぐり所感:データレイク・データウェアハウス系ソリューション
こちらもデータストアではありますが、上に記載したリアルタイムユースケースのものと毛色が違うため、分けて記載します。
Databricks や Snowflake 以外では以下のソリューションがあります。
企業名・ソリューション名 | 概要 |
---|---|
Dremio | オープンデータレイクハウスであり、セルフサービスの SQL 分析、データ ウェアハウスのパフォーマンスと機能、データ レイクの柔軟性をすべてのデータに提供プラットフォーム。 |
Starburst | 高速でスケーラブルな SQL エンジン。Presto/Trinoの主要な開発者によって設立。 |
キーワードは「データレイクハウス」です。
データレイクハウスはデータ「レイク」とデータウェア「ハウス」の造語です。データレイクのスケーラブルで多様なデータを扱う機能とデータウェアハウスの高いデータ品質とガバナンスを保つ機能を合わせ持ったソリューションをデータレイクハウスと呼びます。Databricksが提唱した言葉ですが、今では、AWS、Microsoft、Google、Oracleをはじめとした各社で使われています。
上の表ではStarburstは、データレイクハウスという言葉を使ってはいませんが、
「Starburst at AWS re:Invent」の「A Brief Introduction to Starburst」には、以下のように「データレイク + データウェアハウス」、つまりデータレイクハウスの考え方が記載されています。
また、Databricks、Dremio、Starburst は、セッションにおいてもデータレイクハウスに関する発表を行っています。
- AWS re:Invent 2022 - Build your data lakehouse with Starburst Galaxy (PRT014)
- AWS re:Invent 2022 - Build your open data lakehouse with Dremio and AWS (PRT085)
- AWS re:Invent 2022 - How Thermo Fisher streams data insights on the Databricks Lakehouse (PRT320)
- AWS re:Invent 2022 - How Corning built E2E ML on a data lakehouse platform with Databricks (PRT321)
データレイクハウスについてもう少し知りたい方は以下の記事もご覧ください。筆者が IT Leader's 様にて寄稿させていただいた記事です。
おわりに
いかがでしたでしょうか?
私の所感となってはしまいましたが、少しでも現地のトレンドが伝わっていれば幸いです。
ブース展示というと地味なイメージがあるかもしれませんが、AWS re:Invent の中では、最も熱気を一番体感できるイベントだと思います。
セッションは後で視聴できますが、ブースはその場限りなので、現地で参加されて際には参加をおススメします!!
現地のエンジニアと議論を交わすのは貴重な経験になりますよ!
仲間募集中!
NTTデータ Data&Intelligence事業部 では、以下の職種を募集しています。
1. 「クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)」の募集
クラウド/プラットフォーム技術の知見に基づき、ITアーキテクトまたはPMとして、DWH、BI、ETL領域における、ソリューション開発の推進や、コンサルティング工程のシステムグランドデザイン策定時におけるアーキテクト観点からの検討を行う人材を募集しています。2. AI/データ活用を実践する「クラウド・ソリューションアーキテクト」の募集
AI/データ活用を実践する「クラウド・ソリューションアーキテクト」として、クラウド先進テクノロジーを積極活用し、お客様のビジネス価値創出活動を実践。AI/データ活用の基本構想立案コンサルティングからクラウドプラットフォーム提供・活用を支援しています。お客様のAI・データ活用を支援するクラウド・ソリューション提案、アーキテクチャ設計・構築・継続活用支援(フルマネージドサービス提供)、および最新クラウドサービスに関する調査・検証で、クラウド分析基盤ソリューションのメニュー拡充を実施する人材を募集します。また、取り扱う主なソリューションについては、以下のページも参照ください。