LoginSignup
16
5

Snowflake Summit 2023 現地レポート Day2 - Snowflake Summit Opening Keynote -

Last updated at Posted at 2023-07-03

前書き

株式会社NTTデータ テクノロジーコンサルティング事業本部 デジタルテクノロジー&データマネジメントユニット 所属の@Kento_Imamuraです。

現在、ラスベガスで開催されているSnowflake Summit 2023に現地参加しています。Snowflake Summitは、Snowflake社が年次で開催する最大規模のカンファレンスです。今年のテーマは「The World’s Largest Data, Apps, and AI Conference」で、6月26日から6月29日までの4日間にわたって開催されており、400セッション以上、200以上のパートナー企業が参加しています。

本記事ではDay2に行われたSnowflake Summit Opening Keynoteの内容をお届けします。

Snowflake Summit Opening Keynote

Opening Keynoteに行われた講演は以下のとおりです。

  1. Frank Slootman(Snowflake CEO)による講演
  2. Christian Kleinerman(Snowflake SVP, Product Management)氏による新機能の発表

SnowflakeのCEOと創業者であるFlank氏、Benoit氏の両名による講演と、SVPであるChristian氏による非常に多くの機能発表には会場中に大きな歓声がわき上がりました。

Frank Slootman(Snowflake CEO)による講演

講演では、Snowflakeによってサイロ化されたデータを打倒することをテーマに、Snowflakeが持つことのできるデータの種類やワークロード、そしてSnowflakeがどのようなユーザに寄り添ったサービスであるのかを語っていました。

  • データの種類
    構造化データはもちろん、半構造化データや非構造化データに至るまで、すべてのデータを扱うことができるようになっています。
    キャプチャ.PNG

  • ワークロードの種類
     すべてのワークロードをSnowflakeがサポートします。

    • データウェアハウス
    • データレイク
    • ユニストア
    • コラボレーション
    • サーバーセキュリティ
    • データエンジニアリング
    • AI/ML
      • アプリケーション
        speech_photo_822.2819375_pMxY9IssjK2izuDLI12x6fjOcj0.jpg
  • ユーザ
    データ分析者だけでなくすべてのユーザに対して寄り添った機能をSnowflakeは提供します。

    • アプリケーション開発者
    • MLエンジニア
    • データサイエンティスト
    • SQL分析者
    • ビジネスユーザ

そして、もう一つ重要なワードが「NO LIMITS」。
NO LIMITSとはアプリケーション・データ活用・Snowflakeの限界に挑戦し続けるということを意味します。あらゆる分野を網羅するデータクラウドとしてのSnowflakeにいかなる制限も設けないという強い意志を示すものでした。

Christian Kleinerman(Snowflake SVP, Product Management)氏による新機能の発表

新機能の発表に先立って、創業者であるBenoit Dageville(Snowflake President of Products)氏を中心に、Sridhar Ramaswamy(Snowflake SVP, Founder of NEEVA )氏, Mona Attariyan(Director of AI/ML Engineering)氏による対談が行われました。
speech_photo_12.665875_TUUFHzJpeFPTnUrfMkot6I8Mzjk.jpg

要点をまとめると、彼らはデータクラウドがAIの基盤であるために、自然言語でのデータアクセスや統合がすぐできることが重要であると強調し、SnowflakeとしてAIとデータの力を顧客に提供することを目指していると述べていました。

ここから、お待ちかねのChristian Kleinermanによる新機能およびパートナー企業によるさまざまな製品発表が行われました。
新機能の内容をカテゴリごとに分けて、ご紹介します。

Single Platform

Unified Iceberg Table 

当初のSnowflakeでは、データを評価するため内部ステージに取り込むことを第一とされていましたが、ユーザからのニーズにより、5年前に外部ステージを導入し、そして昨年はIceberg Tableに対応しました。しかし、外部テーブルとしてIceberg Tableを利用する場合に最高のパフォーマンスを提供することができませんでした。
そこで、Unified Iceberg Tableが提供されました。これは、Unmanaged ModeとManaged Modeの二種類があります。
- Unmanaged Mode
外部テーブルとして参照する場合よりも2倍以上のパフォーマンスが発揮できる。
- Managed Mode
Snowflakeの内部テーブルと同等のパフォーマンスが発揮できる。
speech_photo_612.2950625_TUUFHzJpeFPTnUrfMkot6I8Mzjk.jpg
speech_photo_639.96_TUUFHzJpeFPTnUrfMkot6I8Mzjk.jpg

Document AI

2年前に非構造化データをサポートしてから、どうすれば非構造化データから簡単に価値を引き出すことができるのかという相談が多くあったと語り、Document AIが発表されました。
Applicaによって、Snowflake内に保存したドキュメントを自然言語を使って問い合わせすることができます。
また、この問い合わせのレスポンスをテーブルに格納することができるため、別のユーザに共有することができます。
AIから得られる回答にフィードバックを返して、モデル精度の調整や再学習もすることができ、そのモデルも共有することができます。

IMG_0179.jpg

Platform for Comprehensive Privacy

近年Snowflakeは、セキュリティ強化を重点的に行っており、プライベートなデータ製品やプライベートなAI/ML、そして、プロセス全体を監査する機能を持っています。以下5つの機能と監査ログによって、プライバシーを保護しています。

  • Query Constraints
  • Anonymization
  • Differential Privacy
  • Masking Policies
  • Classification
  • Auditing
    • Query Log
    • Budget Tracking
    • Access History
      キャプチャ3.PNG

Geospatial(地理空間)データのサポート拡大 Public Preview

Snowflakeによる高度な分析能力の強化の一環として、地理空間データのサポート範囲が拡大されました。球面でも、平面でもあらゆるタイプの空間ベクトルがサポートされています。

SQLからのMLモデル操作 Public Preview

より信頼性の高い時系列予測をすることができるMLモデルを構築することができます。これによって、何がメトリクスの変化に寄与しているのかを素早く分析して異常検出のアラートを発することができます。
これらは関数が提供されており、MLの専門的な知識を持たずに構築することができます。
キャプチャ4.PNG

パフォーマンスの向上

Snowflakeはパフォーマンスの向上に恒常的に取り組んでおり、Snowflakeパフォーマンスインデックス(SPI)が開発されました。昨年8月~今年4月までの改善によって、クエリ時間が15%向上しました。

Budgets, Warehouse Utilization

リソースがどのように消費され、その消費量に対して生み出される価値が満足するものであるか確認するニーズに応えて、予算のコントロールとウェアハウスの利用状況を可視化する機能が追加されました。

  • Budgets機能
    選択したリソースのサブセットに対して予算を超えたときにアラートを受け取るだけでなく、予算手前のしきい値を任意に指定してアクションを実行することができます。

  • Warehouse Utilization機能
    これまでユーザからウェアハウスの利用率を測定したいという要望があがっていました。今回その機能が発表されました。ウエアハウスのリソースがどれだけ使われているかという情報が、最新情報および任意の時点において表示させることができます。
    speech_photo_1770.2226875_TUUFHzJpeFPTnUrfMkot6I8Mzjk.jpg

Deploy, Distoribute, Monetize

アプリケーションのデプロイ、分散化、マネタイズができるプラットフォームを発表しました。
これまでのMarketplaceではデータの共有しかなかったですが、アプリケーションの共有ができるようになったことで、AppleのApp Storeのようにユーザによるアプリケーション開発が活性化して、新たなビジネスモデルが生まれてきます。アプリケーションのプロバイダーは収益を得ることができ、コンシューマーは車輪の再開発をする必要がなくなります。
IMG_0173.jpg

cybersynの紹介

Snowflake Marketplaceにて提供されるデータ共有サービスを開発している会社です。
このサービスはSnowflakeのMarketplaceでしか提供されないサービスであり、今後Marketplace専用のアプリケーション開発をする企業が多く現れるのではないかと予測されます。
IMG_0182.jpg

Native App Framework Public Preview

Snowflake Native Appは現時点で、25以上のプロバイダーに40を越えるアプリがパブリッシュされています。
アプリケーションのデプロイには、アプリ設定を記載するマニフェストファイルと、コンシューマーにインストールするアプリのセットアップスクリプトのみがあれば可能です。これらの資材をパッケージ化したのちにSnowflakeアカウントにインストールしてコマンドを実行することでデプロイができ、バージョン管理、収益化設定などを設定し公開することができます。
IMG_0184.jpg

Custom Event Billing Public Preview

Marketplaceにてアプリやデータの課金形態を選択することができるようになりました。課金形態はユーザ単位で1回のみ課金、使用量ベースの課金などがあります。さらに、既に契約済みのクレジットから残高を消費してMarketplaceへの課金を行うことができるようになりました。
キャプチャ5.PNG
キャプチャ6.PNG

PROGRAMMABILITY WITHOUT TRADEOFFS

トレードオフなしで効率よくプログラミングをすることができる機能が複数提供されました。

Developer Experiences

  • Snowflake CLI
    Snowflakeのを利用するツールとして、Python API, REST APIだけでなく、完全にオープンソースのツールであるSnowflake CLIを新たに提供します。開発者中心のユースケースにフォーカスしており、ロギングとトレース用のAPIもパブリックプレビューとなりました。ストアドプロシージャやUDFのデバッグ、アプリケーションのパフォーマンスをチェックすることができます。また、さらにGitとの連携をすることができるため、簡単にGitとSnowflake間でのコード同期をすることができるようになります。
    IMG_0186.jpg

  • Snowpark
    2022年11月にリリースされたばかりの機能ですが、30%の顧客に利用されていて毎日1000満開以上のクエリが実行されている。Snowparkの導入前は、データサイエンスのワークロードを実行するためにSparkクラスタを別環境で用意して、Snowflakeからデータを移動させて分析する必要がありました。それがSnowparkを導入することによって、データサイエンティストはデータを移動させる必要なく、すぐにデータ分析を開始することができるようになりました。
    このSnowparkがより便利に利用できるようにPython3.9およびPython3.10などの新しいランタイムへの対応も進めています。
    キャプチャ7.PNG

Streaming Pipeline

これまで、ストリーミングデータをSnowflakeに取り込むには、外部のストリーミングサービスからS3にデータを取り込み、そこからイベント連携でバッチ処理でSnowflakeに取り込むなどしかできませんでした。しかし、以下の新機能を組み合わせることによって、継続的なストリーミングデータの取り込みから加工処理を自動で行うデータパイプラインを構築することが可能になります。

  • Snowpipe Streaming GA soon
    KafkaやKinesisなどストリーミングサービスを利用して、直接テーブルにロードすることができます。
  • Dynamic Table Public Preview
    Dynamic Tableを宣言するだけで、データパイプラインにおける加工処理を実行することができます。

[Demo]
プラスチック製品を生産する射出成形機のセンサデータを収集し、メンテナンスデータと照らし合わせて分析する継続的なデータパイプラインを構築します。これによってリアルタイムで品質管理のための分析をすることができます。
まず始めに、射出成形機からのセンサーデータを取り込むために、Kafka コネクタとの連携を定義したSnowpipe Streamingを構築します。
続いて、Dynamic Tableを使ってパイプラインを作成します。Dynamic Tableの定義では、変換の出力内容をSQLとして定義するだけで構築できます。LAG='1 min'とすることで、1分毎に更新処理が行われます。
2つ目のDynamic Tableでは、1つ目のDynamic Tableの内容とマシンの位置情報を結合します。
Dynaminc Tableはビューとは違い常に実体化されているためパフォーマンスが高く、かつ更新は差分のみが処理されるため低コストとなる。更に複雑なパイプラインの定義(タスクとStreamの構築など)も不要です。
各テーブルのRefresh Historyの画面で、過去24時間の更新状況を確認することもでき、グラフ画面で、各テーブルの依存関係を見ることもできます。
また、別機能ですが、LLMを使用してコメントした内容からDynamic Tableを定義するためのDDL文を自動生成することも可能です。

キャプチャ9.PNG
キャプチャ10.PNG
キャプチャ11.PNG
キャプチャ12.PNG

AI/ML

SnowflakeはAI/MLのソリューションを構築するためのプラットフォームとして成長を遂げていて、特徴量エンジニアリング、学習、評価まですべてのAI/MLライフサイクルをサポートしようとしています。

  • Snowpark Modeling API Public Preview
    One-Hot Encodingなどの前処理を行うことができる「snowflake.ml.preprocessing」および、分散アルゴリズムを使って学習することができる「snowflake.ml.modeling」で、一般的な機械学習モデルを構築することができます。

  • Snowpark Modeling Registry Public Preview
    Snowpark Modeling APIで学習したモデルを管理することができます。
    IMG_0187.jpg

  • Streamlit
    Snowpark Modeling APIで学習↓モデルを別ユーザに提供したいというニーズは非常に大きいものと予想されていますが、そのニーズに応えるサービスとしてStreamlitがあります。
    Streamlitでは新たに2つの関数が提供されます。

    • st.chat_input()
      アプリケーションの画面にデータフレームを表示させている時に、アプリケーションの画面から編集したい項目のデータを触ることでデータを直接入力することができます。これにより、アプリ画面上からデータを書き換えることでAIによる予測結果をインタラクティブに書き換えることができます。
    • st.chat_message()
      この関数を利用するだけで、簡単にChatbotを実装することができます。
  • Streamlit in Snowflake Public Preview Soon
    Streamlit in Snowflakeはもうまもなくパブリックプレビューとなります。現在はプライベートプレビューですが、既に2000以上のアプリケーションがSnowflakeの中で構築され、公開されている状況です。
    IMG_0192.jpg

  • Snowpark Container Service Private Preview
    Snowparkをリリースした後、JavaとPython以外にもより多くのランタイム、言語、ライブラリをサポートできるようにしたいというモチベーションから、Snowflake Container Serviceという機能が実装されました。これにより、Snowflake内でDockerコンテナをホストすることができ、コンテナサービスの起動停止やジョブとしての公開、SQLステートメントやSnowparkアプリケーションで実行可能なプロシージャや関数を呼び出すことができます。さらにコンテナサービスのハードウェアの種類やメモリ、GPUの有無など様々なパターンから選択が可能です。
    IMG_0193.jpg

[Snowpark Container Serviceによる機械学習デモ]
スキーゴーグル生産において機械の故障を予測・防止するためのモデルをトレーニングする。
Snowpark Container Serviceは自身が開発したコードもコンテナも簡単に実行可能で、さらにMarketplaceからインストールしたSnowflake Native Applicationとしてサードパーティのコンテナを実行することができます。Nativeアプリ以外のサードパーティ製品の場合、ネットワークやアカウント連携のための設定が必要になりますが、Snowpark Container Serviceを実装したことで、Snowflake Native ApplicationとしてHexのようなコンテナアプリをSnowflakeで管理することができるようになりました。NVIDIA GPUも利用することができるため、モデルの学習を高速化することができます。学習は時間の関係上事前に行っていたが、5000万レコードのデータセットを17分で完了していたそうです。NVIDIAなしの場合は10倍以上の時間がかかったため、NVIDIAなしに比べて2倍のコスト削減になります。
キャプチャ13.PNG
キャプチャ14.PNG

Platform for Large Language Models

SnowflakeはAIアプリケーションを開発するための要素をすべて持てるようになりました。
IMG_0195.jpg

パートナーシップ契約の発表

以下サービスとのパートナーシップ契約を発表しました。

  • NVIDIA
  • A21labs
  • Reka

さらに、Snowpark Container Serviceに対応したサードパーティ製品の簡易デモが10連続で紹介されました。

  • Astronomer
    キャプチャ15.PNG

  • Alteryx
    キャプチャ16.PNG

  • SAS
    キャプチャ17.PNG

  • Dataiku
    キャプチャ18.PNG

  • HEX
    キャプチャ19.PNG

  • NVIDIA
    キャプチャ20.PNG

  • CARTO
    キャプチャ21.PNG

  • W&B
    キャプチャ22.PNG

  • RelationalAI
    キャプチャ23.PNG

後書き

Snowflake Summit 2023のSnowflake Summit Opening Keynoteの様子をお届けしました。Native Application Framework, Snowpark Container Serviceなど新しいサービスは衝撃的でした。特にNative Application Frameworkは新しいビジネスモデルから創出しているものであり、ユーザが積極的にコミットして活性化することで真価を発揮するものだと感じました。まだまだ、Public PreviewやPrivate Previewの機能はありますが、1時間半のキーノートでこれだけ多くの新機能が発表されているのはすさまじい企業努力の賜物だと思います。これだけ日々進化し続けるSnowflakeの動向を追い続けるのは非常に大変ですが、Snowflakeパートナー企業の一員として日々情報のアップデートと発信をして、今後ともユーザコミュニティで積極的に盛り上げていきたいと思います!

ページ下部にその他のKeynoteや個別セッションの記事のリンクを用意しますので、ぜひご覧ください。

Snowflake Summit 2023関連記事

Snowflake Summit 2023 現地レポート Day1 - Partner Summit -
Snowflake Summit 2023 現地レポート Day1 - Generative AI's Impact on Data Innovation in the Enterprise -
Snowflake Summit 2023 現地レポート Day3 - Builder Keynote -
Snowflake Summit 2023 現地レポート Day4 - Panel Discussion: Predictions on Generative AI and LLM in the Enterprise -
 

仲間募集

NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。

  1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
  2. データサイエンス領域(データサイエンティスト/データアナリスト)
    3.お客様のAI活用の成功を推進するAIサクセスマネージャー
    4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》

ソリューション紹介

~データ資産を分析活用するための環境をオールインワンで提供するソリューション~

https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。

Trusted Data Foundationについて

~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~

https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。

TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について

NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。

https://enterprise-aiiot.nttdata.com/service/snowflake

NTTデータとSnowflakeについて

データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。

https://enterprise-aiiot.nttdata.com/service/informatica

NTTデータとInformaticaについて

NTTデータは、お客様企業のデジタル変⾰・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活⽤戦略の⽴案から、AI技術の活⽤も含めたアナリティクス、分析基盤構築・運⽤、分析業務のアウトソースまで、ワンストップの⽀援を提供いたします。 https://enterprise-aiiot.nttdata.com/service/databricksNTTデータとDatabricksについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。 これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。 また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。

https://enterprise-aiiot.nttdata.com/service/tableau

NTTデータとTableauについて

Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。 導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。 NTTデータとAlteryxについて

https://enterprise-aiiot.nttdata.com/service/alteryx

NTTデータとAlteryxについて

DataRobotは、包括的なAIライフサイクルプラットフォームです。 NTTデータはDataRobot社と戦略的資本業務提携を行い、経験豊富なデータサイエンティストがAI・データ活用を起点にお客様のビジネスにおける価値創出をご支援します。

https://enterprise-aiiot.nttdata.com/service/datarobot

NTTデータとDataRobotについて
16
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
16
5