前書き
株式会社NTTデータ テクノロジーコンサルティング事業本部 デジタルテクノロジー&データマネジメントユニット 所属の@Kento_Imamuraです。
現在、ラスベガスで開催されているSnowflake Summit 2023に現地参加しています。Snowflake Summitは、Snowflake社が年次で開催する最大規模のカンファレンスです。今年のテーマは「The World’s Largest Data, Apps, and AI Conference」で、6月26日から6月29日までの4日間にわたって開催されており、400セッション以上、200以上のパートナー企業が参加しています。
本記事ではDay2に行われたSnowflake Summit Opening Keynoteの内容をお届けします。
Snowflake Summit Opening Keynote
Opening Keynoteに行われた講演は以下のとおりです。
- Frank Slootman(Snowflake CEO)による講演
- Christian Kleinerman(Snowflake SVP, Product Management)氏による新機能の発表
SnowflakeのCEOと創業者であるFlank氏、Benoit氏の両名による講演と、SVPであるChristian氏による非常に多くの機能発表には会場中に大きな歓声がわき上がりました。
Frank Slootman(Snowflake CEO)による講演
講演では、Snowflakeによってサイロ化されたデータを打倒することをテーマに、Snowflakeが持つことのできるデータの種類やワークロード、そしてSnowflakeがどのようなユーザに寄り添ったサービスであるのかを語っていました。
-
データの種類
構造化データはもちろん、半構造化データや非構造化データに至るまで、すべてのデータを扱うことができるようになっています。
-
ワークロードの種類
すべてのワークロードをSnowflakeがサポートします。 -
ユーザ
データ分析者だけでなくすべてのユーザに対して寄り添った機能をSnowflakeは提供します。- アプリケーション開発者
- MLエンジニア
- データサイエンティスト
- SQL分析者
- ビジネスユーザ
そして、もう一つ重要なワードが「NO LIMITS」。
NO LIMITSとはアプリケーション・データ活用・Snowflakeの限界に挑戦し続けるということを意味します。あらゆる分野を網羅するデータクラウドとしてのSnowflakeにいかなる制限も設けないという強い意志を示すものでした。
Christian Kleinerman(Snowflake SVP, Product Management)氏による新機能の発表
新機能の発表に先立って、創業者であるBenoit Dageville(Snowflake President of Products)氏を中心に、Sridhar Ramaswamy(Snowflake SVP, Founder of NEEVA )氏, Mona Attariyan(Director of AI/ML Engineering)氏による対談が行われました。
要点をまとめると、彼らはデータクラウドがAIの基盤であるために、自然言語でのデータアクセスや統合がすぐできることが重要であると強調し、SnowflakeとしてAIとデータの力を顧客に提供することを目指していると述べていました。
ここから、お待ちかねのChristian Kleinermanによる新機能およびパートナー企業によるさまざまな製品発表が行われました。
新機能の内容をカテゴリごとに分けて、ご紹介します。
Single Platform
Unified Iceberg Table
当初のSnowflakeでは、データを評価するため内部ステージに取り込むことを第一とされていましたが、ユーザからのニーズにより、5年前に外部ステージを導入し、そして昨年はIceberg Tableに対応しました。しかし、外部テーブルとしてIceberg Tableを利用する場合に最高のパフォーマンスを提供することができませんでした。
そこで、Unified Iceberg Tableが提供されました。これは、Unmanaged ModeとManaged Modeの二種類があります。
- Unmanaged Mode
外部テーブルとして参照する場合よりも2倍以上のパフォーマンスが発揮できる。
- Managed Mode
Snowflakeの内部テーブルと同等のパフォーマンスが発揮できる。
Document AI
2年前に非構造化データをサポートしてから、どうすれば非構造化データから簡単に価値を引き出すことができるのかという相談が多くあったと語り、Document AIが発表されました。
Applicaによって、Snowflake内に保存したドキュメントを自然言語を使って問い合わせすることができます。
また、この問い合わせのレスポンスをテーブルに格納することができるため、別のユーザに共有することができます。
AIから得られる回答にフィードバックを返して、モデル精度の調整や再学習もすることができ、そのモデルも共有することができます。
Platform for Comprehensive Privacy
近年Snowflakeは、セキュリティ強化を重点的に行っており、プライベートなデータ製品やプライベートなAI/ML、そして、プロセス全体を監査する機能を持っています。以下5つの機能と監査ログによって、プライバシーを保護しています。
- Query Constraints
- Anonymization
- Differential Privacy
- Masking Policies
- Classification
- Auditing
Geospatial(地理空間)データのサポート拡大 Public Preview
Snowflakeによる高度な分析能力の強化の一環として、地理空間データのサポート範囲が拡大されました。球面でも、平面でもあらゆるタイプの空間ベクトルがサポートされています。
SQLからのMLモデル操作 Public Preview
より信頼性の高い時系列予測をすることができるMLモデルを構築することができます。これによって、何がメトリクスの変化に寄与しているのかを素早く分析して異常検出のアラートを発することができます。
これらは関数が提供されており、MLの専門的な知識を持たずに構築することができます。
パフォーマンスの向上
Snowflakeはパフォーマンスの向上に恒常的に取り組んでおり、Snowflakeパフォーマンスインデックス(SPI)が開発されました。昨年8月~今年4月までの改善によって、クエリ時間が15%向上しました。
Budgets, Warehouse Utilization
リソースがどのように消費され、その消費量に対して生み出される価値が満足するものであるか確認するニーズに応えて、予算のコントロールとウェアハウスの利用状況を可視化する機能が追加されました。
-
Budgets機能
選択したリソースのサブセットに対して予算を超えたときにアラートを受け取るだけでなく、予算手前のしきい値を任意に指定してアクションを実行することができます。 -
Warehouse Utilization機能
これまでユーザからウェアハウスの利用率を測定したいという要望があがっていました。今回その機能が発表されました。ウエアハウスのリソースがどれだけ使われているかという情報が、最新情報および任意の時点において表示させることができます。
Deploy, Distoribute, Monetize
アプリケーションのデプロイ、分散化、マネタイズができるプラットフォームを発表しました。
これまでのMarketplaceではデータの共有しかなかったですが、アプリケーションの共有ができるようになったことで、AppleのApp Storeのようにユーザによるアプリケーション開発が活性化して、新たなビジネスモデルが生まれてきます。アプリケーションのプロバイダーは収益を得ることができ、コンシューマーは車輪の再開発をする必要がなくなります。
cybersynの紹介
Snowflake Marketplaceにて提供されるデータ共有サービスを開発している会社です。
このサービスはSnowflakeのMarketplaceでしか提供されないサービスであり、今後Marketplace専用のアプリケーション開発をする企業が多く現れるのではないかと予測されます。
Native App Framework Public Preview
Snowflake Native Appは現時点で、25以上のプロバイダーに40を越えるアプリがパブリッシュされています。
アプリケーションのデプロイには、アプリ設定を記載するマニフェストファイルと、コンシューマーにインストールするアプリのセットアップスクリプトのみがあれば可能です。これらの資材をパッケージ化したのちにSnowflakeアカウントにインストールしてコマンドを実行することでデプロイができ、バージョン管理、収益化設定などを設定し公開することができます。
Custom Event Billing Public Preview
Marketplaceにてアプリやデータの課金形態を選択することができるようになりました。課金形態はユーザ単位で1回のみ課金、使用量ベースの課金などがあります。さらに、既に契約済みのクレジットから残高を消費してMarketplaceへの課金を行うことができるようになりました。
PROGRAMMABILITY WITHOUT TRADEOFFS
トレードオフなしで効率よくプログラミングをすることができる機能が複数提供されました。
Developer Experiences
-
Snowflake CLI
Snowflakeのを利用するツールとして、Python API, REST APIだけでなく、完全にオープンソースのツールであるSnowflake CLIを新たに提供します。開発者中心のユースケースにフォーカスしており、ロギングとトレース用のAPIもパブリックプレビューとなりました。ストアドプロシージャやUDFのデバッグ、アプリケーションのパフォーマンスをチェックすることができます。また、さらにGitとの連携をすることができるため、簡単にGitとSnowflake間でのコード同期をすることができるようになります。
-
Snowpark
2022年11月にリリースされたばかりの機能ですが、30%の顧客に利用されていて毎日1000満開以上のクエリが実行されている。Snowparkの導入前は、データサイエンスのワークロードを実行するためにSparkクラスタを別環境で用意して、Snowflakeからデータを移動させて分析する必要がありました。それがSnowparkを導入することによって、データサイエンティストはデータを移動させる必要なく、すぐにデータ分析を開始することができるようになりました。
このSnowparkがより便利に利用できるようにPython3.9およびPython3.10などの新しいランタイムへの対応も進めています。
Streaming Pipeline
これまで、ストリーミングデータをSnowflakeに取り込むには、外部のストリーミングサービスからS3にデータを取り込み、そこからイベント連携でバッチ処理でSnowflakeに取り込むなどしかできませんでした。しかし、以下の新機能を組み合わせることによって、継続的なストリーミングデータの取り込みから加工処理を自動で行うデータパイプラインを構築することが可能になります。
- Snowpipe Streaming GA soon
KafkaやKinesisなどストリーミングサービスを利用して、直接テーブルにロードすることができます。 - Dynamic Table Public Preview
Dynamic Tableを宣言するだけで、データパイプラインにおける加工処理を実行することができます。
[Demo]
プラスチック製品を生産する射出成形機のセンサデータを収集し、メンテナンスデータと照らし合わせて分析する継続的なデータパイプラインを構築します。これによってリアルタイムで品質管理のための分析をすることができます。
まず始めに、射出成形機からのセンサーデータを取り込むために、Kafka コネクタとの連携を定義したSnowpipe Streamingを構築します。
続いて、Dynamic Tableを使ってパイプラインを作成します。Dynamic Tableの定義では、変換の出力内容をSQLとして定義するだけで構築できます。LAG='1 min'とすることで、1分毎に更新処理が行われます。
2つ目のDynamic Tableでは、1つ目のDynamic Tableの内容とマシンの位置情報を結合します。
Dynaminc Tableはビューとは違い常に実体化されているためパフォーマンスが高く、かつ更新は差分のみが処理されるため低コストとなる。更に複雑なパイプラインの定義(タスクとStreamの構築など)も不要です。
各テーブルのRefresh Historyの画面で、過去24時間の更新状況を確認することもでき、グラフ画面で、各テーブルの依存関係を見ることもできます。
また、別機能ですが、LLMを使用してコメントした内容からDynamic Tableを定義するためのDDL文を自動生成することも可能です。
AI/ML
SnowflakeはAI/MLのソリューションを構築するためのプラットフォームとして成長を遂げていて、特徴量エンジニアリング、学習、評価まですべてのAI/MLライフサイクルをサポートしようとしています。
-
Snowpark Modeling API Public Preview
One-Hot Encodingなどの前処理を行うことができる「snowflake.ml.preprocessing」および、分散アルゴリズムを使って学習することができる「snowflake.ml.modeling」で、一般的な機械学習モデルを構築することができます。 -
Snowpark Modeling Registry Public Preview
Snowpark Modeling APIで学習したモデルを管理することができます。
-
Streamlit
Snowpark Modeling APIで学習↓モデルを別ユーザに提供したいというニーズは非常に大きいものと予想されていますが、そのニーズに応えるサービスとしてStreamlitがあります。
Streamlitでは新たに2つの関数が提供されます。- st.chat_input()
アプリケーションの画面にデータフレームを表示させている時に、アプリケーションの画面から編集したい項目のデータを触ることでデータを直接入力することができます。これにより、アプリ画面上からデータを書き換えることでAIによる予測結果をインタラクティブに書き換えることができます。 - st.chat_message()
この関数を利用するだけで、簡単にChatbotを実装することができます。
- st.chat_input()
-
Streamlit in Snowflake Public Preview Soon
Streamlit in Snowflakeはもうまもなくパブリックプレビューとなります。現在はプライベートプレビューですが、既に2000以上のアプリケーションがSnowflakeの中で構築され、公開されている状況です。
-
Snowpark Container Service Private Preview
Snowparkをリリースした後、JavaとPython以外にもより多くのランタイム、言語、ライブラリをサポートできるようにしたいというモチベーションから、Snowflake Container Serviceという機能が実装されました。これにより、Snowflake内でDockerコンテナをホストすることができ、コンテナサービスの起動停止やジョブとしての公開、SQLステートメントやSnowparkアプリケーションで実行可能なプロシージャや関数を呼び出すことができます。さらにコンテナサービスのハードウェアの種類やメモリ、GPUの有無など様々なパターンから選択が可能です。
[Snowpark Container Serviceによる機械学習デモ]
スキーゴーグル生産において機械の故障を予測・防止するためのモデルをトレーニングする。
Snowpark Container Serviceは自身が開発したコードもコンテナも簡単に実行可能で、さらにMarketplaceからインストールしたSnowflake Native Applicationとしてサードパーティのコンテナを実行することができます。Nativeアプリ以外のサードパーティ製品の場合、ネットワークやアカウント連携のための設定が必要になりますが、Snowpark Container Serviceを実装したことで、Snowflake Native ApplicationとしてHexのようなコンテナアプリをSnowflakeで管理することができるようになりました。NVIDIA GPUも利用することができるため、モデルの学習を高速化することができます。学習は時間の関係上事前に行っていたが、5000万レコードのデータセットを17分で完了していたそうです。NVIDIAなしの場合は10倍以上の時間がかかったため、NVIDIAなしに比べて2倍のコスト削減になります。
Platform for Large Language Models
SnowflakeはAIアプリケーションを開発するための要素をすべて持てるようになりました。
パートナーシップ契約の発表
以下サービスとのパートナーシップ契約を発表しました。
- NVIDIA
- A21labs
- Reka
さらに、Snowpark Container Serviceに対応したサードパーティ製品の簡易デモが10連続で紹介されました。
後書き
Snowflake Summit 2023のSnowflake Summit Opening Keynoteの様子をお届けしました。Native Application Framework, Snowpark Container Serviceなど新しいサービスは衝撃的でした。特にNative Application Frameworkは新しいビジネスモデルから創出しているものであり、ユーザが積極的にコミットして活性化することで真価を発揮するものだと感じました。まだまだ、Public PreviewやPrivate Previewの機能はありますが、1時間半のキーノートでこれだけ多くの新機能が発表されているのはすさまじい企業努力の賜物だと思います。これだけ日々進化し続けるSnowflakeの動向を追い続けるのは非常に大変ですが、Snowflakeパートナー企業の一員として日々情報のアップデートと発信をして、今後ともユーザコミュニティで積極的に盛り上げていきたいと思います!
ページ下部にその他のKeynoteや個別セッションの記事のリンクを用意しますので、ぜひご覧ください。
Snowflake Summit 2023関連記事
Snowflake Summit 2023 現地レポート Day1 - Partner Summit -
Snowflake Summit 2023 現地レポート Day1 - Generative AI's Impact on Data Innovation in the Enterprise -
Snowflake Summit 2023 現地レポート Day3 - Builder Keynote -
Snowflake Summit 2023 現地レポート Day4 - Panel Discussion: Predictions on Generative AI and LLM in the Enterprise -
仲間募集
NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
- クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
- データサイエンス領域(データサイエンティスト/データアナリスト)
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
ソリューション紹介
https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。Trusted Data Foundationについて
https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について
https://enterprise-aiiot.nttdata.com/service/snowflakeNTTデータとSnowflakeについて
https://enterprise-aiiot.nttdata.com/service/informaticaNTTデータとInformaticaについて
NTTデータとDatabricksについて
https://enterprise-aiiot.nttdata.com/service/tableauNTTデータとTableauについて
https://enterprise-aiiot.nttdata.com/service/alteryxNTTデータとAlteryxについて
https://enterprise-aiiot.nttdata.com/service/datarobot