はじめに
株式会社NTTデータ デザイン&テクノロジーコンサルティング事業本部 の nttd-tamurasua です。
Databricksのエバンジェリスト資格 Databricks Champion の認定を受けています。
Data + AI Summitは、Databricks社が毎年開催する最大規模のカンファレンスです。今年のテーマは 「DATA INTELLIGENCE FOR ALL」 であり、6月10日から6月13日までの4日間にわたって行われています。今年は過去最高の16,000人以上が現地から参加しており、500以上のセッションと130以上のスポンサーブースが展示されています。
本日(6月12日)のKeynoteでは、Generative AI と Databricks SQL/BI の機能に関するアップデートが発表されました!
本記事では、Databricks SQL/BIについてのアップデートや、Keynote後半の講演についてお届けします!Generative AI についてはこちらの記事をご覧ください。
その他の「Data + AI Summit 2024 - Databricks」のコンテンツについては、関連リンクからご参照ください。
FEI-FEI LI氏講演
スタンフォード大学教授のFEI-FEI LI氏による、AIの歴史と未来に関する講演が開かれました。
キーワードとしては「Intelligence」であり、視覚を例として、生物とAIにおける「みえる」と「わかる」(≒Intelligence)の関係性や、今後のあるべき姿を説いたものでした(ここはいろいろな解釈があると考えております)。内容をピックアップしていきます。
- 昔は視覚がなく「みえない」状態だったため、そこから「わかる」状態にならなかった。
- 生物が進化の過程にて視覚を得たことで、いろいろなことが「わかる」ようになった。
- 近年のModern AI Revolutionは、Neural networks、Bigdata、GPUによるものである。
- たとえばObject Detectionなどは、画像から部分とラベルを推定するものであり、それはAIが「わかる」状態になったということである。
- AIの「みえる」状態から到達できる「わかる」が高度化しており、最近だと3次元の仮想空間にて、仮想的にロボットのトレーニングをシュミレーションできたりする。
- AIは人類の「わかる」を助けるものであるべきだ。
特に最後の一文ですが、現在AIによるハルシネーションなどの問題がある中で、AI開発を行っていく際の心の拠り所になりえる言葉だなと思いました。
直接的なDatabricksの話は出てはきませんでしたが、AIとの付き合い方を考えるうえで非常に参考になると思います。
JENSEN HUANG (NVIDIA CEO) 氏講演
NVIDIAの創設者でありCEOである、JENSEN HUANG氏が登壇し、Ali氏とのQA形式の対談が行われました。
DatabricksとNVIDIAは3月に強固な連携を発表したばかりで、どのようなかかわりをしていくのかが注目されておりました。JENSEN氏からは、「演算環境と、その加速化をDatabricks社に提供していく」という発言もありましたため、今後の性能改善に大きな期待が持てると感じております。
個人的に印象的だったQAをピックアップしていきます。
Q. LLMのモデルについて、OSSか汎用モデルか、どっちが重要?
A. OpenAIなどの汎用モデルはその名の通り汎用的で素晴らしい。一方で、LAMA2と、DBRXは「かっこいい」。なぜなら、すべての企業をAI起業になり得る状態にした。Q. 各企業内でエキスパートを作っていくべきか。
A. DatabricksをはじめとしたDataの民主化の取り組みによって、各企業がそれぞれIntelligenceを作成して、産業革命のようなことが起きつつある。ただ、AIに自信がある企業はその中でもほんの一握り。ただ、どの業界もIntelligenceを作成していくことになる。
また、私が最も感銘を受けたメッセージは以下でした。
せっかくDatabricksがいいもの作ってくれているのだから、とりあえず使ってみてください。使ってから考えるくらいのスピード感でないと置いて行かれます。
Databricks SQL
Databricks SQLについての説明がありました。以下の3トピックからDatabricks SQLの歴史を紐解いていったような形でした。
- ケイパビリティ
- パフォーマンス
- 簡単な利用
特に、「簡単な利用」の中で、最近のAIを利用したDatabricksSQLの利用シーンの解説やデモもあり、そちらがとても興味深かったです!
ケイパビリティ
Databricksが対応しているツールの一覧がありました。歴史と努力を感じますね。
パフォーマンス
Lakehouseを軸に、どのようにパフォーマンス改良を行ってきたのかを説明していました。
以下の三つの機能は(おそらく)新機能として説明されていました。どれも「Databricksが良しなにやってくれる性能改善」系の機能のようで、選択肢があることは素直に嬉しいですね。
- Automatic liquid clustering key selection(リキッドクラスタリングするカラムを自動で選択してくれる)
- Auto statistics(統計情報が必要なカラムについて自動取得してくれる)
- Predictive I/O 2.0(ディープラーニング技術を適用してデータを読み取るための最も効率的なアクセスパターンを自動決定し、スキャンのパフォーマンスを向上させる)
改良を繰り返していったことで、所要時間や同時実行時の性能が他社製品より優れたものになっていたということを示していました(笑)。
また、ベンチマークではなく、実際に繰り返し利用されているBIのクエリについての性能を測ったところ、73%も早くなっているとのことです。
※生成AIの文脈でもありましたが、今回のDatabricks Keynoteは、実際のユースケースに非常に寄り添った発表が多くみられており、非常にユーザ側に重きを置いてくれている気がしますね。
簡単な利用
データリネージやエラーメッセージの出方など、どこまでわかりやすく利用できるかを重視していました。
また、SQL分析に利用できるAI系機能として、以下の3つが取り上げられていました。
- Databricks Asistant(自然言語からクエリを生成する機能)
- AI Functions(クエリの中でAIにアクセスする機能)
- Vector Search(条件として与えたテキストのベクトルから、類似したテキストが含まれるレコードを抽出する機能)
※Vector Searchでは、「ピザ」と検索したら「ピッツァ」も引っかかるようなイメージになり、表記ゆれや同義語に強い機能だといえます。とはいえ、正確性とのトレードオフにもなりますので、ユースケースによっては利用が難しいかもしれませんが、アドホックな分析であればガンガン利用できそうです。
上記機能を利用した分析デモでは、自然言語で生成したクエリに対して、Vector Searchでざっくりとしたレコード検索をしたり、AI Functionでreviewコメントのポジネガの可視化をしたりしていました。
これまではSQLで過去のデータを可視化し、データをPythonに引き渡しAIで推論し、そのデータをさらにSQLで可視化する必要がありました。面倒ですよね。これをSQLだけで簡単に実現できるのは、AI+BIをコンセプトにするDatabricksならではの機能だと思います。また、AI Functionsのバリエーションも多く、フィットするユースケースも多く存在しそうですね。差別化の難しいDWHの中でもAI企業ならではの強みを活かした機能アップデートだと思いました。
AI/BI
AI/BIダッシュボード(旧LakeView)の文脈にて、Genieがアナウンスされました!
Genieは、対話型の複合AIで、ユーザの自然言語からクエリやダッシュボードを生成できます。そして、以下の特徴がミソで、データ内容(≒実際のユースケースに沿った内容)の対話が可能になっています。
・ユーザの返答から学習する。
・UnityCatalog上のデータやメタデータを把握しており、データに関する質問をすることができる。
・関連するアセット(Notebook、ダッシュボード、クエリ)の内容を把握している。
データの内容について自由にAIに質問できるのは、データ利活用を実際に行う分析ユーザの生産性向上につながりやすいと考えております。また、データ照会対応などの運用負荷を下げることも期待できます。
Genieを利用したデモも実施しておりました。デモの内容は、ダッシュボードを利用している最中にGenieの画面に推移し、ダッシュボードの元テーブルに対して英語でいろいろな問い合わせをしていました。
LLMを活用するうえでの大きな課題であるハルシネーションを最大限に軽減する仕組みがあるのは素晴らしいですね!
おわりに
本日はKeynote一日目の速報をお届けしましたが、いかがでしたでしょうか。
Data and AI Summit 2024のKeynote後半戦は6月13日に行われる予定ですので、明日以降も更新を続けていきます。どうぞお楽しみにしてください!
関連リンク
- Data + AI Summit 2024 - Databricks 現地レポート(6/12 Keynote)#1
- Data + AI Summit 2024 - Databricks 現地レポート(6/12 Keynote)#2 #本記事
- Data + AI Summit 2024 - Databricks 現地レポート(6/13 Keynote)#1
- Data + AI Summit 2024 - Databricks 現地レポート(6/13 Keynote)#2
仲間募集
NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、 お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、 お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。
OSSチーム紹介 | NTTデータグループ
株式会社NTTデータグループ OSS(オープンソースソフトウェア)チームは、Hadoop/Spark/Kafka/HBaseなどの高難易度なOSSプロダクトのサポートを提供 しています。OSSコミュニティ活動やプロジェクト支援を実施するとともに、OSSでは提供しきれない中長期的なサポートも提供しています。チームには、 Hadoop/Spark/Bigtopなどのコミッタも在籍 しております。OSSを扱う時にお困りの際にはぜひお気軽にお問い合わせください。
- 問い合わせ・HPはこちら:https://oss.nttdata.com/
- 登壇資料などSlideShareはこちら:https://www.slideshare.net/hadoopxnttdata
NTTデータとDatabricksについて
NTTデータは、お客様企業のデジタル変⾰・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活⽤戦略の⽴案から、AI技術の活⽤も含めたアナリティクス、分析基盤構築・運⽤、分析業務のアウトソースまで、ワンストップの⽀援を提供いたします。NTTデータとSnowflakeについて
NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
NTTデータとAlteryxについて
Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。