はじめに
株式会社NTTデータ NTTデータ テクノロジーコンサルティング事業本部 デジタルテクノロジー&データマネジメントユニット の nttd-yuan です。
Databricksのエバンジェリスト資格 Databricks Champion の認定を受けています。
本記事では、基調講演の2日目(6月29日)の後編の速報を現地からお送りします!
基調講演の1日目やその他の「Data and AI Summit 2023 - Databricks」のコンテンツについては、関連リンクからご参照ください。
基調講演(6月29日)
本日の基調講演では、Apache SparkとDelta Lakeの最新アップデートが注目されました。また、LangChain、DuckDB、PyTorchなどのオープンソースプロジェクトや、Computer Visionの最新動向についても説明がありました。
Apache SparkとDelta LakeはData and AI Summit 2023 - Databricks 現地レポート(6/29 基調講演)#1にてお届けいたしました。本稿ではその他の部分についてお届けします。
パネルディスカッション: AIとLLM
この会話は、Matei Zaharia氏(Databricksの共同創設者、チーフテクノロジスト)、Michael Carbin氏(MosaicML共同創設者、マサチューセッツ工科大学電気工学・コンピュータサイエンス学科准教授)、Dawn Song氏(カリフォルニア大学バークレー校 電気工学・コンピュータサイエンス学部 教授)、Daniela Rus氏(マサチューセッツ工科大学(EECS)教授、コンピュータ科学・人工知能研究所(CSAIL)所長)の4人によるパネルディスカッションです。彼らは最近のAI研究の進展、及びAIを扱う実践者が考慮すべき重要な点ついて議論しました。
Michaelは、LLMの効率性という観点で意見を述べました。彼の研究では、非常に大きなモデルをはるかに小さくする方法を見つけました。Mosaic MLでは、これらの効率性の視点を基に、誰もが利用しやすい大きなLLMを実現する方法に取り組んでいると述べました。
Dawn氏は、LLMを使用してセキュリティ領域でも大いに活用できると述べました。彼女の研究では、LLMを使用してセキュリティ監査を改善し、異常な取引を特定し、プライバシーの問題に取り組んで興味深い成果を出したことを言及しました。
Daniela氏は、「リキッドネットワーク」というコンパクトな機械学習手法を紹介しました。これは、時系列データを持つアプリケーションに対して使用できます。彼女は、リキッドネットワークがエッジデバイスやロボットアプリケーションでどのように活用できるかを説明しました。
また、実践者が注目すべきAIの新しいアイデアやアプローチについても議論しました。Michaelは、学習データの少量化の重要性と、特定のドメインに適した小規模なモデルの構築の可能性について強調しました。Dawnは、AIモデルを使用する際にセキュリティとプライバシーの課題に対処する必要性を強調しました。Danielaは、AIモデルの厳格なテストと評価、およびその使用に対する信頼の構築の重要性を強調しました。
彼らはそれぞれの研究領域の洞察を提供し、興味深い話を聞かせていただきました。彼らのような熱心な研究者がいることで、AIのさらなる発展を楽しみにしています!
DuckDB
DuckDB LabsのCEOであるHannes Muhleisen氏によってDuckDBが紹介されました。
DuckDBは、無料で利用可能なオープンソースのインプロセスデータベースであり、柔軟で小型ながら非常に高速なSQLクエリエンジンを備えています。DuckDBは機械学習の準備作業に適しており、PythonパッケージやJupyter Notebookを介してアクセスできます。また、PyTorchやTensorFlowなどのシステムとの統合も可能であり、データの整形結果をこれらのライブラリに直接送ることができます。さらに、DuckDBはプロセス内で実行されるため、機械学習ライブラリが実行される環境と同じ環境に既に存在しているため、データの転送はほぼ瞬時に行われます。DuckDBはまだ比較的新しいプロジェクトですが、非常に活発な開発コミュニティがあり、将来の拡張や機能の追加が期待されています。興味があれば、公式のDuckDBウェブサイトを訪れて詳細を確認してみてください!
Langchain
Langchainの共同創業者であるHarrison Chase氏によってLangchainが紹介されました。
Langchainは、オープンソースの開発フレームワークであり、LLM(Language Model)を使用したアプリケーションの開発をサポートします。Langchainは、LLMモデルへの標準的なインターフェースを提供し、LLMモデルの入力と出力の管理、出力の解析を支援します。また、ドキュメントのロードやベクトルストアとの統合など、他のコンポーネントとの統合もサポートしています。
Harrisonの講演では、Langchainが注目している3つの領域についても触れられていました。1つ目はリトリーバル(情報検索)であり、最近のデータや個人データに基づいてLLMモデルに質問をするための技術です。2つ目はエージェントであり、LLMモデルを推論エンジンとして使用し、アクションを決定するための手法です。3つ目は評価であり、MLアプリケーションの信頼性を評価するためのプラットフォームや評価指標の開発に取り組んでいます。
また、LangchainはDatabricksとの統合もサポートしており、LLMエンドポイントやMLflow、Sparkとの連携も可能です。
最後に、Harrison Chase氏はMLとAIの時代において、LangchainとDatabricksの活用を呼びかけ、多くの素晴らしいアプリケーションの開発を期待しています。
Fireworks
元PyTorch代表、Fireworks CEOであるLin Qiaoよって、Fireworksが紹介されました。
Fireworksは、開発者中心のAIを加速するためのプロダクトイノベーションのプラットフォームです。PyTorchを基にしており、柔軟性に優れたAIモデルの開発が可能です。AIと深層学習は30年以上前から研究のトピックであり、PyTorchは研究者によるイノベーションを促進し、モデルの品質向上に貢献しています。
AIのパラダイムシフトが起きており、従来は個々の開発者や機関がデータを収集し、モデルをトレーニングしてから本番環境に展開するのが一般的でした。しかし、AIの発展により、より少ないデータでカスタマイズし、興味深い製品を迅速に構築できるようになりました。
Fireworksは継続的なテストと評価を可能にし、常に最適なモデルをプロダクトに組み込む環境を提供しています。また、低コストで高品質なモデルを提供することにも注力し、世界中の開発者が製品の探求と革新に集中できるようサポートしています。
Fireworksのプラットフォームは、研究からプロダクションまで一貫したエクスペリエンスを提供し、AI開発者のコホートを急速に成長させています。AIモデルの品質向上やコスト削減を実現することで、多くの企業がFireworksを活用し、幅広い領域で応用されています。
Computer Vision
次のスピーカーはコンピュータビジョンの分野で先駆者であるJitendra Malik氏です。彼は以前、FacebookでAI研究の責任者を務め、UC Berkeleyの著名な教授でもありました。彼の講演では、最新のAI応用がロボティクスに与える影響について話しました。
彼はAIの分野で成功している一方で、ロボティクスや自動運転車の分野では困難に直面していると述べました。AIの成功は主に大量のデータと深層学習に基づいていますが、特に言語モデルはWeb上の膨大なデータからトレーニングできる一方で、ロボティクスやセンサーモーター制御では個別のデータを大量に収集する必要があり、新しい手法が必要であると述べました。
彼の研究グループでは、ロボティクスにも取り組んでおり、特にモーター制御の適応性に焦点を当てています。彼は、シミュレーションを使用してロボットをトレーニングし、外部条件を推定するための適応モジュールを使用することで、異なる状況に対応できる汎用的なポリシーを構築する方法を紹介しました。
彼はロボティクスにおける機械学習とAIの重要性を強調し、柔軟性と適応性が求められると述べました。また、幼児のような段階的な学習のアプローチがAI全般において必要であると主張しました。
対談: AIの未来
最後に登場したのは、注目度の高いGoogleの元CEOであるEric Schmidt氏とDatabricks共同創立者であるArsalan氏です。彼らはAIの将来の展望について議論しました。
Ericは、この世界には大型な基盤型モデルと特化型モデルの2種類が必要であると主張しました。また、学習データの品質や管理の重要性、そして人間のフィードバックがAIモデルの改善に不可欠であることを述べました。
さらに、AIの規制についても議論が行われ、特に情報の誤情報やサイバー攻撃、生物学的脅威などの問題に対処する必要性があると述べました。
最後に、AIの普及が進むにつれ、様々な業界や企業で活用されることが予想されると述べました。
終わりに
6月29日の基調講演のレポートは以上となりますが、内容を楽しんでいただけましたでしょうか。ChatGPTの一般利用が始まって以来、LLMが爆発的な人気を集め、関連技術の発展を牽引していると感じています。これにより、AIのさらなる発展が期待できます。ただし、信頼性のあるLLMの利用には、セキュリティやプライバシーについて十分に考慮することが重要だと感じました。
基調講演のYouTube動画もDatabricksによって公開されていますので、興味を持たれた方はぜひそちらもチェックしてみてください!
関連リンク
- Data and AI Summit 2023 - Databricks 現地レポート(6/27 Parner Summit)
- Data and AI Summit 2023 - Databricks 現地レポート(6/28 基調講演)#1
- Data and AI Summit 2023 - Databricks 現地レポート(6/28 基調講演)#2
- Data and AI Summit 2023 - Databricks 現地レポート(6/29 基調講演)#1
- Data and AI Summit 2023 - Databricks 現地レポート(6/29 基調講演)#2 ※本記事
- Data and AI Summit 2023 - Databricks 現地レポート(EXPOブース)
仲間募集
NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、 お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、 お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。
NTTデータとDatabricksについて
NTTデータは、お客様企業のデジタル変⾰・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活⽤戦略の⽴案から、AI技術の活⽤も含めたアナリティクス、分析基盤構築・運⽤、分析業務のアウトソースまで、ワンストップの⽀援を提供いたします。NTTデータとSnowflakeについて
NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
NTTデータとAlteryxについて
Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。