Dataikuは9月8日(金)開催のSnowflake Data Cloud World Tourに出展します。Dataikuブースでお待ちしています!
組織をコントロールしながら、革新的なテクノロジーを実用的かつ広範に導入するにはどうすればいいのでしょうか?その答えは、分解してみると実はとてもシンプルです。すなわち、トピックリテラシーを獲得し、適切なプラットフォームを選択することです。テクノロジースタックを強化する一方で、既存の知識ベースを活用し、価値の高いプロジェクトに取り組む専門家の才能を引き出すことで、組織は柔軟性と競争力を高め、優位に立つことができます。しかしまずなにより、基盤を確立し、責任ある再現可能なデータと機械学習(ML)プロセスを生み出すコンセプトを徹底的に明確にすることなしに、AI活用の拡大は本質的に不可能といえます。
Dataikuは、これらの重要なコンセプトを実現するためにデータ準備とMLOpsの主要機能を備え、Snowflakeのような他の重要なプレーヤーとシームレスに統合できるように設計されています。貴社の機械学習の取り組みをこれまで以上に簡単に立ち上げ、維持し、成長させることができます。
Snowflakeでデータ準備とモデル推論を柔軟に拡張するには
DataikuのソリューションエンジニアであるKyle Berryは、シカゴで行われたEveryday AIカンファレンスのセッションに、SnowflakeのシニアセールスエンジニアであるJennifer Wylieと共に参加しました。このセッションでは、Snowflakeの革新的なクラウドアーキテクチャーを使用し、SQLとPythonでデータ変換を、Dataikuという一貫した環境の外で動作するパフォーマンスエンジンで実行する方法について紹介しました。
"データサイエンティストの66%がデータの準備に時間を費やしています” - Jennifer Wylie
Snowflakeのゴールは、データ整理とクレンジングに費やす無駄な時間を最小限に抑え、データ準備を簡単で迅速な仕組みに変えることで、データサイエンティストのワークロードを解放し彼らがより付加価値の高いプロジェクトに取り組めるようにすることです。では、SnowflakeはDataikuと共にどのようにこの目標に向かっているのでしょうか?)
Wylie氏の言葉を借りれば、"SnowflakeはDataikuに力を与えます"。DataikuとSnowflakeは、Snowflakeのスケーラビリティーの高い計算能力と柔軟な処理能力と、Dataikuの機械学習およびモデル管理機能を組み合わせた、相互補完的なソリューションです。
DataikuのGUI(グラフィカルインターフェース)はユーザーに直感的に操作できる環境を提供します。AWSやAzureからSnowflakeにあらゆるタイプのデータ(構造化、半構造化、非構造化)をシームレスにアップロードして取り込むことができるので、プロジェクトをキックスタートできます。SnowflakeとDataikuを組み合わせることで、データを迅速にクレンジグし、最適なフォーマットに変換して必要な場所に配置することができます。Snowflakeはクラウドコンピューティングのためにクラウド上に構築されており、コンピュートクラスターを簡単にスケーリングすることによってクラウドサービスが提供するスケーラビリティーをフルに活用することが可能です。
→SnowflakeとDataikuで最適化されるAIソリューションとは
SnowflakeとDataikuを使えば、データ準備に効率的に取り組み、スケーリングできることがお分かりいただけたと思います。次に、Dataikuの強力なMLOps機能についてさらに深く見ていきましょう。
貴社のMLOps戦略はどうなっていますか?
DataikuのプリンシパルソリューションエンジニアであるCatalina Herreraは、マイアミで行われたEveryday AIカンファレンスのセッションで、人、プロセス、テクノロジーを結びつけることは(とくに間違ったプラットフォームで作業している場合は)以前として間違いなく困難であることをリマインドしました。ここで注目すべきがMLOpsです。しかし、管理が不十分なMLOps戦略では、チャンスをまな板の上に置き去りにし、さらにはリソースを無駄に消費します。
ビジネスユースケースに合わせた構築
機械学習はパイプラインであり、パイプラインに関連する各アーティファクトは、その根本に、つまり解決しようとしているビジネスユースケースにつながる必要があります。そのためには、ビジネスチームのドメインの専門家が、データサイエンスチームのデータ専門家と共に、始めから終わりまで効率的に働けるようにする必要があります。
「garbage in is garbage out(ゴミを入れたらゴミが出てくる)」という昔からの格言を聞いたことがあるでしょう。モデルの真のビジネスインパクトと重要性を理解し、明確に説明できなければ、そのモデルは結局、組織にとって役立たずのものになってしまいます。最初からKPIを念頭に置いてモデルを設計し、途中で適切なモデルの検証を確実に行うことは、長期的な成功と機械学習の取り組みを全体的にサポートするために非常に重要です。
人材をつなぐ
現実的に、組織内の人材のプールは、さまざまなスキルセットとさまざまな知識背景を持つ個々人で構成されています。このような意見や専門知識の多様性は、意思決定を豊かにすると同時に、ものごとを進めるべく統一されたアプローチを採るために、合意点を見つけなければならないという新たな課題も生み出します。単純ですが重要な例として、データサイエンティストがそれぞれ好むプログラミング言語が異なることが挙げられます。言語と多様なデータソースの間でつながりを提供しなければ、有害なサイロが形成されてしまいます。このようなギャップは、規模が大きくなるにつれてますます誇大化され、やがて埋めるのが難しいことに気づくでしょう。Dataikuは、このつながりとして機能します。
コラボレーションのためのプラットフォームであるDataikuは、実際に多様なデータソースを統合し、異なる言語による作業をマージし、最終的に一元化された圧倒的な視覚的インターフェース上に洞察を出力することができます。
本番稼働のためのデプロイ
一つのモデルが試行錯誤の末に成功を収めれば、チームにはますます多くのモデルが求められるようになります。しかし、このようなモデルを供給するためには、規模を拡大する中でもアーティファクトが共有されなければならず、コミュニケーションは一貫し信頼できるものでなければなりません。悪いコミュニケーションはリスクとなり、負担したくないコストに変わります。デプロイメントに至るあらゆる段階で説明可能性と透明性を高めながら、問題の芽を摘むことが最善の策です。併せて、増え続けるモデルを成功裡の運用化することをサポートし続けなければなりません。よく練られたMLOps戦略では、各領域の専門家、技術的エバンジェリストなど、さまざまな関係者の賛同を得て、フィードバックループを構築することに細心の注意を払います。
Dataikuは、あらゆるレベルで可視性を高めるコラボレーションツールを提供します。こうすることで、導入の準備が整った時点で、誰もが最終的な目的を理解しているため、抵抗に対抗したり、サプライズに奔走したりする必要がなくなります。
成功のレシピ
しかし、ご存知のように、機械学習モデルを展開をすればいいというだけではありません。現実問題として、機械学習モデルは永遠に正確なわけではありません。影響力のある新しいデータが入り込み(あるいは殺到し)、それに応じてモデルを更新する必要があります。さらに、インフラはビジネス目標とともに進化し続けるので、レジリエントなプラットフォームを持っていることが今後の最善の保証となります。
Dataikuを使うことで、機械学習モデルを実際に利用されるものにすることができるだけでなく、再利用可能で、透明性のあるものにできます。いま持っているスキルで作業することができ、将来利用することになるテクノロジーとスキルでも同じ作業を再利用することができます。このように、このプラットフォームは、すべてのデータと機械学習プロセスの間の将来を保証する接着剤の役割を果たします。さらに、DataikuのGovern機能では、技術的な意見を取り入れ、エンドツーエンドのフレームワークに完全に統合されたコアとなるMLOpsのフィードバックループを作成することができるため、機械学習モデルを予測実践に移行させることができます。
技術スタックを強化し、個々人に力を与え、コミュニケーションをスリム化し、データおよび機械学習プロセスを全体的に最適化するという点で、Dataikuは取り組みの価値を最大化するための最後の仕上げであり、かつ中核となる成分です。
原文:Powering Efficient Data Prep & Effective MLOps: Dataiku + Snowflake