多くの組織は、AI分析を試みる前に、データの管理や可視化に関するすべての機能を一律で実現する必要があると考えています。AIについて企画する前に、データカタログ、データリネージュ、マスターデータ管理、ビッグデータなどを含む従来の分析またはビジネスインテリジェンス(BI)分析を最初に完成する必要があると考えています。この従来の考え方にはメリットがありますが、機会費用が高くなり、リスクを伴います。この記事では、この一般的な前提が誤りであることを示し、組織(とくにアナリストと事業部門のマネージャー)が、従来の分析とAI分析の両方に優れた共通の機能フレームワークとツールを活用して、両方の機能を確立できる方法を紹介します。
データパイプラインが鍵を握る
ストレージのデータをBIによる洞察(そして最終的にはビジネス上の意思決定)へと変換するには、生データをデータと分析のパイプラインに通して処理する必要があります。
このプロセスは、データソースへのアクセスを取得し、それらへの接続を確立し、さまざまなデータセットを確実に検出できるようにすることから始まります。次に、探索的データ分析(EDA)と視覚化を実行して、データの感覚をつかみます。その後、データの準備とデータプロダクトの開発が行われます(BIの場合、データプロダクトには表、チャート、グラフ、ダッシュボードなどが含まれます)。最後に、データプロダクトを更新して再利用することを計画している場合は、それらと残りのデータパイプラインを展開し、それらが実稼働環境で機能することを確認する必要があります。
理想的な世界では、ストレージコンポーネントは完全に構築され、データパイプラインは堅牢なため、分析に自信を持ち、ビジネス上の意思決定を迅速に行うことができます。ストレージに関しては、データスキーマとストレージの種類、マスターデータの管理、データ品質の監視、クラウド/オンプレミスのアーキテクチャ戦略を整備する必要があるでしょう。
データパイプラインの場合、適切なガバナンス、完全なデータリネージュ、堅牢性とスケーラビリティー(データのサイズに関係なく)、データ準備とデータプロダクト開発によって実現される高い分析スループット、また意思決定者がデータを活用できる機能(なぜなら、理想的には、彼らが最もデータをよく知っているはずだからです)が必要になります。
しかし、多くの場合、そうはなりません。
実際には、ストレージ側では継続的な適応が行われています。新しいスキーマや新しいデータタイプとともに、新しいアーキテクチャー戦略やデータストレージタイプが開発され続けています。データパイプラインの場合、チームは「適切なデータセットを取り込み、適切な変換を適用して適切なアウトプットを作成するための、適切なパイプラインとは何か?」と自問することがよくあります。これは、データリネージュの可視化の制限、データ変換のための扱いにくいスプレッドシートの広範な使用、エンドステークホルダー(データ利用者)との時間のかかる繰り返しのやり取りをもたらすボトルネックや容量の制約などの要因に起因しているかもしれません。上記のシナリオとは異なり、これらの問題は、データの信憑性についての古いあるいは不正確な情報や疑いによって引き起こされ、そのため、意思決定が遅く、不確実になる可能性があります。
では、どうすればそれらの問題に対処できるでしょうか?
チームは、データストレージ(データレイクなど)にデータを入力して反復しながらでも(つまり、並行して実行するか、あるいは順に実行するかの違いです)、データと分析のパイプラインを強化し、BI分析を大幅に改善し、AI分析を今すぐ進めることができるでしょう。これは、データパイプラインがデータストレージに接続し、保存されるデータ型を処理する柔軟性を備えている場合には、とりわけ実行可能です。データパイプライン強化のための追加の特性は次のとおりです。
- より高い効率性(より少ない労力)とより多くのデータプロダクトのスループット
- データリネージュの透明性と分析の再現性(データの信頼性を強化する)、再利用性(他の人が構築したものを活用して時間を節約できる)、および堅牢性(信頼性が高く、本番環境で中断しない)
- スタッフのボトルネックを解消し、意思決定を迅速化するセルフサービス機能
チームがこれを達成できれば、BIからAIへのステップはスムーズになります。多くのデータサイエンティストは、時間/労力の約80%をデータの取得、データ準備、モデル開発の準備に費やしています。これらのアクティビティーは、データパイプラインの最初の4つのアクティビティーとまったく同じであり、データパイプラインが本番環境で展開および保守されている場合、6つのアクティビティーのうち5つを示します。
つまり、BIデータパイプラインを強化することで、AIデータパイプラインをほぼ構築できるということです。BIデータパイプラインをAIデータパイプラインに変換するための追加の手順は、AIデータプロダクト(つまり、機械学習モデル)を開発することです。また、BIデータプロダクトの構築からAIデータプロダクトへの移行するために、スタッフはすでに構築して理解しているデータ資産とインフラストラクチャーを再利用でき、データパイプラインで同じユーザーエクスペリエンスを活用することで学習曲線を短縮できます。 1つの環境でBIプロジェクトとAIプロジェクトの両方を実行することにより、より迅速かつ経済的に拡張できます。
以下に示すように、BI分析用の同じデータパイプラインがAI分析に役立ちます。
組み込むべき、主要なデータパイプライン機能
データパイプラインとワークフローが、次のような機能を持つようにしましょう。
- すべてのステークホルダーに対して視覚的かつ透明である(プロジェクトの迅速なイテレーションを強化するため)
- コードなしとコードありの両オプションを利用できるようにする(技術者以外の専門家の生産性を高めるため)
- 再利用可能なデータ資産とパイプライン、およびロールバックと分岐のために記録されたリネージュを有効にする
- 本番環境への簡単なデプロイメントを提供する
- 迅速なデータの発見、接続、および取り込みを促進する
- データフィールドと列の迅速な統計分析を可能にする
- 機械学習モデル、表、チャート、グラフ、ダッシュボードなど、複数のタイプのデータプロダクトの作成を可能にする
データ分析パイプラインが強化されると、BIと並行してAIを実行できるようになるだけでなく、実行したくなるでしょう。なぜでしょう? その最初の理由は範囲の経済です。BIとAIには、同じまたは多くの同じデータソース、共通のデータの理解と解釈、および同じデータパイプライン自体が含まれます。さらに、チームは、データソースとパイプラインを構築するときにAIモデルのニーズを含めることで、将来のやり直しのリスクを減らすことができます。たとえば、フィールドの欠損や不完全性、データフィールドの品質の低さ、ラベルのないデータなどです。最後に、AIのメリットを実現するまでには時間がかかるものですが、AIモデルの開発と運用には学習曲線があるため、開始するのが早ければ早いほど、早く結果を出すことができるのです。