分析プロジェクトが本番フェーズに入ると(英語)、分析はパフォーマンスを担保しつつ、価値を示すことが求められます。価値を生み出すためには、最新のデータが不可欠です。新鮮なデータがなければ、ダッシュボード(英語)は古い情報を示すことになり、モデルの予測結果もうまく活用できないものになるため、エンドユーザーの信頼を失うことになります。そのため、本番データを、必要なときにA地点からB地点に確実に届けるための分野が存在します。これをDataOps(データオプス)と呼びます。
DataOps(data operationsの略で、DevOpsと混同しないように気を付けてください(英語))とは、組織がデータを本番環境に格納して保持することを可能にする決まり事であり、プロセスであり、技術でもあります。通常は分析プロジェクトのためのものです。分析プロジェクトには、本番用のレポートやダッシュボード、予測を行うためのAIや機械学習などがあります。分析は、組織がより良い情報に基づいた意思決定を行い、より魅力的で価値のある顧客体験を実現するのに役立ちます。どのような種類の分析プロジェクトでも、データの品質と新鮮さが、分析結果の活用を成功させるには不可欠です。
→Dataikuがどのようにして企業でのDataOpsをスムーズにするかについてはこちらをご覧ください。(英語)
DataOpsの技術
技術的な観点から見ると、DataOpsは、本番環境で使う分析データの提供を自動化することです。ビジュアルやコードベースのデータパイプラインには、データの接続、結合、使いやすい形に変換するために、一つずつ処理するプロセスが含まれます。DataOpsは、これらのパイプラインのステップを繰り返し実行し、自動化された本番用のパイプラインにします。DataOpsの自動化では、データのばらつきやパイプラインの運用上の問題点を探すために、指標をシステム的に確認していく必要があります。
DataOpsの技術は、プロセスと実績があるものを活用すべきです。パッケージ化された機能や自動化ができれば理想的です。確立されたデータパイプラインの枠組みを活用することで、パイプラインの開発と自動化の作業を減らし、より再現性と信頼性の高い結果を生み出し、本番環境の問題によって生じるダウンタイムを最小限に抑えることができます。
DataOpsとDataiku
Dataikuは、データサイエンスと分析のプラットフォームとしてよく知られています。さらに、Dataikuは、活用しやすいデータパイプラインを構築でき、本番環境で必要となるパイプラインの自動化を行う、DataOps機能が含まれています。
Dataikuによるデータパイプラインの自動化と管理(DataOps)
プロジェクトが開発から本番のフェーズに移行しても、Dataikuを使用することで、素早く本番データに対応付けすることができ、本番環境でプロジェクトをテストし、パイプラインがもつ指標を測定したりデータ品質をチェックしたりしながら、スケジュールや条件に基づくトリガーでパイプラインを実行できます。
DataOpsについてさらに知りたい方はこちら
DataikuでのDataOpsについては、Dataikuの最高執行責任者兼収益担当者であるRomain Fouache氏によるプレゼンテーションをご覧ください。
視聴はこちら(英語)
原文: [*What Is DataOps?*] (https://blog.dataiku.com/what-is-dataops)