Streaming data analytics in the real worldの翻訳です。
2022年10月31日
現実世界におけるストリーミング・データ分析
すでにApache Kafka®をお使いですか?ストリーミング・データを単に移動させるだけでなく、分析すべき理由はここにあります。
システムは機能しているが、もっとうまくいくはずだ。多くのビジネスでは、製品をどのような方向に持っていきたいかという合理的な考えを持ってセットアップしますが、収集しているデータを最大限に活用する方法はありません。
誰もがエコシステムとしてのApache Kafka®について話しています。データ分析の重要性を認識すれば、質問は "このエコシステムは私のシステムを効率化できるか?"から "このエコシステムのどの部分が私のために機能していないか?"にシフトする。
ストリーミングデータアナリティクスは、従来の(または**"バッチ "**)アナリティクスとは異なります。Apache Kafka®は既にデータパフォーマンスの様相を変えつつある。しかし、あなたのアナリティクスはこのような変化を乗り切ることができるでしょうか、それともダッシュボードを更新するのに時間がかかりすぎているのでしょうか?ダッシュボードには、前月や前年の情報だけでなく、1時間ごとや1分ごとの情報をきれいに表示したいものです。あるいはもっと頻繁に!
ストリーミング・データ分析には様々なアプローチがあります。
アナリティクスの進化
アナリティクスは、常に変化し続ける概念である。より速く、より鋭く、より安定し、より高性能に。
少し順番が前後しますが、お付き合いください。
原初のデータ・スープ
バッチ処理は今でも多くの企業や機関で使われている。古い方法」による分析では、ダッシュボードを更新するのに何日もかかり、複雑なデータパイプラインを必要とする。
このような従来のアナリティクス・アプローチとリアルタイム・データの新しい方法を組み合わせることに意味があるのだろうか?アナリティクスのパイプラインがすべて整っており、そのレベルのパフォーマンスを必要としない場合は、そうかもしれない。しかし、ほとんどの場合、これは優れた解決策ではないので、他の選択肢を検討すべきです。
インテリジェントな猿
Apache FlinkやConfluentのksqlDB(これらは多くの例のうちの2つに過ぎない!)のようなテクノロジーを使ったイベント・ストリーム処理、イベントごとの処理、そして分析。
これは、自動株式取引、IoTデバイスから送信されたデータに基づくアラート、またはストリームから機密データをフィルタリングしてから転送するなど、秒以下のアクションを取りたい場合に必要なものです。
例えば、5秒ごとに更新されるダッシュボードが欲しいだけなら、これは必要ない。そのような場合は、大量の受信データを処理し、履歴分析のために永久に保存し、Grafana、Tableau、Sisenseなどのダッシュボード・ツールとの統合が可能な、ストリーミング対応のデータウェアハウスを利用する方がよいだろう。
もちろん、それは目指すべきものだ......しかし、それが必要な場合に限る。そうでなければ、学習曲線を登るのは無駄な努力でしかない。多くの場合、混合アプローチが理にかなっている。データに基づいてフィルタリングとアラートを行うイベント・ストリーム処理と、分析ダッシュボード・ビューを作成するためのストリーミング対応データウェアハウス。
ミッシング・リンク
これらの段階の中間に位置するのが「ニア・リアルタイム」である。これは、進化のはしごの両端を最適化する幅広い方法を提供する。ClickHouseのようなストリーミング対応データウェアハウスはシンプルで、多くのユースケースにとって十分すぎるほど高速だ。ここでは数秒から数分の話をしているので、それでも高速なのだ。
あなたはすでにデータ・ストリームを持っています。ストリーミング対応データウェアハウスがあれば、すべてのデータを取得し、履歴を残すことができる。出現したトレンドや予測される展開を示し、予備的な分析を実行することができる。データを集計してレポートを作成したり、個々の事象をより深く掘り下げたりすることで、細部まで見逃すことはありません。
では、どのような日常的なデータシステムがこのカテゴリーに分類され、アナリティクスへの生き生きとしたアプローチはどこに利益をもたらすのだろうか?
現実世界におけるほぼリアルタイムのアナリティクス
GDPRという小さなもの
一般データ保護規則(GDPR)は、Apache Flink®によるイベントストリーム処理とClickHouse®によるデータウェアハウスを統合します。*GDPRはどこにでもあります。Apache Flinkはユーザーの個人情報を守り、ClickHouseは分析を可能にします。
GDPRで保護された情報を分析する必要があるとします。ここには、個人情報を見て処理することが「許可」されている2つのシステムがあります。税務サービスデータ、医療記録...しかし、プライベートなコンテンツは共有できません。Apache FlinkでPIIデータをフィルタリングし、ClickHouseは匿名化されたデータから分析ダッシュボードを生成できます。アナリストは、GDPR違反を心配することなくClickHouseのデータを見ることができます。
顧客向けダッシュボード
セルフサービス・ダッシュボードは、例えばエネルギー会社で使用されている。エネルギー消費量をリアルタイムでチェックできるインターフェイスを顧客に提供している。
顧客に便利なチャットボットを提供したい企業は、分析ビューを提供するプラットフォームをセットアップすることができる。会話数、送受信メッセージ、平均セッション時間などをチェックすることができる。
クリックストリーミング
製品分析チームは、アプリケーションを使用するユーザーから「クリックストリーム」を収集します。ClickHouseの原点であるユーザーアクションのクリックごとのトラッキングは、ユーザージャーニー、ライフサイクル、リテンション*、アプリの使用状況*、*実験**などに関するリアルタイムの洞察を提供します。
製品を開発しているソフトウェアベンダーは、何がうまくいっていて、何がうまくいっていないかを教えてくれる製品分析に依存しています。そして、遊ぶためのデータがたくさんあります。それは、広告やその他のサイト利用のための貴重なデータです...そして、それは慎重に扱われなければなりません。
不正検知におけるアナリティクス
金融機関は通常、リアルタイムまたはそれに近いデータ分析に依存している。これは、顧客の追跡、システムを使って行われている取引の追跡、脆弱性を利用しようとする詐欺師の摘発のために必要である。
彼らは、現代世界の多くが依存している機関を守っているのだ。データ分析にとって、これほど重要なユースケースはない。そのため、不正検知のニーズは、まさに「ほぼリアルタイム」と「本当にリアルタイム」の進化の先端にある。
どんなソリューションにも問題がある
あらゆる(データ処理の)問題に(ストリーミング分析の)解決策があるように、あらゆる解決策にもある種の問題がある。
- バッチ分析システムは常にパフォーマンスと複雑性の問題を抱えています。
- 集計が必要になり、洞察が失われる。同時に、あまりに多くの*集約を行うと、大きな価値があるかもしれない隠れた洞察を失う可能性があります。
- Apache Kafkaはデータのハブとメッセージング・プラットフォームとして機能する。
- Apache Flinkは、データ変換や迅速なイベント分析に基づく即時アクションを実行するときに最高の力を発揮する。可視化する前に処理結果を保存するための別のデータストアが必要なので、"伝統的な "分析ダッシュボードには理想的ではありません。
- ClickHouseは多くのスループットを扱うが、データに基づいて即座にアクションを起こすというよりは、ストレージと迅速なクエリに関するものだ。
Apache Kafkaを通過するメッセージを分析することには、明らかな利点があります。アナリティクスを使用していないために、機能する可能性がありながら機能していないものは何ですか?適切な分析のためには、すべてのデータにアクセスできる必要があります。
私たちはすでに進化の話をしているのだから、科学的手法のアプローチを取ろう。ただ......我々はそれを逆に行うつもりだ。ちょっとね。
Approach it backwards (or ... sideways?)
科学的手法では、疑問から出発し、利用可能なデータを使って答えを導き出す。自分が望む答えを得るために、物事を解釈したり変更したりすることは大反対だ。
しかし、データ分析に関しては、データから何を得たいかから始める。そして、欲しい情報を得るために必要なツールを見つけ出すのです。
変革の到来
さまざまな業界で成功を収めている企業は、変革戦略の一環としてマネージド・データ・プラットフォームをどのように活用しているのでしょうか。彼らがどのようにビジネスや技術的な課題を解決したのか、電子書籍でご覧ください。
こちらから
あなたは、電気自動車のドライバーをサポートする最も効率的で効果的な方法を探しているメーカーかもしれません。標準化されたメッセージング・プラットフォームとしてApache Kafkaを使用していますが、すべてのデータをウェアハウスに移動し、分析を実行する必要があります:
- どの充電サイトの利用が多いか少ないか
- 電力の供給元
- 故障が発生している場所
山積みの古いデータに基づいて決定を下してはならない。推測の域を脱しましょう。Aivenにお任せください。
まとめ
いろいろ試している段階なら、すべてを知る必要はない。何から始めたらいいのか、アイデアが欲しいですか?私たちがサポートします。
リアルタイム分析パイプラインの構築
Apache Kafka®とApache Flink®を使用したイベントストリーミングアーキテクチャ、リアルタイム分析データウェアハウスClickHouse®へのデータ着地について詳しく知る
Aivenと私たちのサービスに関する最新ニュース、さらにオープンソース全般に関するちょっとした追加情報を入手するには、月刊ニュースレターを購読してください!Aivenに関する日々のニュースは、LinkedInとTwitterのフィードでご覧いただけます。
サービスアップデートに関する最新情報をお知りになりたい場合は、変更履歴をご覧ください。
マネージド・データ・プラットフォームをお探しですか?https://console.aiven.io/signupから無料トライアルにお申し込みください!
データインフラの管理にお困りですか?今すぐhttps://console.aiven.io/signupから無料トライアルにお申し込みください!