Time series or event data? Get less confusedの翻訳です。
2021年7月15日
時系列データかイベントデータか?混同を減らそう
時系列データとは何か?どのようなデータなのでしょうか?時系列データとイベントデータの見分け方をご覧ください。
時系列データは、異なる時間に取得されたデータ・ポイントまたは測定値の集まりと定義することができます(1つの時点に関する多くのオブジェクトに関するデータとは異なります)。そのため、構造的には、時系列データはイベントストリームと多くの特徴を共有している。
この記事では、この2つを見分けるためのヒントを紹介します。
タイムスタンプはあるか?
時系列データには必ずタイムスタンプがあり、イベントデータにも通常タイムスタンプがあります。イベント・データも通常そうです。このことを分かりにくくしているのは、非常に多くの他のデータモデルもタイムスタンプを含んでいるということです。
更新されたことはありますか?
時系列データもイベントストリームも更新されることはありません。データが記録された後、その記録は不変です。時系列データは、ある時点から収集されたデータです。イベントは(その名の通り)1つのイベントを指す。後で何か別のことが起これば、それはどちらの場合も新しいデータ・ポイントとなる。
フィールドはいくつありますか?
時系列データには通常、各データポイントに1つの測定値しかありません。また、どの測定値であるか、どのサーバーとCPUに関連しているかなどを示す多くの「ラベル」を含む場合もあります。
イベントは通常、発生したイベントの詳細を提供するため、より多くのフィールドを持つ。ユーザーがログインした場合、数値の測定値だけでなく、ユーザーとおそらくリファラー情報を取得します。
この値を時系列でグラフ化しますか?
時系列データのもう一つの特徴は、通常、ポイント・イン・タイムの測定であり、時間の経過とともに、また通常、複数の測定項目にわたって、想像を絶するほど多くの回数繰り返されるため、生のデータを扱うのが難しいということです。グラフがきれいで、特にこのデータに対して定量的な質問をすることに意味があるならば、それは時系列データとして特徴づけることができる。
一連の無関係な単発メッセージを送信するイベントは、このモデルにうまく当てはまらないので、これも有用な区別である。
仕事に適した道具
データを理解し、モデリングすることは、次のアプリケーションに導入したいツールや機能を特定するのに役立ちます。より複雑なアプリケーションでは、必要なプラットフォームを構築するために複数のデータソリューションを使用することがありますが、ニーズが何であれ、Aivenのオープンソース製品カタログから選択することができます。
今日の記事の2つの例では、ある場所から別の場所へのイベントのストリーミングにはAiven for Apache Kafkaを、時系列データのニーズにはAiven for M3を試してみてください。
まとめ
Aivenのサービスをまだご利用でない方はhttps://console.aiven.io/signupから無料トライアルにお申し込みください!
また、changelogやblogのRSSフィード、またはLinkedInやTwitterのアカウントをフォローし、製品や機能関連の最新情報をご確認ください。