More than 3 years have passed since last update.

【Road to Cassandra Day】CassandraをリアルタイムAIに活用するには〜導入編:フィーチャー（特徴量）ストアとは何か？

Last updated at 2023-05-12Posted at 2023-05-11

はじめに

Cassandra Day Tokyo

今年、2023年６月１日に、Cassandra Dayが日本でも開催されます。
Cassandra Dayは、昨年、ベルリン、ロンドン、アムステルダム、ハノイ、ジャカルタ、ヒューストン、サンタクララ、シアトル、シンガポールでも開催されました。

今回の東京での開催に向けて、Apache Cassandraに関する記事を発表していきます。

Apache Cassandraについて

Apache Cassandraとは、一言でいうなら、オープンソースの分散データベース管理システムです。

他の分散データベース管理システム同様、複数の汎用サーバーを用いて、ひとつのデータベースを構築します（開発などの目的のため、一つのサーバーのみで構成することも可能です）。

ここでは、詳しい説明は割愛し、興味のある方へのご紹介の役割は、公式サイトやWikipediaに譲ります。

CassandraとAI

この記事のソース

本稿では元Google Quantum AIのAlan Ho氏の下記の記事「Cassandra をリアルタイムフィーチャー（特徴量）ストアとして使用するための実践者向けガイド(Practitioner’s guide for using Cassandra as a real-time feature store)」から、導入の情報をお伝えします。

この記事自体は、「リアルタイムフィーチャー（特徴量）ストアとして使用するためのベストプラクティスについて説明」しています。ここでは、How（ベストプラクティス）ではなく、なぜそれが重要かをお伝えしたいと思います。

リアルタイムAIとは何か？

リアルタイム AI では、現在発生しているイベントに基づいてモデルを推論またはトレーニングします。

従来、モデルのトレーニングとモデルに基づく推論 (予測) は、通常は夜間に、または 1 日を通じて定期的にバッチで行われてきました。
現在、最新の機械学習システムは、可能な限り正確な予測を提供するために、最新のデータを用いて推論を実行するようになってきています。
TikTok や Google のような少数の先進的な企業は、オンザフライでのモデルトレーニングを組み込むことで、リアルタイムパラダイムをさらに推し進めています。

このような変化を前にして、特徴量データ (ML モデルのトレーニングと推論の実行に使用されるデータ) の扱い（具体的には、永続化層としてのデータベース）についても、適応の必要が発生しています。