Distributed computing (Apache Spark, Flink, Hadoop, Kafka, OTF, ...) Advent Calendar 2025

Apache Flink入門 - ストリーム処理の基本とKafka連携によるリアルタイム特徴量計算

Last updated at 2025-12-09Posted at 2025-12-08

TL;DR

Apache Flinkについての概念を解説し、簡単にローカル環境でFlinkを利用したデータ処理を行います。

Overview | Apache Flink を参考に説明します。

Flinkはリアルタイムのデータ処理を行うための分散型ストリーム処理フレームワークです。

Streaming処理と呼ばれ、Batch処理と比較されます。
Batch処理は境界が明確なデータ・セットを一括で処理するのに対し、Streaming処理は境界のない連続的なデータを処理します。

FlinkはデータソースとしてKafkaやKinesisのようなメッセージングシステムを連携します。

これだけ見ると、Flinkは不要でKafkaやKinesisに対してのコンシューマーを自分で実装すれば十分に思えますが、
あるkeyに基づいてデータを集約したり、ウィンドウ処理を行ったり、状態管理を行ったりといった複雑な処理を簡単に実装できる点がFlinkの強みです。

上記の内容は Redistributing StreamとStateful Steam Processingの２つの内容を利用しています。

また、状態管理のためにstate snapshotやsteam replayという仕組みを備えており、障害発生時にも正確なデータ処理を保証します。

復旧方法の詳細は、Stateful Stream Processing | Apache Flinkを、
タイムスタンプ管理の詳細は、Watermark | Apache Flinkを参照してください。

FlinkはMLOpsでも利用されることがあります (Ref: [1802.05872] Online Machine Learning in Big Data Streams)。

ここでは、非常に簡単なMLOps風のFlinkアプリケーションをローカル環境で実行し、Kafkaからデータを読み取って特徴量を計算する例を示します。

コードの詳細及び実行方法は下記を参照してください。Dockerとdevboxの利用ができれば実行可能です。

上記コードで使用されているFlinkの主要な機能は以下のとおりです：

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

Flinkの実行環境を作成します。

KafkaSource<String> source = KafkaSource.<String>builder()
    .setBootstrapServers("localhost:9092")
    .setTopics("raw-features")
    .build();

機能: Kafkaトピックからデータを継続的に読み取り
実行時: Kafkaブローカーに接続し、指定されたトピック（raw-features）からメッセージをストリーミング
実際の動作: "user_A,10.5"のような形式でメッセージを受信
Ref: https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/datastream/kafka/

.map(line -> {
    String[] parts = line.split(",");
    return Tuple2.of(parts[0].trim(), Double.parseDouble(parts[1].trim()));
})

機能: 文字列データをTuple2<ユーザーID, 値>に変換
実行時: 受信した各メッセージをパースして型安全なオブジェクトに変換
エラー処理: 不正な形式のデータはnullとして返してフィルタリング
Ref: https://nightlies.apache.org/flink/flink-docs-release-2.2/docs/dev/datastream/fault-tolerance/serialization/types_serialization/

.keyBy(tuple -> tuple.f0)

機能: ユーザーIDをキーとしてストリームを分割
実行時: 同一ユーザーのデータは必ず同じタスク（並列実行単位）に送られる
重要性: 状態管理（移動平均計算）において、同一キーのデータが順序付けられることを保証
Ref: https://nightlies.apache.org/flink/flink-docs-release-2.2/docs/learn-flink/etl/#keyby

.process(new MovingAverageFeatureFunction())

機能: キーごとに状態を保持して複雑なビジネスロジックを実装
状態管理: 各ユーザーの直前の特徴量値をValueStateで保持
実行時:
- 初回データ: 状態がないため初回メッセージを出力
- 2回目以降: 前回値と現在値の移動平均を計算
Ref: https://nightlies.apache.org/flink/flink-docs-release-2.2/docs/dev/datastream/operators/process_function/

.print();

実際のMLOpsでは: 特徴量ストア（Feature Store）やデータベースへの書き込みに置き換えられると思います。

Flinkが提供しているConnectorから、Apache Behirが提供しているConnectorを利用することも可能です。
https://nightlies.apache.org/flink/flink-docs-release-2.2/docs/connectors/datastream/overview/ のDBがサポートされています。

このパターンにより、リアルタイムでの特徴量生成と機械学習パイプラインを効率的に構築できます。

今回はFlinkの基本的な概念とローカル環境での簡単なデータ処理を紹介しましたが、複数のノードでの分散処理や障害復旧など、Flinkの強力な機能はまだまだ多くあるため、時間があればさらに深掘りしたいと感じました（keyの分散方法やStateの保存方法（OOMなど発生しないかなど））
MLOpsにおいてもリアルタイムデータ処理のニーズが高まっているため、Flinkのようなストリーム処理フレームワークの理解は非常に重要であると再認識しました。
Flinkの実装もJavaがメインで書かれているため、機会があればOSSのコードリーディングも行いたいと思います。