MDLakeでつくる超低コストデータ活用

Last updated at 2026-03-26Posted at 2026-03-23

Page 1 of 12

サイネージ端末がよく死ぬ

本来できているはずだがまだ作っている最中。すんません。結構難しい。なんでかっていうと、

将来見越して50,000台端末があるとして、それらが5分に1回状態と履歴を送信する場合。

普通にデータベース使うと、金かかるか負荷ですぐ行き詰まる。Bigなんとかとかsparkとかでもいいか、金の心配やGC/偏りチューニングが難しい。

それなりに金かければ難しくないかもしれないが、会社というものは往々にして渋いので、金も時間もかけずに頭だけ使って解決したい。

とりあえずイージー版をつくろう。
だったら、既に状態データはMQTT経由で送信しているので、それを活用すれば大抵の監視ができることに気づいた。

つまり、メタデータもデータもクラウドに置くと、

頑張れば、クエリーに関してはクラウドストレージのread料金だけで済むし、速いのでいいじゃないか。（収集/集約時のwrite料金は当然かかります）

収集プログラム
MQTT broker経由でやってくる端末状態レコードを収集。DuckDBライブラリーを使い、GCSにparquetとしてhive partitioningを効かせて保存。
小さいparquetはまずいので、5分または100000レコードでバッファリングして書き込みしている。
集約プログラム
5分ごとに、DuckDBライブラリーを使って前回以降の新しいparquetファイルを読んで、GCS上の集約テーブル（parquet）に集約&MERGE INTO。

スタティックなDuckLakeをクラウドストレージで公開する手法は、Frozen DuckLakeと呼びますが、今回のは都度更新していく応用です。

メタデータがクラウドにあるままではREAD ONLYになる
集約前にメタデータダウンロード、集約後にメタデータアップロードすることで回避。もちろん実データそのものはクラウドに直接書き込む。
ローカルメタデータを使って、実データをリモートに書き込む形態だと、何かあったらデータが壊れるんじゃないか？
icebergと同様で、DuckLakeは意図しない限りデータファイルの削除も更新もしません。メタデータ内にはデータファイルへのポインターがあるので、たとえ実データをクラウドに書いている最中に障害起こっても、前のメタデータはそのままであり、前のファイルへのポインターのままなので大丈夫。
大丈夫なんだけど、クエリーしている最中にメタデータ変わったらエラーでることがあるので、設定でEtagチェック無効にするかセッションのリトライでカバーすること。
その他walファイル同期、expire、compaction設定などいろいろハマりポイントはある
DuckLakeは来月v1.0リリース予定
ちょっと変なバグに遭遇したので本当は1.0でやりたかった。

サイネージは毎日壊れる
データレイクまでいかなくても、DuckDBは異種JOINなど便利に使えるし、v1.5からcliも便利になったので使ってみたら。
今回の都度集約/更新はめんどくさいが、スタティックなデータレイクを社内/社外に公開するのは簡単なので使ってみたら。
今回wasmのでもやろうと思ったけどフロントエンドよくわからない。ネット上にブラウザー上でクエリーやる例がいろいろあるので見て。
https://voluntas.github.io/duckdb-wasm-parquet/