ここのところデータパイプラインの配線繋ぎかえ工事をしていたのですが、とくに目立ったダウンタイムや障害なく終われたので、その基本パターンをメモしておきます。
主に繋ぎかえたのはデータベースかストレージ挟んだ多段バッチですが、ストリーミングやサービス間通信でも一方通行なら、だいたいこんな感じになるのではないかと思います。
カラム(フィールド)追加パターン
とあるデータベース(ストレージ)のテーブル(パス)にカラム(フィールド) a があって、それを読み書きしているとします。この流れに b を加える手順を考えてみましょう。
※用語は環境によって適当に読みかえてください。
テーブルにカラム b を NULL 許可 (オプショナル)で追加します。
この段階では b は NULL で書かれていて、読まれません。
カラム b の値を書くようにします。
カラム b の値を読むようにします。
この時、NULL になっている古いレコードも読むのであれば writer で処理する前にデフォルト値埋めするなどの対応が必要になるでしょう。
カラム b から NULL をなくせたら NULL 不許可にします。
この reader が更にどこかのテーブルへ b の情報を書きこんでいる場合は、今度は writer としてこのパターンを繰り返していきます。
カラム(フィールド)削除パターン
追加パターンを逆走します。
ざっくり手順として、追加は上流から、削除は下流から、と覚えておけばよいです。
こうしてデータを上流から少しずつ流していく/下流から少しずつ断っていくことで、部分的なテストや切り戻しがしやすくなります
テーブル(パス)切り替えパターン
a b を読み書きしていたとします。これをまるっと c d という別のカラムへ切り替えることを考えてみましょう。
カラム c d をもった新テーブルを作成します。
旧テーブルと新テーブルどちらにも書くようにします。
これらは異なるデータベースにあっても構いません。
旧レコードは旧テーブルから、新レコードは新テーブルから読むようにします。
新旧の峻別は、タイムスタンプなどの情報を使うことになるでしょう。
旧テーブルにあるレコードが不要になったら、読みこみを止めます。
いつまで経っても不要にならないような場合は、どこかで旧レコード相当のものを新テーブルへ書きこんでおくなどの対応が必要になるでしょう。
旧テーブルへの書きこみを止めます。
旧テーブルを削除します。
必要があればアーカイブしておきましょう。
要するに、これは追加パターンと削除パターンの合わせ技ですね。