Batchとは・・・?
Batchとは英語が語源で日本語では「一束」という意味があります。つまり、一定量、もしくは一定期間のデータを集めて一括処理をするための処理方法のことです。汎用コンピュータの時代はある程度データ量が集まった段階で処理を実施していました。これが、現在ではBatch処理と呼ばれるもので一括処理とも呼ばれることがあります。
バッチ処理のメリット
場所や時間に囚われずにデータ処理が可能
バッチ処理は一定量のデータを集計して処理するという特性上、オペレーターがその場にいなくてもよいのです。そのため、タスクスケジューリングを行うことで、好きな日時にデータ処理をまとめて行うことができるのです。
大規模データを効率的に処理
大規模データを取り扱うときは基本的にまとめられたデータを一括処理することが進められます。その点、バッチ処理では一括処理をすることができるため、大規模データの取り扱いにはピッタリです。
ヒューマンエラーを排除
大規模データを人間が取り扱うとき、必ずヒューマンエラーが起こります。そして、そのエラーが小さいものでも後々大きなエラーにつながることは多くあります。その点、バッチ処理ではヒューマンエラーをなくすことができます。
バッチ処理のデメリット
リアルタイムに集計状況を確認できない
一括処理を得意とするため、バッチ処理ではリアルタイムでデータの集計状況などを確認することができません。そのため、随時確認をしなくてはいけない場合、リアルタイム処理を実行するのが一般的です。
データ量増加により処理が遅延することがある
昨今ビッグデータの活用が基本になっています。そのため、データが日々蓄積して行きますが、バッチ処理ではこのデータに都度対応することで処理が遅延するといったトラブルが起こります。
スクリプトやプログラムが複雑化しやすい
バッチ処理では大規模データを取り扱うためスクリプトやプログラムが複雑になる傾向があります。そして、この複雑なスクリプトやプログラムは次期にブラックボックス化しやすいことも問題です。
バッチ処理を行うべきタイミングは・・・?
バッチ処理の対象は即時性のないデータとなります。例えば、月末に一括で処理する経費精算や一定期間のデータを特定の日に集計・処理するようなデータはバッチ処理が有効です。
参考資料