Apache Airflowとは
Apache AirflowはOSSのワークフロー管理ツールです。DAG(有向非巡回グラフ)を用いてワークフローを作成し、各種データの取り込み、加工などの処理のワークフロー制御を行うことができます。
また、AWSなどのクラウドプロバイダーからApache Airflowのマネージドサービスが提供されているため、比較的に導入、利用がしやすいツールとなっています。
ここではAWSのAmazon Managed Workflows for Apache Airflow (MWAA)でApache Airflowのバージョン2.2のUIがどのようなものか確認をしていきます。
Apache Airflow UIについて
AirflowのUIはDAGsというのがメイン画面となっており、この画面から各種ワークフローの管理が可能です。それぞれのワークフローの実行のON/OFFや実行履歴の確認を行うことができます。ここでは良く利用される画面について解説していきます。
以下の画面ではetl_athena_job
というワークフローが1つだけ存在しています。
DAGの有効化/無効化
DAG名の左にあるトグルをクリックすることで有効化(Active状態)、無効化(Paused状態)にできます。
以下の画面のDAGは有効化した状態です。
DAGごとの画面構成
それぞれのDAGをクリックするとDAGの詳細情報を確認することができます。複数のタブでDAGのさまざまな情報を確認することができます。
DAGのGraph
それぞれのDAGをクリックするとGraph画面に遷移するので参照することが多い画面になります。
Graph画面ではそれぞれの実行に関しての詳細なステータスを確認可能です。各タスクのログの確認やエラー後のリトライを行うためのステータスの変更等が可能です。
DAGをクリックしてGraph画面に遷移した場合は最新の実行のステータスが表示されます。過去の実行を見たい場合は、「Run」で過去の実行がリストとして表示されるのでそこから選択をします。
DAGのTree
Tree画面では時系列でDAGの実行ステータス、DAG内のタスクの実行ステータスを確認することができます。
過去の実行も含めて各タスクが成功したのか失敗したのかなどを確認するのに有用な画面となります。
DAGのCalendar
Calendar画面では日次での実行ステータスを確認可能です。
全ての実行が成功していれば濃い緑色で表示されますが、実行失敗の割合が多ければ多いほど赤色に近くなるように表示されます。
DAGのTask Duration
Task Duration画面では各実行でのタスクの実行時間が表示されます。
徐々に実行時間が増えているなどの問題点をこの画面から確認することが可能です。
DAGのTask Tries
Task Tries画面では各タスクのリトライ回数を確認することができます。
DAGのLanding Times
Landing Times画面ではスケジュールで実行が開始されるべき時刻から実際に実行が開始された時刻の差分です。
そのため、タスクの実行待ちの長さを確認することができ、Airflowのクラスタリソースが不足してないかどうかを推測可能です。
DAGのGantt
Gantt画面ではガントチャートで各タスクの実行時間を確認することができます。
過去の実行を見たい場合は、「Run」で過去の実行がリストとして表示されるのでそこから選択をします。
DAGのDetails
Details画面ではDAGのコード内で記述されている、Schedule IntervalやDefault Args, Task IDsなど、このDAGの設定情報を表形式で確認することが可能です。
DAGのCode
Code画面ではDAGのコードそのものを確認することが可能です。