More than 1 year has passed since last update.

Cloud BillingをAWSへ取り込む

Posted at 2023-03-15

これは何？

Google Cloudの利用料データ（Cloud Billing）をAWS側へ取り込み方法の検討メモ。
（最終的には取り込んだデータをQuickSightで可視化したい。）

連なるべくマネージドサービスに寄せる方針で検討。

＜案としては3つ＞

Athenaカスタムコネクタを使って、AthenaからBigQueryへクエリを投げる方法。

ドキュメントに、Athenaカスタムコネクタの制約事項に構造体データは未サポートという記載がある。
Cloud Billingのデータでは一部構造体データを含むデータが存在するが、Viewを作成することで回避は可能と思われる。（未検証）

カスタムコネクタの実体はLambda関数とのこと。
AWS Serverless Application Repositoryにテンプレートが用意されているので、
パラメーターを入力すればカスタムコネクタ環境のデプロイができる。

Glueカスタムコネクタを使って、BigQueryデータを取り込む方法。

Athenaカスタムコネクタを使って、AthenaからCloudStorageへクエリを投げる方法。

大まかな流れはのドキュメントを参照すればできる。

AWS MarketplaceにAWSが提供しているGlueカスタムコネクタがあるのでそちらを使用する。
ただ、ドキュメントからMarketplaceのリンクの飛ぶと、カスタムコネクタのバージョンが古くて削除されている。
新しいカスタムコネクタはこちら。

ドキュメントと差異があるのはGlueのバージョン選択くらい。

Glueジョブもドキュメントに従い作成できる。
BigQueryから取り込んだデータはS3へ保存され、メタデータがGlue Data Catalogへ保存される。

AthenaでGlue Data Catalogのデータが参照できることを確認。

追加で行った設定として、
日次でBigQueryからデータを取り込みたいので、Glueジョブのスケジューリングを設定。
（UTC時刻で設定）

日次でデータを取り込むにあたって、データ重複が懸念される。
Glueジョブのジョブブックマーク機能を利用すれば、最後のジョブ実行以降の増分データのみを取り込み対象とできるのだが、
ソースデータがGlueカスタムコネクトだと対応していないらしい。

S3のライフサイクルポリシーで1日経過したオブジェクトは削除。
ライフサイクルの削除タイミングにより一時的にデータ重複する期間はある為、Athena側で重複データは丸める方針とした。
他の方法としては、Pushdown Predicate による入力データの絞り込みを行う方法もあるようだが未検証。

プロジェクトの利用料データ（Cloud Billing）は請求先アカウントに集約される。
利用料データをエクスポートするには、請求アカウントでBigQueryに対して利用料データのエクスポートの設定がされている必要があり、
BigQueryを介して利用料データを取得する必要がある。

料金テーブルは2種類存在する。

標準の使用料金テーブル – BigQuery データセットでは、このテーブルには gcp_billing_export_v1_ という名前が付けられています。
詳細な使用料金テーブル - 標準の使用料金テーブルのすべてのデータ項目に加えて、リソースレベルの費用データを提供する追加の項目（例: サービス使用量を生成する仮想マシンまたは SSD）が含まれます。BigQuery データセットでは、このテーブルの名前は gcp_billing_export_resource_v1_ です。