既存ログからBigQueryのスキーマをGuessする

  • 14
    いいね
  • 0
    コメント

はじめに

既存のログからBigQueryのスキーマを推測してくれるツールを作ったので、それを紹介します。

結構複雑なスキーマのログをひとつのテーブルで扱いたいという要件があったので作りました。

使い方

bq_guessというGemで、READMEに書いてあることがすべてです。

例えば次のようなJSON Linesのログがあったとき、こんな感じでスキーマを出してくれます。

$ cat existing_log.jsonl
{"required":123,"optional":true,"nested":{"required":1234,"optional":"yes"},"array":[0,1,2,3,4]}
{"required":456,"optional":false,"nested":{"required":1234,"optional":"yes","nested":{"prop":1}},"array":[5,6,7,8,9]}
{"required":789,"nested":{"required":1234,"optional":"yes","additional":"added"},"array":[]}

$ bq_guess existing_log.jsonl
[
  {
    "name": "required",
    "type": "INTEGER",
    "mode": "REQUIRED"
  },
  {
    "name": "optional",
    "type": "BOOLEAN",
    "mode": "NULLABLE"
  },
  {
    "name": "nested",
    "type": "RECORD",
    "mode": "REQUIRED",
    "fields": [
      {
        "name": "required",
        "type": "INTEGER",
        "mode": "REQUIRED"
      },
      {
        "name": "optional",
        "type": "STRING",
        "mode": "REQUIRED"
      },
      {
        "name": "nested",
        "type": "RECORD",
        "mode": "NULLABLE",
        "fields": [
          {
            "name": "prop",
            "type": "INTEGER",
            "mode": "REQUIRED"
          }
        ]
      },
      {
        "name": "additional",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  },
  {
    "name": "array",
    "type": "INTEGER",
    "mode": "REPEATED"
  }
]

インストールはいつもどおりです。

gem install bq_guess

今のところ、JSON Linesに対応してます。

おわりに

手元の用途だとRECORDとNULLABLEだらけの数千行のスキーマを吐けたのでそこそこ動くんではないかと思います。

ただ、実装がかなり雑なのと自分用にチューニングしてあるのとで、まだまだ何かありそうです。
何かあればこちらまで報告していただけると幸いです :sweat_smile:

この投稿は Goodpatch Advent Calendar 20166日目の記事です。