Treasure Data を使う時にとりあえず読んでおくと良いドキュメント

Posted at 2015-04-08

データインポート

の3種類ある。

Webアプリだと1,3の2つでログ的なものは1, DBにストアしているものは3の方法で入れれば、大抵の場合は良さそう。

TDは基本的にはログをJSON形式で送るだけなので、予めテーブルを作ったり、スキーマを決めておく必要はない。

ただ、データを送信した後に、解析する際、各フィールドをv['user_id']と言った形でアクセスせずに、user_idでアクセスできるようにするために、以下のようにスキーマを定義すると良い。このスキーマを作ることで、デフォルトの型が指定される。また、定義は後で変更することが出来る。

Hive Query の例が色々載っていて参考になる。
ただし、たまに間違いがあるので注意ｗ

UDFを使うとセッションでの最初のアクセス元を求める等、普通のSQLでは書くことが難しいクエリが簡単にかけたりする。