自己紹介
始めまして。私はsinkCapital様と一緒にお仕事をさせていただいているhyutaです。
大手SIer企業に従事し、社会人歴8年・データ分析歴3年です。
今まではシステムDBの開発や分析はしてきたのですが、WEBサイト分析系のツール(AdobeAnalyticsとかGoogleAnalyticsとか)のログ開発・分析をやってみて、今までの常識と違うなと思ったことをつらつらと語っていきます。
データ品質において重要なこと
DMBOKとかでデータ品質系の話とか色々ありますが、個人的には分析観点では以下が重要だと思ってました。
①データが欠損しないこと
②データの整合性が取れていること
③データの意味がわかりやすいこと
※もちろん他にも色々ありますが、WEBサイト分析ツールとの今までのGAPってことで上記挙げてます。
特に、システム開発では上記のことが起こらないように注意してテストしたり、DBMS側で制御したりすると思います。
ただ、WEBサイト分析ツールだと結構野良で開発されてたり、ツールの特性だったりでこれまじか?ってことが結構ありました
何が衝撃だったの?
1. まず、WEBサイト分析は欠損することが前提です
え?欠損することが前提??
どういうこと??
データ欠損してたら正しい数値見れないじゃん
その通り、正しい数値は見れないです。何となく雰囲気で見ることになります。
※正しい数値はデータベース側で見てください
じゃあ、なんで正しい数値見れないのかというと、AA(AdobeAnalytics)とかGA(GoogleAnalytics)とかのWEBサイト分析ツールはWEBビーコン型ログというものに属するので、Cookieをオフにされてたりネットワークが切れてたりすると計測ができないケースがあります。
今までの常識をお持ちのお客様と会話する時はこの欠損率を改善してくれ!という話になりがちなので、お客様と合意するときには欠損する前提で会話してくださいね。
※大体5~10%くらいは欠損すると思ってもらえれば
2. データの整合性が合わない
分析するときに本番DBと分析する数値の整合性が取れないと大問題になったりしますよね。
上の欠損に近い話ではあるんですが、これはWEBサイト分析ツール内に閉じたデータでも整合性が合わないことがあるってことです。
WEBサイト分析ツールを分析する方法は大きく2パターンあります
- WEBサイト分析ツールが提供するレポート機能(AAだとワークスペース)を利用
- WEBサイト分析ツールのrawデータ(加工されていないデータ)やDWHのデータを分析環境(Bigquery等)に移行し利用
ここで問題となるのが1,2で同じ分析方法を実施しようとしても数値が合わないケースがあること。
ここの原因分析を実施しようとすると深い闇につっこみに行くことになります・・・
各ベンダーに問い合わせても製品の仕様でブラックボックスになってます的なことになることもあり、ここの数値合わせに全力を注ぐことへの徒労感というかコスパの悪さは半端ないです。
なので、数件の誤差かつ原因調査やったけどようわからんって場合はそういうものだと割り切るしかないんですよね。
あくまで、目的は分析を実施し、傾向を把握することであって、正値を求めることではないのであきらめも肝心ということを念頭に置きましょう。
3.データの意味がぱっと見不明
開発系のDBやマートとかだとカラム名である程度データの内容とかが推察できたりします。
ただ、WEBサイト分析ツール(特にAA)はカスタム変数のメタデータ管理してないとマジでわからないです。
取り合えず、中身観てもフラグ値とかで入ってた時にはお手上げ。
なぜかっていうとAAってeVar/prop/eventってカスタム変数に番号が書いてるだけ(eVar1みたいな)なんです。
そう、番号が書いてるだけなんです!!
いや、番号書いてるだけだと意味わかんないやんけ・・・
これ、各チームの秘伝のたれ(そのチームの暗黙知)とかになってると最悪でデータ分析をそのチームしかできないみたいなことになっちゃいます。
※そもそもドキュメントすらないのは論外
なので、WEBサイト分析ツールを導入する際にカスタム変数入れるときは必ず色んなチームが確認できるようにドキュメント化してください!!
まとめ
総じて、上記があるからWEBサイト分析ツールがダメなのではなく、上記が起きないようにだったり特性を理解して使いましょうってことですね。
ちなみに、WEBサイト分析ツール自体はめちゃめちゃ便利でサイト改善やWEBマーケするなら必須といっても過言ではないです。
慣れてしまうとデータ分析の幅が広がるのでめちゃめちゃ楽しいです。
※あくまで上記は私が感じた所感なので、それは違うよってのがあればコメントもらえると!
以上