Googleアナリティクス:正規表現を全く知らない、僕が「UI」だけで参照元の表記ゆれを整えた方法
Webサービスやeコマースを運営していると、ユーザーが自社サイトを訪問する直前に閲覧していたWebページごとにセッション数やコンバージョン数をモニターすることはよくやることの一つです。
そしてそれらの指標を元に、将来どのような流入元に対して投資を行うか検討するということも同様によくある話です。
この流入元のWebページのことをGoogleアナリティクスでは「参照元(ソース)」と言うわけですが、Googleアナリティクスからだと、例えば以下のように同じtwitterからの流入であっても、参照元が「t.co」と「twitter.com」に分かれてしまい、正しくセッション数やコンバージョン数がモニターできないという問題があります。
また仮にExcelやスプレッドシートにそれらのデータをダウンロードして、手作業でそれらの値を整える作業をするとなると、時間が取られてしまったり、手作業がゆえにミスが発生することも起きえます。
そこで、今日はこういった参照元の表記ゆれを簡単に整えて、参照元ごとのセッション数などを可視化する方法を紹介します。
参照元の表記ゆれを整えるステップ
今回は以下のステップで参照元の表記を統一して、参照元ごとの指標を可視化していきます。
- 参照元ごとのセッション数を取得する。
- 値の整形、置き換えが必要な参照元を理解する。
- 不要なドメイン情報を削除する。
- 参照元の値を置き換えて、表記ゆれを統一する。
- データを更新する。
1. 参照元ごとのセッション数を取得する
それでは早速、Google アナリティクスからデータを取得していきます。Exploratoryで新規プロジェクトを作成したら、データフレームの横にある+(プラス)ボタンをクリックして「クラウドアプリケーションデータ」を選択します。
- ExploratoryとGoogle アナリティクスの接続方法 - Link
続いてクラウドアプリケーション・データソースからGoogle Analyticsを選択します。
するとGoogle アナリティクスのデータ・インポート・ダイアログが表示されるので、データを取得するアカウント、プロパティ、ビュー、セグメントを選択します。
続いてデータを取得する期間を設定します。今回は直近1ヶ月のデータを取得して、参照元の表記ゆれを整えて、参照元ごとのセッション数を可視化していきたいので、期間に「直近Nヶ月」、数値「1」を選択します。
続いて参照元ごとのセッション数の取得です。ディメンションに「参照元」を選択し、次に指標から「セッション」を選択し、実行ボタンをクリックします。
すると直近一ヶ月のセッション数がプレビュー画面に表示されるので、保存ボタンをクリックします。
続いてデータフレームの名称設定ダイアログが表示されるので、今回は「source」という名前にして、作成ボタンをクリックします。これでデータの取得は完了です。
2. 値の整形、置き換えが必要な参照元を理解する
まずはチャートで参照元ごとのセッション数を確認していきます。
チャートタブに移動して、タイプに「バー」、X軸に「source(参照元)」Y軸に「sessions」、ソートに「Y1軸」を選択します。
作成したチートを確認すると、参照元の種類が多すぎるため、見にくいチャートになっていることが分かります。加えてExploratoryではチャートを作成する際にカテゴリの数が多いと自動で「Others」というグループを作成して可視化するために、このようにカテゴリが多いデータを集計するときは「Others」グループの数が最大になってしまうことがあります。
今回、理解したいのはセッション数が極めて少ない参照元についてではなく、一定以上のセッション数がある参照元です。そこでセッション数が上位30の参照元に絞っていきます。sessionsの列ヘッダーメニューから「これだけを残す…」、「上位N」を選択します。
続いて数値に「30」、順位をつける値に「sessions」を選択し、実行します。
これでセッション数が上位30の参照元に絞り込めました。
続いてチャートタブに移動します。しかし先程のチャートから変化があるようには見えません。
これはチャートのピンが、セッション数の上位30の参照元に絞り込まれる前に刺さったままだからです。ピンを最新のステップにドラッグします。
これで上位30の参照元のセッション数が可視化できました。
参照元の表記は長くなりがちなので、バーチャートの向きを横向きにします。
これで大分見やすくなりました。
横向きに変えたチャートを見ると、参照元の末尾には「Qiita」のように「.com」といったドメインを含むものとそうでないものがあったりと、本質的に同じ参照元であっても別の参照元になっているものがあることが分かります。
さらに「Google」、「Facebook」、「Twitter」などは同じ参照元であっても名称が微妙に異なるものがあることが分かります。
3. 不要なドメイン情報を削除する
まずは不要なドメイン情報から削除していきます。sourceの列ヘッダーメニューから「テキストデータの加工(UI)」、「取り除く」を選択します。
するとテキストデータの加工ダイアログが開くので、テキストのダイアログに「.com」と入力し、今回は値の末尾の「.com」を取り除きたいので、末尾にチェックをつけプレビューをクリックします。
すると、参照元の末尾の「.com」が取り除かれていることが分かります。
一方で「.io」など不要なドメイン情報はまだ残り続けています。このように、複数の候補を値から取り除きたいときは操作タイプに「テキスト(複数の候補)」、値に「.com, .io」のように候補をカンマ区切りで入力することで、複数テキストを対象から同時に取り除くことが可能となります。
チャートタブに戻って、ピンを最新のステップに置きます。
大分見やすくなってきました。
4. 参照元の値を置き換えて、表記を統一する
続いて参照元の値を置き換えて表記ゆれを統一していきます。テーブルタブに戻って、sourceの列ヘッダーメニューから、「値を置き換える」、「新しい値を指定」を選択します。
置換ダイアログが表示されたら検索ボックスに「facebook」と入力すると、元の値に「facebook」という文字列を含む値に絞り込まれるので、新しい値に「facebook」と入力します。
続いて検索ボックスに「google」とタイプし、先程ど同じように新しい値に「google」と入力します。
表記を統一したい値に対して、新しい値を一通り入力し終えたら、実行ボタンをクリックします。
続いてチャートタブに移動して、ピンを最新のステップに置きます。
これで参照元の表記ゆれを統一して、参照元ごとのセッション数を正しく可視化できました。
参照元の名称も短くなったので、縦向きで可視化しても全く問題ありません。
5. データを更新する
Googleアナリティクスのデータは日々蓄積されるものです。そしてこのような加工、可視化に関するタスクは一回やったりそれで終わりということはなく、定期的にやり続けることになると思います。そういったときに都度同じ時間をかけて作業するようでは、あまりに非効率です。
Exploratoryでは一度作成したデータの加工のステップが保存されるため、データの更新があった際には再インポートボタンをクリックするだけで、データが最新の内容にアップデートされるだけでなく、データ加工に関する全てのステップが再現されますので、一度このようなステップを作成したら、データ構造そのものに変更がない限り、二度と同じ作業をする必要はなくなります。
自分のデータで実際に試してみる
Exploratoryでは30日間、無料でトライアルができます。実際に自分達のデータを使って試してみたい方は下記より無料トライアルをご利用ください!
データサイエンス・ブートキャンプ、5月開催!
データサイエンスの分析手法を一から体系的に学び、現場で使える知識とスキルを身につけていただくためのトレーニング、データサイエンス・ブートキャンプを5月に開催します。
データを使ってビジネスを成長させたい、または問題を解決したいという方は、ぜひこの機会に参加をご検討ください!
詳細はこちらになります。