SaaSのように、サブスクリプションをビジネスモデルとしている会社にとってはリテンション率並びに離脱率は死活的に重要なKPIですが、そうしたリテンション率が下がる、もしくは離脱率が上がって大変な状況になってしまうのを待つのではなく、そういった兆候を早いうちに読み取るために、サービスのエンゲージメントを理解することが非常に重要になります。そして、それを計るためのKPIとしてよく使われるのものに、DAU/MAU (Daily Active User / Monthly Active User)比率というものがあります。これは、1日ごとのアクティブ・ユーザー数を、月ごとのアクティブ・ユーザーの総数で割ったものなのですが、これによって、どれくらいの率のユーザーが日々サービスを使っているかということ、つまりはどれくらいのエンゲージメントがあるのかを計ることができます。
もしこの数字が今月のある日に1(もしくは100%)だったとすると、それは今月のアクティブ・ユーザーのうちの全員がその日にそのサービスを使っていたということになります。そして、それが毎日1だとすると、すべてのアクティブ・ユーザーが毎日使うようなサービスだということになります。GmailだとかFacebookなど、毎日のように使うことが多いサービスはこういった感じになると思います。逆に、一ヶ月に一度しか使わないようなサービスだとするとこの数字ははるかに小さくなるわけです。
もちろんこの数字が大きいとGmailなどのように毎日のように使っているということですから、簡単にはやめられないようなサービスであるということで、自ずとリテンション率が上がるわけです。逆に、この数字が小さいとユーザーからそこまで必要とされてないのかもしれませんし、さらにはそのサービスをキャンセルされることになるかもしれないわけですから、離脱率の上昇につながります。
今日は、このDAU/MAU比率というKPIをデータを加工しながら時系列に沿って計算し、可視化し、さらには向こう30日間この値がどうなるのかと予測するところまで、サクッとやってみたいと思います。
ツール
今回もプログラミングなしでデータサイエンスができるExploratoryを使います。
データのインポート
まずは、こちらの、ユーザー・アクセスログのサンプルデータをインポートします。
すると、サマリービューが現れて、このデータには2016年10月17日から、2017年4月13日までのアクセスログが入っていることがわかります。また、ユニーク・ユーザー数は2105人だということもわかります。
まずは、DAUを求めましょう。
1日の、ユニーク・ユーザー数を求めたいので、まずはtimestampの情報を、1日単位にまとめます。timestampのカラムメニューから、"丸め処理" -> "日付の切り捨て" -> "日"を選択します。
"新規列を作成"のタブを選び、新規列名をdayとします。計算の部分は、そのままfloor_date(timestamp, "day")で実行します。
すると、このように日に丸められた情報が、day列として登録されます。
次に行いたいのが、dayごとの、ユニークユーザー数の計算です。
そのような、「〜ごと」に行う計算は、group_byとsummarizeというコマンドによって実行することが出来ます。
group_byを呼び出すには、カラムメニューから、"グループ化"を選択します。
そして、user.idの値がいくつあるかが知りたいので、user.idのカラムメニューから、"要約(集計)" -> "n_distince(一意の値)"を選択します。
すると、ダイアログが現れるので、新規列名をDAUにします。
これで、1日に何人のユーザーがアクセスしたかというDAUの値が求められます。
次に、同じようにMAUを求めたいのですが、一ヶ月の間のユニークユーザーの数をもとめることになるので、DAUを求める前の、ユーザー情報が残ったデータを使う必要があります。
なので、一度、もとのユーザーログのデータに戻ってから、MAUを求めます。しかし、DAUとMAUの比率を最終的には求めたいので、DAUも残しておく必要があります。
このように、同じデータから二つ以上の異なるデータを作成する必要があるときには、ブランチという機能を活用すると便利です。以下の図のように、分析のステップを派生させることができるのです。
では、このブランチの機能を呼び出してみましょう。一番最初のステップの右上のメニューをクリックし、"ブランチの作成"を選択します。
ブランチの名前は、MAU_dataとしておきます。
これで、ブランチが作成出来ました。
そこで、DAUを求める時に使った同じ手順を、dayの代わりにmonthでグループ化して実行すると、このようにMAUが計算されます。
これで、必要な値であるDAUとMAUが揃ったので、計算をしていこうと思います。
DAU/MAU比率の計算
では、DAU/MAU比率を計算するのに、二つのデータを結合します。
DAU/MAU比率を算出するためには、DAUとMAUの値が同じテーブルの中にある必要があります。そうすることで、DAU/MAU比率が、列同士の計算の結果として算出することが出来るため、簡単だからです。なので、DAUのデータにその月のMAUを結合するために、"day"列の情報を月に揃え、MAUのデータの"month"列と同じ形式にします。
日時の情報を、月初めの日に揃えるのはfloor_dateという関数を使うことで出来ます。それを呼び出すには、"User_Access_Log"のデータフレームに移り、"day"のカラムメニューから、"丸め処理" -> "日付の切り捨て" -> "月" を選択します。
新しく"month"という列を作成したいので、そこで現れるダイアログで、"新規列を作成"タブを選択し、新規列名に"month"を入力します。
テーブルビューに移ると、このように"day"の情報を、その月初めの日に揃えた列が作成されたことがわかります。
この月に対応するMAUの値をとってくるために、MAU_dataのデータフレームを結合します。そのような、データの結合にはJoinを使うことが出来ます。monthのカラムメニューから、"結合"を選択します。
"month"の列をもとに、"MAU_sample"を結合したいので、結合先データフレームを"MAU_sample"にし、結合元の列と結合先の列を"month"に設定し、実行します。
これで、このようにDAUとMAUを一つのテーブルにまとめることができました。
なので、ここで列同士の計算として、DAU/MAU比率を計算します。そういった、列同士の計算には、mutateが使えます。
DAUのカラムメニューから、データ変形(計算の作成)を選択します。
DAU/MAU比率を計算した、新しい列が作りたいので、"新規列を作成"のタブを選択します。新規列名は、"ratio"とし、計算は、求めたい指標である"DAU/MAU"とします。
すると、DAU/MAU比率が新しい列、"ratio"として作成されます。
これで、求めたかった指標である、日々のDAU/MAU比率が列として作成されました。
DAU/MAU比率の可視化
DAU/MAU比率が求まったので、これを一旦、可視化してみます。
このような時系列のデータは、ラインチャートでの可視化が向いています。Vizタブに移り、タイプに"ライン"、X軸に"day"、Y軸に"ratio"をセットします。また、X軸で選んだ、"day"の横のグレーの部分をクリックし、"日に丸める"を選択します。
これで、DAU/MAU比率がどう推移してきたかが可視化されました。日によっては、直前の3倍になっているケースもあり、日によって激しく上下することがあるデータのようです。また、ある程度の周期的な上下の変動もあるようです。こういった情報が可視化をすることによって見えてきます。
推移の予測
このDAU/MAU比率が、今後どうなっていきそうなのか、ということを知ることができれば、取るべきアクションの意思決定に役立てることが出来ます。例えば、上昇していくような予測なのであれば、そこでどうマネタイズするか考え始めても良いかもしれません。しかし、下落するような予測なのであれば、マネタイズよりも、如何にユーザーの満足度を高め、下落を食い止めるかなどに注力した方がよいかもしれません。
そのような予測をするのに、ProphetというFacebookが開発した、強力なアルゴリズムがあります。しかし、使うのはとても簡単です。それを呼び出してみましょう。
左上の "+" ボタンから、"分析を実行" -> "時系列予測を実行"を選択します。
今回、"day"ごとの、"ratio"の値について予測したいので、Date / Time Columnには"day"、Value Columnには"ratio"を指定します。そして、30日分の予測をしてみるのに、Forecasting Time Periodで30を入力します。また、今回のデータは、1年未満のものであるため、年単位の周期性は無いものとします。なので、Return Yearly SeasonalityはFALSEにします。
これを実行し、テーブルビューに移りますと、いくつか列が作成されているのを確認できます。
これによって新しく作成される、"forecasted_value"の列が、このアルゴリズムによって予測される、DAU/MAU比率の推移ということになります。そして、もし実際の値が"forecasted_value_hign"と"forecasted_value_low"の間であれば、それは予測の範囲内だが、それ以上、もしくはそれ以下であれば、想定される以上の変動があったデータということになります。
それを、先程のチャートに追加してみましょう。"forecasted_value"をY軸に追加します。
このオレンジの線が、Prophetによる予測に基づいた値ということになります。
さらに、この予測値に先程の"forecasted_value_hign"と"forecasted_value_low"の範囲を表示させる事ができます。Y2 Axisの右にあるメニューから、"Range"を選択します。
"Show Range"のチェックボックスを選択すると、チャートにオレンジ色で予測の範囲内だと言える幅が表示されます。
さらに、今、オレンジの線で見えているような、振れ幅のある予測値ではなく、全体的な傾向として上がっているのか、下がっているのかを見ることも出来ます。
Y軸でさらに、"trend"を選んでください。
すると、上のように緑の線で、細かい上下の変動を消した形で全体的な傾向を見ることが出来るようになります。すると、1月まで減少傾向だったのが、1月のうちに上昇に転じているといったことがわかります。そこで打った施策が功を奏し、上昇に転じ始めたのかもしれません。
予測に関しても、傾向としては上がっていくという結果が出ているので、リスクをとって大きな変化を起こしていくよりも、どう調子を維持していくのかが大事になってくるかもしれません。
まとめ
今回は、ユーザーのアクセスログのデータから、ユーザーのエンゲージメントの指標である、DAU/MAU比率を計算し、可視化してみました。さらに、Prophetという予測アルゴリズムを用いて、その指標がどういった傾向で推移してきていて、これからどう変化していきそうなのか、簡単に導きだすことができました。
このように、データから正しいKPIを取得し、どういった傾向になっているのかを見極め、出来るだけ早くサービスの改善に役立てていくというのは、特にスピード感が求められるスタートアップや、新規事業の開発などで非常に有用です。そのために、今回のような手法が活用出来るのではないでしょうか。
データ分析をさらに学んでみたいという方へ
今月6月に、シリコンバレーのExploratory社によって行われるデータサイエンス・ブートキャンプが東京で行われます。本格的に上記のようなデータサイエンスの手法をプログラミングなしで学んでみたい方、そういった手法を日々のビジネスに活かしてみたい方はぜひこの機会に、参加を検討してみてはいかがでしょうか。こちらに詳しい情報がありますのでぜひご覧ください。