17
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

2つの異なるデータ分析 - 観察データの分析と実験データの分析

Posted at

two-samurai-fight.jpg

みなさん、観察データと実験データの違いを意識したことありますか?

この2つのデータはそのデータを取得する背景やモチベーションが大きく異なるため、自ずと分析手法やアプローチも異なります。

ところが実際には、ビジネスでのデータ分析の現場においてこのことをあまり意識せず、学校や教科書で学んだ分析手法をそのまま使ってしまうことで、意思決定に役立たない分析結果に行き着いてしまってるケースをよく見かけます。

観察データとは、例えば、売上、注文、コンバージョン、キャンセルなどのようにビジネスや組織を運営しているさいに生じるデータのことです。

本来であれば、こうしたデータを使ってビジネスを改善するための知識を獲得したいにもかかわらず、このタイプのデータ、つまり観察データを分析するために最適な分析手法を学校で学ぶことはほぼありません。というもの、学校の統計学の授業などで学ぶのは、実験データに最適化した分析手法ばかりなのです。

これはおそらく、学校でデータ分析を教える人たち、またはそこで使われる教科書を書いた人たちは科学分野の研究者が多いからだと思います。科学の分野では、実験を行い、それによって得られる実験データを分析し、結論を出していくことになります。

そこでこういった分野ではデータといえば自ずと実験データのことであるため、このデータを分析するために最適な知識と手法を学ぶことが当たり前となるのでしょう。

ところが、学校を卒業し、いざビジネスの現場でデータ分析と思った矢先、せっかく学んだ手法を使うための実験データはほとんどなく、むしろ観察データばかりであるという現実に直面します。もちろんウェブ関連、テック企業などであればA/Bテストを行っていたりするため、実験データの分析が必要となるのですが、たいていのビジネスはそもそもA/Bテストって何?というかんじです。

そこで、観察データを手にするとその違いを意識せず、そのまま実験データのための分析手法を観察データに対して使ってしまうということになってしまいます。

観察データの分析と実験データの分析の違いを理解すると、どういう視点で、またどういうアプローチでデータを分析すればいいのかがよりクリアになります。そこで今回は、このほとんどの人たちに無視されている重要なこと、つまり観察データの分析と実験データの分析の違いについてわかりやすく解説している「Two Types of Data Analysis」という記事があったので、要訳という形でみなさんと共有したいと思います。

以下、要訳。


ばらつきの理解は、データドリブンからデータインフォームドに飛躍するための土台です。もしあなたがデータの中にある「違い」や「変化」が通常のばらつきによるものなのか、特別なばらつきなのか判断できないのであれば、それはノイズとシグナルの違いがわからないということです。つまり、ビジネスで起きている変化を効果的に調べることができないということです。

しかし、ここでもう一つデータを分析するにおいてたいへん重要な点があります。それはひとえにデータ分析と言っても、それが行われる環境には以下の2つの大きく異なるものがあるということです。

  • 実験的データの分析 - あるタイプのデータは実験または何か特別な調査によって生じるデータを使った分析です。何かの変更を加えたグループと何も変更を加えていない2つのグループを比べる、いわゆるA/Bテストと呼ばれるものなどから生じるものです。
  • 観察的データの分析 - 何らかのオペレーションの結果として生じるデータを使った分析です。ビジネスを運営することによって、あなたが観察できるデータが生み出されます。ウェブトラフィック、在庫、売上、投資などをモニターしてるときに見るデータのことです。

この2つのタイプの分析はアプローチが大きく異なります。

実験的データの分析

あるプロダクトマネージャーがやってきて、「オンボーディングのプロセスに変更を加えたのですが、それによってアクティベーションが14%上昇しました。」と言いました。

あなたはどう反応しますか?

もしあなたがプロダクト・グロース(成長)に関するトレーニングを受けたことがある人であれば、「その上昇幅は統計的に有意ですか?」と聞くでしょう。

これは比較実験で、理想的にはその変更が加えられたオンボーディングプロセスを踏むユーザーと、今まで通りのオンボーディングプロセスを踏むユーザーが確保された上で、プロダクト・マネージャーが両者を比較しているものです。

そうあれば、プロダクトマネージャーは新しいプロセスと古いプロセスによるユーザーの行動を比べることができ、その違いが統計的に有意なのかどうかを計算し、判断することができます。

以下はドナルド・ウィーラーによる記述です。

実験をするとき、2つかそれ以上の条件を用意し、どの条件が他に比べてより良い(または悪い)のかを判断します。

それぞれの条件には特別のセットアップと専属の実行環境が必要となるため、いつも限られたデータを使って比較をすることになります。この「限られた」という条件はデータを分析する方法に影響を与えます。

というのも、何かほんとうの違いが出るであろうと思って多くのお金をかけた実験や施策であれば、どんな違いであろうともそれらを検知したいと思いますね。そこで、たとえ手持ちのデータの量が限られているとしても、変化にある程度敏感な分析をしたいと思うでしょう。

こうした制約のもと、違いがあると言って実は間違っているという確率が少しくらいあってもそうしたリスクはあえて受け入れることになります。(これは統計の世界ではアルファレベル、P値の水準値と呼ばれるもので、一般的には5%が使われます。)一回の分析であれば、5%のリスクは一般的に十分に小さいとされ、その値よりも小さいのであれば、ここで観察された違いは有意な違いだと見なされます。

実験的なデータの分析においては、限られたデータを使い、実験によって生み出されるであろうと期待される「違い」を検知するために、一回限りの分析を行います。変化に敏感な分析を行うために、間違って変化を検知してしまうこともありますが、ある程度のそうしたリスクを受け入れ結果を判断するのです。

観察的データの分析

経理のマネージャーが来て、「資金が先月に比べ21%ダウンしているようです。」と言ってきました。あなたはどう反応しますか?

もしあなたがSPC(Statistical Process Control)の手法に詳しければ、「ちょっと待ってくれ。その変化は期待される通常のばらつきじゃないのか?」と答えることでしょう。

これはばらつきに関する話です。すべてのビジネスのデータには何らかの通常期待されるばらつきがあります。どんなものでもいいのでダッシュボードを開いてみてください。するとラインチャートのラインが上がったり下がったりしているのを目にすることでしょう。

ここであなたが知りたいのは、その上昇や下降が通常のばらつきではなく、特別なばらつきなのかどうかです。もしそうなのであれば、その原因の調査をする必要があります。たいていの場合は、本当に懸念すべきかどうか判断する前にちょっと様子を見てみようということになるものです。

以下はドナルド・ウィーラーによる記述です。

ここで私達が注意しなくてはいけないのは想定していない変化が起きたかどうかです。これは実験データで考慮されることとは全く違うタイプの質問です。

ここでは期待される違いがあるかどうかではなく、想定していない変化が起きたかどうかが知りたいことなのです。

何かが起きたと警告する前にその変化はほんとうに起こったものなのか、ある程度自信を持って判断したいため、このタイプの分析は保守的になります。さらに、変化はいつ起きるかわからないので、この質問は絶えず投げかけられるべきものです。新しい値を持つデータが入ってくるたびに、何らかの変化が起きたのかどうか見極めることになります。

これはラインチャートの線に新しいデータポイントが追加されるたびに別の分析を必要とすることを意味します。そこで、観察的データの分析は保守的で、連続的に継続した分析手法を必要とするのです。

ドナルド・ウィーラーはさらに続けます。

継続的な分析をする場合、新しいデータが入ってくるたびに間違った警告を鳴らしてしまうリスクが大きくなりすぎるのを防ぐには、それぞれの分析におけるリスクのレベルをかなり小さいレベルに設定する必要があります。もちろんそのせいでそれぞれの分析における検知力をかなり鈍いものにしてしまうことになりますが、観察的データの分析においては何らかの変化が実際に起きたことを示すデータを待ち続けるという余裕があります。

それぞれの分析において間違って警告してしまうリスクを最小限に抑えるために、一般的には1%以下が水準地とされます。

こうした環境下において何らかのシグナルが検知されたとき、それはビジネスプロセスの中で実際に起きた変化であるだろうと合理的に納得できるものとなります。

そのため、観察的データの分析においては、起こったかもしれない、だれも知らない、または想定していない変化というシグナルを探すために継続して入ってくるデータに対して継続的な分析を行うことになるのです。

データ分析のゴール、知識とは

なぜ、この2つのタイプのデータ分析の違いが重要なのでしょう。

それは、この違いが異なるトレードオフを求めることになるからです。

そもそも、ビジネスの文脈においてデータを使うということは、それが実験的分析であろうが観察的分析であろうが、知識を得ることが目的です。

知識とはあなたの行動による起きる結果を予測するために使う理論やモデルのことです。

この知識を得ることができるかどうかが、データドリブンかデータインフォームドかを分けます。少し例を見てみましょう。

以下は売上に関する会話。

データドリブンな文化:

「売上の指標が悪くなっているようだ。Facebookの広告にもっとお金を費やしたほうがいいんじゃないか。もしくはTikTokを試したり、Youtubeのクリエイターとスポンサー契約をしたりするのはどうか。」

データインフォームドな文化:

「売上のトレンドは今年の2月から悪くなっている。Facebookの広告を買うのはニュースレターを使ったキャンペーンに比べて売上に与える効果は低いということがわかっている。」

次の例はユーザーのオンボーディングとリテンションに関する会話。

やることに意義がある文化:

「先週、オンボーディングのフローがユーザーにとってより簡単で使いやすくなる変更を加えるリリースをしました。この場を借りて、この開発をリードしたジョンにおめでとう!と祝福したいと思います。」

データインフォームドな文化:

「私達はこのリリースから何を学んだのでしょうか?(リリースすることができるチームだということ以外に。)」

「オンボーディングのフローを変えた後、ユーザーのアクティベーションに統計的に有意な上昇が見られた。去年末よりユーザーのコホートのアクティベーションが悪くなってきていたのでこれはいいニュースだ。」

できるプロダクトチームは知識を得ることを重要とします。だめなプロダクトチームはとにかく新しい機能を付け加えることを重要とします。

最後にもう1つの例を見てみましょう。

感覚と経験が重要な文化:

「多分ゴルフトーナメントのスポンサー契約をするのがいいんじゃないかな。というのもたくさんの社長が見てるから、そういう影響力のある人の間での認知を上げるってのはやっておいてもいいんじゃないかな。」

データインフォームドな文化:

「Xというカンファレンスに出展しても売上が良くなることはないだろう。というのもわたしたちにとっての理想的な顧客層が最近変わり、このカンファレンスにはそういった顧客層が来ないからだ。」

もちろん定量的なデータだけが知識を得るために使えるというわけではありません。定性的なデータも役立ちます。私のこれまでの経験では、指標を眺めるよりも、直接お客様と話したほうが多くの情報を得ることができます。

ここでのポイントは、知識を得るためにはいくつものやり方があるということです。

  1. 観察的分析から自分たちのビジネスがどのように回っているのかを理解することができます。(例:Facebook広告への支出は同じにもかかわらず、2月のある時点からFacebook広告経由のトラフィックが通常のばらつきを超えて増えた。)

  2. 実験的分析からユーザーの行動を理解することができます。(例:オンボーディングのフローに変更を加えるとき、それまでのフローが割り当てられるユーザーグループを確保しておくことで、その変更がユーザーの行動に影響を与えるかどうか判断できる。)

  3. 定性的なデータを集めることで自分たちのサービスにもっともフィットしている顧客の特徴を理解できる。(例:普段から多くのセールスや顧客ミーティングを行い現在の顧客の傾向を行っているので、自社の顧客になるような人たちがXというカンファレンスに参加することもゴルフトーナメントを見ることもないことを知っている。)

どういった分析手法をとればよいのか、どのように分析すればよいのか。そんなときはいつも原点に戻って以下の質問をすることが役に立ちます。

「どうやって知識を得ることができるのか?」

ほんとうの知識には予測する力があります。それゆえ、知識があれば、それは効果的なアクションにつながるものなのです。

顧客と話して、「彼女は私達のプロダクトをすごく気に入っています」と言ってみたり、チャートを見て「今週は私達のウェブサイトの価格ページに5,325人の人が見に来てました」と言ったりしているだけではしょうがないのです。

なぜその顧客は自分たちのプロダクトが好きなのかを調べるべきなのです。それがわかればその顧客と同じような人たちを探すことができるからです。また、どうすればウェブサイトへの訪問数を増やせるのかを調べなくてはいけません。それは広告費用と相関しているのか、売上と相関しているのかなど。

実験的分析と観察的分析のトレードオフ

1つ目のトレードオフ:変化の検知に対する敏感度

最初のトレードオフは、実験的分析に使われる分析手法は観察的分析に使われる分析手法に比べてよりセンシティブ(敏感)だということです。このトレードオフは、実験を行うコストが大きいためで、そもそも現実的には実験を行うことが不可能なこともあります。

ドナルド・ウィーラーは以下のように話します。

伝統的な統計学の授業は実験的分析、つまり実験データに適した分析手法にフォーカスしますが、SPC(Statistical Process Control)にとっては観察的データをどう分析すべきかが重要なのです。生徒が、または先生がこの2つのタイプのデータの間にある違いを意識しないとき、混乱が起きるのは避けられません。

信頼区間、仮説検定、回帰分析はいずれも固定され決まった量の実験データから最後の一絞りの情報を得るためにデザインされた手法です。確率分布や水準値といったものは、「違い」に関するリーズナブルなシグナルを見落とすことがないように分析を研ぎ澄ませるためのものです。

それとは逆に、XmRチャートは一般的で固定された3シグマの限界線によってシグナルの可能性のあるものをノイズから切り離します。こうしたチャートは特別な実験や調査を必要とせず、私達のふだんのビジネスオペレーションにおいて得られたデータを使って分析するのを可能にします。これは観察的分析のために作られた道具なのです。

ここで実際の例を見てみましょう。

私達のウェブサイトへのトラフィックを増やすために、ウェブページの上部と下部にブログ記事のトピックを選択できるメニューをつけました。私達の仮説は、この変更によってより多くの人が私達のサイトの価値を認識し、結果トラフィックが増えるというものです。

さてこの変更は実際にユーザーの行動に影響を与えたのでしょうか?

以下はその変更を加えて以来12週のトラフィックデータをXmRチャートで表したものです。(2ページ以上訪れたユーザーのみのデータに絞っています。)

image.png

2週目の7月16日を除き、トラフィックには大した変化が起きていないということがわかりました。(ちなみに7月16日のトラフィックの増加は私達のブログ記事がHacker Newsで取り上げられバズったからです。)

ウェブサイトへの変更によるトラフィックの変化が小さなものであれば、そうした変化を検知するのは難しいかもしれません。しかしもしA/Bテストを流していれば、そうしたちょっとした変化でもキャッチできるかもしれません。もちろんテストに参加するユーザーの数が十分に大きければという前提でですが。

それでは、こうした気づくことが難しいほど小さな変化は追求するに値するのでしょうか。特に私のような比較的ユーザー数が少ないウェブサイトの場合にです。本格的なA/Bテストを流すためにかかる時間やお金はもっと別の重要なことに費やしたほうがいいかもしれません。

もちろんこうした小さな変化でも追求するための実験を行ったほうが良い場合もあります。もしあなたがGoogleやInstagramだとすれば、トラフィックの2%の増加は数十億円の価値があるかもしれません。その場合はA/Bテストのような実験を行い、そこから得られたデータを使った実験的分析が必要となるでしょう。

しかし、いくら会社の規模が大きいからと言って、実験がいつも可能とは限りません。例えば、「キャッシュ・フローに減少が見られたが、これは懸念すべきだろうか?」と言った質問に対して、それでは会社を2つに分けてそれぞれ違うビジネスの活動を行って比べてみましょうとはなりません。こうした場合は、ビジネスを運営することによって得られるデータを観察的分析の手法を使って分析するしかないのです。

2つ目のトレードオフ: 時間

2番目のトレードオフは時間です。

こちらは現在進行中のものですが、現在毎週出しているニュースレターにメンバー向けフォーラムで最も人気の高かったトピックへのリンクを追加するという実験を行っています。これによってこれからリリースする予定の事例ライブラリーに使うフォーラムでのアクティビティを上げれるのではないかというのが仮説です。

image.png

このリンクの追加は10月18日(Oct 18)から始めたのですが、その後22日にはフォーラムユーザーのページビュー数が特別なばらつきとして観察され、効果があったようです。(XmRチャートの上の管理限界線を超えたため)

しかし、私は後6週間ほど継続して様子を見てみようと思っています。現在のところ先程の変更を加えてからまだデータとしては2週間分しかとれておらず、この2つの点を元に計算した管理限界の幅はたいへん大きなものです。

image.png

XmRチャートは判断に使えるレベルの管理限界を計算するためには最低でも6つのデータポイント(今回の場合は6週間)が必要とされ、理想的には管理限界幅が落ち着くまで10から15のデータポイントが必要と言われています。

まとめ

ウィーラー氏はデータ分析の目的はインサイトであり、ベストなデータ分析は必要となるインサイトを提供するためのもっともシンプルな分析だと言います。これは素晴らしいアドバイスです。いつももっともシンプルである道具を求めるべきなのです。それはときには、その道具が一連の顧客インタビューであるかもしれません。

観察的分析、実験的分析、どちらのタイプの分析をやるにしても目的は知識を得ることです。そしてどちらの分析もそれぞれ必要となるとき、状況というのがあり、それを知っておくことが重要です。

ビジネスに関わるほぼ全ての人はビジネスのオペレーションに関する指標を解釈するためのヘルプが必要です。データ分析が重要なのは、それによってあなたがあなたのビジネスについてデータがなければ気づくこともなかったようなことを学ぶことができるからなのです。


要訳終わり。

最後に

データ分析の目的は知識の獲得です。そして、知識とは将来を予測するために役立つものです。そうでなければ、それはただの情報です。

すると知識とは、XをすればYが起きる、といったような因果関係に関するものとなります。ところが、教科書の世界では因果関係はランダム化比較試験やA/Bテストなどをデザインし、その実験から得られるデータを分析しないとわからないといわれます。

しかし、たいていのビジネスでは現実的にはA/Bテストを実行できないため、いつになっても因果関係の知識を得ることができないという罠にハマってしまいます。

そこでたいていのビジネスで得られるデータ、つまり観察データを使って知識を得ることができないか、そのための分析手法はないか、という中で出てきたのが今から80年前に考案され、40年前にデミング氏、ウィーラー氏に再発見されたXmRチャートという管理図で、それを取り入れたのがAmazonのようなアメリカの企業でした。

こうした手法を使うことでビジネス改善のための自分たちの仮説を施策という形で実行し、データを集め、検証する、これは何も実験データでなくとも、ビジネスのオペレーションから出てくる観察データでも行うことができるのです。

より多くの人が、実験データと観察データの違いを認識し、観察データの場合であればXmRチャートなどを使って分析、モニターし、ビジネスを継続的に改善していく、そういったデータインフォームドな文化がより多くの組織の中でできればいいなと思います。

以上。


データサイエンス・ブートキャンプ・トレーニング

いつも好評のデータサイエンス・ブートキャンプですが、現在9月版への参加の申し込みを受付中です!

データサイエンス、統計の手法、データ分析を1から体系的に学び、ビジネスの現場で使える実践的なスキルを身につけていただくためのトレーニングです。

ビジネスのデータ分析だけでなく、日常生活やキャリア構築にも役立つデータリテラシー、そして「よりよい意思決定」をしていくために必要になるデータをもとにした科学的思考もいっしょに身につけていただけるトレーニングとなっています。

興味のある方は、こちらのページより詳細をご確認の上、ご参加検討ください!

17
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
17
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?