こちらの記事は、Cassie Kozyrkov
氏により2019年 8月に公開された『 What’s the difference between analytics and statistics? 』の和訳です。
本記事は原著者から許可を得た上で記事を公開しています。
アナリティクスと統計分析は、データサイエンスの2つの分野です。両分野を手掛けた初期の重鎮が多いために、両分野の境界線をどこに引くべきかについて、未だに時折の飲みの席が、活発な議論の場になることがあります。しかし、これらの名前を冠した近年のトレーニングプログラムの多くは、実際には全く異なる事の追求に重点が置かれています。アナリティクスの専門家はデータの中に何が含まれているかを調査することを専門としていますが、統計分析の専門家はそのデータの先にどういった要素があるのかを推測することに重点を置いています。
免責事項: この記事は、アナリティクスまたは統計分析のどちらかだけを教えるトレーニングプログラムの典型的な卒業生について書かれており、何かしらの経緯によって両方の知見を深められた人たちを批判するものでは決してありません。優秀なデータサイエンティストは、アナリティクスと統計分析(そして機械学習の両分野において完全な専門家であることが期待されており、稀ではあるものの実際にそのような専門家は存在します。
人間サーチエンジン
もしあなたが自分の取り組みに関連する全ての事実が分かっているのなら、データを使って質問したり、回答したりするには、一般常識が必要なだけです。単純に回答を検索すればよいのです。
今すぐ基本的なアナリティクスを見てみたいですか?例えばGoogleで天気を検索してみてください。検索エンジンを使うとき、私たちはいつも基本的なアナリティクスをしています。この場合、気象データを取り出して見ているのです。
今の時代は子供でも簡単にオンラインで情報を調べられるようになりました。これはデータサイエンスの民主化です。ニューヨークが今日、レイキャビクよりも寒いか知りたいですか?ほぼ一瞬にしてそれが手に入ります。あまりにも簡単で、私たちはもはやそれをアナリティクスと呼ぶことはありませんが、1世紀前に全く同じ情報を手に入れようとするなら、それがどれ程大変か想像してみてください。
サーチエンジンを使うとき、私たちは常に基本的なアナリティクスをしているのです。
もし、ただの事実を報告するのが仕事なら、それは人間サーチエンジンをやっていることと変わりません。残念ながら、人間サーチエンジンの仕事が成り立つかは、上司が自分で答えを調べ、中間者を排除することができることに、決して気がつかないことに掛かっています。優秀なアナリティクスツールがGoogle検索と同じくらい簡単に会社の内部情報を照会できる場合には特に...
インスピレーションの探求者
あなたがもしこれを、アナリスト*の仕事がなくなることを意味するのだと考えたのであれば、それはまだエキスパートに出会っていないということでしょう。データを使って特定の質問に答えることは、そもそもどのような質問に価値があるのか、というインスピレーションを得るよりずっと簡単です。
*訳注 原文ではAnalystですが、ここではアナリティクスをする人のことを指しています。
私は、アナリストのエキスパートが具体的に何をしているかについて過去に記事を書きましたが、簡単に言えば彼らは未開拓の巨大なデータセットからインスピレーションのために情報を発掘する事に徹しています。
「ここにインターネットがあるので、あとはご自由に必要なものをお探しください。」
必要なのは、迅速なコーディング技術とリーダーたちが何にインスパイアを見出すかを見極める鋭い感覚、それに加えて、地中に何があるか(まだ)知らなくても、新しい大陸で鉱物を発掘するような性格の強さです。データセットが大きくなり、そこからどのようなタイプの事実が潜在的に導かれ得るかわからなくなるほど、時間を無駄にすることなくその中を歩き回るのが難しくなります。データから何も見つけられない状態に対処するには、揺るぎない好奇心と精神的回復力が必要です。言うは易く行うは難いのです。
通常、アナリティクスのトレーニングプログラムでは、大量のデータセットを見るためのソフトウェアスキルを教えますが、統計のトレーニングプログラムでは、これらのスキルはオプションになるでしょう。
既知からの跳躍
不完全な情報と対峙しなければならないとき、ハードルは高くなります。不確実性がある場合、あなたが興味のあることをデータがカバーしないため、結論を出す際には十分な注意が必要です。優秀なアナリストが安易に結論を出さないのはこのためです。
事実を超えたところに手を伸ばそうとするとき、優秀なアナリストは代わりにオープンマインドになろうとします。考えを大きく開いておくことが大切で、そうでないと確証バイアスに陥ってしまいます。例えばデータに20のストーリーが考えられる場合でも、あなたが信じている一つのストーリーにのみ着目して、他はスルーしてしまう事になるのです。
初心者は探索的なアナリティクスの目的は質問に答えることだと考えますが、実際には質問を提起することなのです。
両者の訓練プログラムの重点が反転しているところは以下の通りです: 不確実性の下で馬鹿げた結論を避ける事が、統計学コースの根本的な目的であるのに対し、アナリティクスのコースは、推論の数学や認識論のニュアンスに軽く触れる程度です。
統計の厳密さがなければ、データから不注意に飛躍した結論は、失敗に終わる可能性が高くなります。(アナリストのためのヒント: 統計の分野を完全に避けたいのであれば、結論を出したいという誘惑には抵抗しましょう。それだけです!)
アナリティクスは仮説を立てるのに役立ち、質問の質を向上させます。
統計分析は仮説の検証に役立ち、回答の質を向上させます。
データに精通していない人に共通する失敗は、探索的アナリティクスの目的は質問を提起する事であるのにもかかわらず、質問に答える事であると考える事です。アナリストによるデータ調査は、より適切な質問を提起するための手段であり、彼らが見出したパターンは、新たなデータによって統計的に検証するまでは完全に鵜呑みにしてはいけないのです。アナリティクスは仮説を立てるためにありますが、統計分析はそれを検証するためにあります。
統計分析の専門家は、アナリストがそのデータセットで発見した現象・傾向が、それ以外の場合にも当てはまるかのようにするのが妥当かどうかを検証します。
私はデータサイエンスの他の分野の人たちが、アナリティクスの人たちに、方程式が怪しいと言って、他のデータを使って非難するのを多く見てきました。しかし第一には、アナリティクスのエキスパートたちは彼らと全く同じ方程式を(単に異なる目的で)使用しています。第二には、浅く広いことを横側から見ると、狭く深く見えるのです。
さらに、私はアナリストの役割の誤解によってデータサイエンスの有用性が損なわれてしまう場面を数多く見てきました。データサイエンス組織の有用性は、強力なアナリストの前衛に左右されます。さもないと、見当違いな場所を念入りに掘り下げる羽目になってしまいます。だからこそ、アナリストに投資して感謝した上で、統計学者にアナリストが生み出した潜在的な洞察を厳正に検証させましょう。
どちらも必要!
優れた質問と優れた回答のどちらを取るかは難しい選択(そしてしばしば時代遅れ)です。そのため、それぞれの分野の専門家を個別に雇えるのであれば、それができるに越したことはないでしょう。しかしながら、必要なコストは人員だけではありません。豊富なデータと彼らに貢献してもらえる強みを活かすために、データを分割するという習慣も必要です。(最低でも)2つ以上のデータセットを用意することで、まず最初にインスピレーションを得て、想像ではない何かに基づいて理論を形成した上で、その理論が正しいかを確認する事ができます。これこそ物量が持つ特権です。
この違いを誤解すると、統計分析の専門家による無用な批判が起きたり、アナリストによる規律のない意見が大量に最終的な製品として売り出されてしまうのです。
大量のデータを持てるようになった今、データを分割する習慣を持たない唯一の理由は、前世紀のデータ不足の中では単純にそれができなかったからです。当時は分割できるだけのデータを集めるのは困難でした。長い歴史がアナリティクスと統計分析の間の壁を硬化させたため、今日では両者の関係は冷たいものになっています。これは、物事を再考することを忘れてしまったがために、私たちに今でも付きまとっている古い考え方です。その結果、統計分析の専門家による無用な批判が起きたり、アナリストによる規律のない意見が大量に最終的な製品として売り出されてしまっています。あくまでデータから価値を引き出すことに重きを置いていて、そのデータも豊富にある今、インスピレーションと厳格さの両方が必要とされる場所でそれを活用しない理由はありません。今こそデータを分割しましょう!
両方の分野のデータの専門家を扱う余裕があるのなら、それは難しいことではないはずです。
データを分割することによって、それぞれの分野がお互いの分野の能力を大きく増強できることにひとたび気づけば、どうして他の方法でデータにアプローチするのか不思議に思うことでしょう。
翻訳協力
Original Author: Cassie Kozyrkov
Thank you for letting us share your knowledge!
この記事は以下の方々のご協力により公開する事が出来ました。
改めて感謝致します。
選定担当: yokoji
翻訳担当: siho1
監査担当: @nyorochan
公開担当: asuma yamada