0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Googleデータアナリティクス:バイアスのない客観的なデータ

Posted at

はじめに

本記事は、Googleデータアナリティクスのプロフェッショナル認定証のプログラムより、参照させて頂いています。興味を持った方は、是非受講してみてください。

バイアス

偏見は、 ある人やグループ、または物事に対して 好意的あるいはその逆に働くよう 進化してきました。 意識的な場合もあれば 無意識な場合もあります。 しかし、偏見があることをまず知り それを受け入れることができれば 自分自身の思考パターンを認識し、 管理する方法を学ぶことができます。 このような偏見、つまりバイアスは データの世界でも ありうると知っておくことが重要です。

データのバイアスとは、 結果を特定の方向に 体系的に 歪めてしまうエラーの一種です。

  • アンケートの質問に 特定の傾向があるために 回答に影響を与えたり、 サンプル数が調査対象の母集団を 正しく反映していない可能性がある、 といったことです。

サンプル集団が包括性に欠ける場合 にもバイアスが生じることがあります。

  • 障がい者は、 一般的な健康調査において、 十分に反映されない、 代表性に欠ける、 あるいは排除される、 といった傾向が見られます。

データの収集方法によっても、 データセットに偏りが生じることもあります。

  • 質問への回答時間が短いと、 回答も急ぎ足になります。 急ぐとミスが多くなり、 データの質に影響を与え、 偏った結果を 生む可能性があります。

データアナリストは、 データを収集し始めたときから、 結論を発表するときまで、 バイアスと公正さを考慮します。 何しろ、その結論は 重大な意味を持ちうるのです。

  • 心臓の健康に関する 臨床研究には 女性より男性の方が 多く参加する傾向があることが 知られています。 その結果、女性は症状に 気づくことができず、 結果的に心臓疾患が 発見も治療もされない、 といった可能性すらあるのです。

このように、バイアスは 非常に大きな影響を与えるのです。

バイアスの種類

サンプリング バイアス

サンプリング バイアスは、 サンプルが母集団全体を 表していない場合に起こります。 これを避けるには、 サンプルが無作為に選ばれ、 母集団のすべての分野が等しい割合で 含まれるようにする必要があります。 データ収集の際にこの ランダム サンプリングを使用しないと、 ある結果に偏ってしまうことになります。

あるクラスに 50 人の学生がいて、 暖かい気候と寒い気候のどちらを好むかを 知りたいとします。 あなたは最初に会った 10 人の学生を 調査対象とすることに決め、 その回答に基づき、 クラス全体が暖かい気候を好む、と 判断したとします。

でも待ってください。 ここにバイアスがあります。

実はその 10 人は全員女性で、 アンケートの対象が女性だけに なっていました。 このアンケートは、 ジェンダーに関わる他の識別子を 含んでいないため、クラス全体を 公平に表しているとは言えません。 もし、すべてのジェンダーを含む母集団から より無作為なサンプルを使用したならば、 偏りのないサンプル、つまり 不偏サンプリングになったでしょう。

不偏サンプリングは 測定される母集団を表す サンプルとなります。 偏りのないデータを 活用できているかどうかを確認する もう 1 つの優れた方法として、 結果をビジュアライゼーションして 示すことが挙げられます。 先ほど取り上げたクラスの例では クラス全体の生徒数とそのジェンダーを 棒グラフを使って 可視化することができます。 そして、調査対象とした生徒を示す 同様の棒グラフと 比較することができます。 これをすることによって、 サンプルの不一致を 簡単に特定できます。

観察者バイアス

基本的には、 人によって物事の観察が異なる傾向のこと を表します。 同じ顕微鏡を覗く二人の科学者が、 異なるものの見方をすることも あるでしょう。

また、手動で血圧を測定する際にも 観察者バイアスが 発生することがあります。 血圧計は非常に敏感なので、 医療従事者はしばしば、 かなり異なる結果を得ることがあります。 通常、医療従事者は、 誤差を補正するために、 最も近い整数に切り上げます。 しかし、医師が患者の血圧を常に 切り上げたり、切り下げたりすれば 健康状態が見落とされ、 その患者を対象とした研究では、 正確なデータが得られない ということになります。

認知バイアス

これは、曖昧な状況を 常に肯定的に、あるいは 否定的に解釈してしまう傾向のことを 表します。

例えば、あなたが 同僚とランチをしているときに、 上司から「折り返し電話するように」と 留守電が入っていたとします。 あなたは、きっと何かがあって 上司が怒っているのだろうと思い ムッとして電話を切ります。 しかし、留守電を再生してみると 上司が怒っているそぶりはなく、 むしろ穏やかで誠実な声をしている、と 思うのです。

このように、認知バイアスは、 2 人の人が全く同じことを見聞きしても、 背景や経験が異なるために、 違う方法で物事を解釈する、 といったことをいいます。 あなたは上司との関係性から、 その電話をあるように解釈し、 友人は他人であることから、 別の解釈をします。

このような解釈が データ分析に加えられると、 分析結果にバイアスのかかったデータが 得られてしまう可能性があります。

確証バイアス

これは、既存の信念を確認するような形で 情報を探したり、 解釈したりする傾向のことを表します。 ある人は、直感を確かめようとするあまり、 それを裏付けるものだけに注目して 他のシグナルをすべて 無視してしまうかもしれません。 このようなことは、 日常生活でよく起こります。

私たちがあるWebサイトから ニュースを得るのは、 そのライターが自分と同じ信念を 持っているから、と思うかもしれませんし、 誰かと付き合うのは、その人が 自分と似た価値観だと わかっているからかもしれません。 つまり、相反する視点は、 私たちが持つ世界観に疑問を抱かせ、 信念の体系をも変えるきっかけとなる 可能性があるわけです。 正直言って、変化というものは 大変なことです。 でも、さらに大変なことは 何だと思いますか? 悪いデータがあるときに 良い仕事をするためには、 バイアスを排除することが重要なのです。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?