背景
これまで、クラウドインフラとしてAWSの経験がメインだったのですが、業務でGoogleCloud(GC)を扱うようになりました。
GCの強みはBigQueryなどデータ分析の領域にあると聞いているので、業務で担当するチャンスがあれば手を挙げられるようになっておきたいと思い、データサイエンスの学習を始めました。
今回はそこで得た知識の定着のため、記事にしました。
※ 少し長くなったので、分野別で3つの記事に分けました
目次
- データサイエンス基礎 ← この記事で説明すること
- 機械学習の基礎
- 機械学習の応用
- データ分析プロセス(CRISP-DM)
1. データサイエンス基礎
検定とは
統計的仮説検定のことで、略して検定という。
検定は「最初に仮説を立て、実際に起こった結果を確率的に検証し、結論を導く」という手順で行い、背理法により結論を導く。
例えば、マーケティング活動の中でABテストの結果に差があったのかを判断するときに、検定を行うことで「その結果に有意な差があったのか」を検証でき、根拠なく判断することを回避することができる。
帰無仮説(否定したい仮説) を立て、それが正規分布の棄却域(ex: 両側5%)に含まれていたら棄却するという手順で検定する。
t検定
下記のような、母平均の検定として用いられる。
- 連続値に対して2グループの比較を行う時(1標本t検定)
ex: 内容量200mlで販売されている、ある製品の内容量が本当に200mlであるかどうかの検定 - 比較するデータ間に対応関係があるか(2標本t検定)
ex: ある学校で行ったテストの点数が1組と2組とで差があるかどうかの検定
カイ二乗検定
ビジネスシーンでよく使われる検定手法。一般的に分布の乖離度を測るもので、ABテストにて用いられることが多い。
- 分割表でまとめられカテゴライズされたデータに差があるのか比較
ex: メールマーケティングで、メールAとBの開封率に有意差があるかどうかの検定
相関関係と因果関係
擬似相関
例えば、年収と摂取カロリーに相関関係が見られるとする。しかしながらこの2変数の裏に「年齢」という隠れた因子(交絡因子)があり、これによってあたかも2変数に因果関係があるように見えることを擬似相関という。
2変数間に相関関係はあっても因果関係があるとは限らないことに注意する。
※ ただし一般的に、因果関係を見つけるのは非常に困難なことが多いため、厳密に因果関係があることを示さずに相関関係のみでアクションを取ることもある。
層別解析
層別解析とは、データをグループ別に分けて解析すること。
データ擬似相関があると疑われるとき、因果関係があるかどうかを判別するための手法。
(逆に、全体では相関関係は現れないが、グループ別に分析すると相関関係が洗われることもある)
今回の例でいうと、たとえ10代・20代・30代...というように層別化してみると、各層では年齢・摂取カロリーの間に相関がないことを発見できる可能性がある。
層別解析のデメリット
- 層別するとサンプルサイズが減るため、各層での推定が不安定になる
- どのようにグループ化するかに、解析者の恣意性が入ってしまう
- データ収集の段階で、運良く因子が測定されていないと層別化できない(今回の例では、年齢がデータに紐づいていなければ層別化できなかった)
因果推論
因果推論とは、入力データと出力データから、その因果関係を統計的に推定していく考え方のこと。
例えば、新薬投与の効果を実証したいときに、投与ありの集団(介入群)と投与なしの集団(対照群)で有意差があるかを検証する際に用いる。
以下、因果推論に関連するワードを説明する。
ランダム化比較実験(RCT)
集団の各群への分割を割り付けと呼び、完全にランダムに割り付けを行って実験することを ランダム化比較実験(RCT) という。
RCTによって、集団間の個人単位では色々な因子があっても、2つの群の分布は平均的に等しいことが期待できるようになるため、介入群と対照群の差は新薬の投与によるものであると言えるようになる。
つまり、検証したい原因となる変数以外の条件を排除し同じとする2グループの比較を行い、因果関係を検証する。
セレクションバイアス
因果推論のために割り付けをする際に起こりがちなバイアス。メジャーなものに下記がある。
- 自己選択バイアス
臨床試験などで参加者を募集すると、健康に自身のある人が集まってきたり、疾患に関心の高い人が集まったりと、参加者の意志が入り込むことによって起こるバイアス。 - 脱落バイアス
情報打ち切りバイアスとも呼ばれる。追跡期間がある研究では何かしらの理由で、被験者が研究対象から外れる(脱落)する場合がある。例えば新薬投与研究で、新薬の副作用で体調を崩した人が多数出た場合に、残った介入群と対照群で比較しても正しい因果関係が得られなくなる。