偶然誤差と系統誤差
偏り= バイアス → 真の姿をゆがめるもの
-
疫学調査で観察された結果は、真の姿を反映しているわけではない。
-
ある研究では統計学的に有意にリスクが上昇していたが、別の研究では関連が観察されないことも多くある。
-
真の姿と観察結果の差を、誤差(error)と呼ぶ.
誤差には偶然起こるものと、系統的に起こるものを区別している
- 偶然起こるもの:偶然誤差random error
- 系統的に起こるもの:系統誤差systematic error
偶然誤差
例えば1万人の標的集団から100人の観察対象集団を無作為に抽出することを複数回繰り返した場合、平均値はそれぞれの集団で異なる。ある集団ではたまたま高値の者が多く含まれ、ある集団では低いものが多く含まれて、といったことで、標本の代表値との差を言う。偶然誤差が少ないということは、選ばれた観察対象集団は標的集団をきちんと反映しているといえる。
系統誤差はさらに狭義の物に区分される。
- 選択の偏り
- 情報の偏り
- 交絡
「大阪大学大学院医学研究科ホームページより」
http://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub14.html
誤差の評価
- 精度(再現性,信頼性)=偶然誤差の大きさの指標
- 妥当性=系統誤差の大きさの指標
疫学研究によって何らかの事実を明らかにする場合には、偶然誤差、系統誤差ともに小さくし、精度、妥当性の高いものにしなければならない。
偶然誤差の制御と評価
-
精度の高い(偶然誤差の小さい)疫学研究とは??
→「標本サイズを大きくする」と、観察対象集団の値が標的集団の代表値に近づくため。これしか対処法はない。 -
統計的に精度をどう評価するのか??
→統計学的推定(95%信頼区間)、統計学的検定(有意確率)を用いる。
※推定や検定は精度のみの評価であり、検定の結果が有意(精度が高い)であるからと言って意味のある結果(妥当である)であるとは言えない。
- 標本サイズが大きいほうがいいのはわかるけど....
→大きければ、精度は高くなるが、それに伴う予算、労力も比例的に大きくなる。ではどうすれば...(詳しくは10章で述べるそうです。)
検定か推定か(95%信頼区間と有意確率)
精度の評価は、統計学的推定か統計学的検定の一方を用いればよく、最近は推定のほうが良いとされている。推定のほうがより数量的に偶然誤差の大きさを提示するからである。
信頼区間のほうがいい理由
- 例えば、相対危険が5.0で、その95%信頼区間が1.01~22.4という結果の場合。95%の確率で1.01倍~22.4倍の値をとるので、ばらつきが大きく精度が高いとは言えない。また、ほとんど差がない1.01倍の時は暴露と疾病に関連があるとは言いにくいのではないか。このように、5.0(p<0.05)だけの情報だと、一見有意ではあるが、この結果から暴露と疾病に関連があると論じるのは危険ではないか。と筆者は述べている。
逆に暴露と疾病に関連がないことを示す場合にも有用である。
- 例えば、相対危険が1.1で、その95%信頼区間が0.95~1.28という結果の場合。検定では、1.0をまたぐので有意ではない。しかし、検定結果からでは「母集団の相対危険は1.0」という帰無仮説は棄却できないという結果しかわからないが、信頼区間を示すことで、仮に危険因子であったとしても1.28倍しかないため、あまり大したことがないなどという判断も可能となる。
バイアスとその制御
- 選択の偏りは観察対象集団を抽出する際に起こる。
- 情報の偏りは得られた情報が真の状態と異なるために起こる偏りである。
- 選択の偏りも情報の偏りも研究計画段階で対処しておかなければならない課題である。
- 情報の偏りは非差異誤差分類になるようにする
選択の偏り
標的集団から観察対象集団を抽出する場合に偏った抽出方法を行った結果生じるバイアスを言う。
基本的には、研究の対象である標的集団(target population)から、観察集団(study population)を無作為に抽出するのが原則であるが、そうしない場合に起こる。
「医学書院 基礎から学ぶ楽しい疫学 第3版 p157参照」
母集団と標本の例
現実にある、統計調査のほとんどが標本調査からの母集団推測によって得られたものです。下の表に例をいくつか挙げました。
「to-kei.netより」http://to-kei.net/basic/glossary/sample-space/
調査題目 | 母集団 | 標本 |
---|---|---|
高校生の学力調査 | 全ての高校生 | 学力調査テストを受けた高校生 |
視聴率 | テレビを所有する全ての世帯 | 視聴率調査対象の一部の世帯 |
お客様満足度 | 全てのお客様 | アンケートに答えた一部のお客様 |
内閣支持率 | 全ての有権者 | 調査対象の一部の有権者 |
症例対照研究による選択の偏りの例
不整脈あり | 不整脈なし | |
---|---|---|
喫煙 | 12 | 3 |
非喫煙 | 3 | 7 |
\frac{12 \times 7}{3 \times 3} = オッズ比 9.33
喫煙、不整脈ありの対象者を誤って多く集めてしまった場合
不整脈あり | 不整脈なし | |
---|---|---|
喫煙 | 24 | 3 |
非喫煙 | 3 | 7 |
\frac{24 \times 7}{3 \times 3} = オッズ比 18.66
- この様に、症例や対照を抽出する際に暴露、疾病情報などを知っていたりすると、選択の偏りが生じ、オッズ比に大きな差が生まれてします。
- 一方、コホート研究、介入研究などの順行forward研究では、観察者の抽出時に疾病情報が関係することはないため選択の偏りは生じにくい。
選択の偏りを制御するには
- 観察対象集団を標的集団から無作為に抽出すること。
- 調査対象集団に働きかけて高い参加率を目指すこと。
- 参加者の負担をできるだけ少なくし、調査に協力するメリットも示す
- 症例対象抽出において、暴露情報が参考にならないようにする。
- できるだけ客観的な用件で症例・対象を決定するようにする。
情報の偏り(観察の偏り、誤分類)
- 暴露、疾病発生について研究で得られた情報が事実と異なる場合に発生するバイアスを言う。
- 例えば、喫煙状況について対象者本人への質問法による情報収集では、虚偽の回答がありうる場合など(若い女性は喫煙を隠す傾向にあるらしい)。
- この場合は、尿中のニコチン代謝物の濃度や呼気中の一酸化炭素濃度測定などど信頼性の高い検査項目で、喫煙状況について評価すべきである。
差異誤分類と非差異誤分類
- コホート研究において、暴露群と非暴露群で、誤分類(本当は疾病が発生したのに発生しなかったものとして観察された。もしくは本当は疾病が発生していなかったのに発生したものとして観察された)が発生する確率が同じ場合と異なる場合ではその影響が違ってくる。
- 暴露群と非暴露群誤分類の発生確率が同じ場合を非差異誤分類、異なる場合を差異誤分類という。
- 判断を下すものが複数おり、判断基準が違っている場合にも起こる。
情報の偏りを制御するには??
- 主観的情報ではなく客観的な情報を収集する
- 暴露や疾病発生についての定義をあらかじめ定めておく
- 差異誤分類ではなく非差異誤分類となるように努力する。
- 比較する群間で同一方法で情報収集あるいは判定を行うようにする。
- 症例対象試験では、 暴露情報を伏せて判定させるようにする(盲検化)
選択の偏り、情報の偏りついては、結果の解析段階(データを取り終えてから)では制御できないので、研究の計画段階できちんと制御することが必要である。
選択の偏りの例
標本抽出のバイアス(sampling bias)
母集団または調査対象の全構成員から無作為に標本を選ばない限り、バイアスの生ずる可能性があります。
自己選択バイアス(self-selection bias)
研究に自発的に参加したものと、参加しないものの特性の差によるバイアス。
脱落バイアス(losses to follow up)
研究対象からの脱落が疾病の発生と関連しているバイアス。
罹患率と有病率との違いに基づくバイアス(Neyman's bias)
早い時期に曝露を受けた者を後で振り返って観察する場合、早期死亡者や軽ケース,無症状例などが脱落することがあり、これがもとで起こるバイアス。
持続性によるバイアス(length bias)
一方の集団に長期の罹病患者(最も長期間の生存者)を多く選び、他の集団では選ばれないために生ずるバイアス。新発生患者を対象とせずに有病患者を対象とするときにこのような偏りが生じることがあります。
時間差によるバイアス(lead-time bias)
2群の集団を追跡するとき、両群が時間に関して厳密には比較可能な状態で研究が開始されないために生ずるバイアス。一群が他群に比べて、疾病の自然史の中で、早い時期に診断されるようなときにこのような誤差を生じます。
所属集団によるバイアス(membership bias)
ある群に所属している者は一般集団とは違った健康度を示すことによるバイアス。例えば、企業に勤務する人を調査対象に選んだ場合、一般住民に比べ健康度が高いことがあります。(healthy worker's effect)
バークソンのバイアス(Berkson's bias)
入院記録にもとづき、曝露と疾病の関係を分析しても、結果は正しくないというバイアス。
過去の病院記録に基づく場合、研究対象となる標本は、「自らの意思で来院してきた患者」であり、研究結果を適用したい集団(母集団)から「無作為に選ばれた患者ではない」ことからバイアスが生じる事が知られています。
情報の偏りの例
情報バイアス(information bias)
曝露量と反応に関する情報の質(精度)が比較群の間で異なるために生ずるバイアス。比較群で異なる調査方法を使用する場合などに起こります。
観察者によるバイアス(observer bias)
真の値と観察者によって測定される値の間に生ずるバイアス。これは観察者間の測定のばらつきと同一観察者の異なった測定間のばらつきに分けることができます。
診断バイアス(ascertainment bias)
観察者によって、対象としている患者の基準(例、軽症、中等症、急性症)が異なるために生ずるバイアス。診断過程に生ずる系統的な誤差(患者の治療を行うものの文化、習慣、性格などによって決まる)をいうこともあります。
数字の好みによるバイアス(bias due to digit preference)
測定結果をある種の数にまとめようとする好みで生じるバイアス。最も近い整数、偶数、5または10の倍数などにまるめられるクセなど。
想起バイアス(recall bias)
過去の出来事や経験の記憶を想起するとき、その正確さと完全さが異なるために生ずるバイアス。例:白血病で死亡した子供を持つ母は、健康な子供を持つ母親よりも、その子供が胎内で曝露したエックス線診断の内容をよく記憶している。
発見バイアス(detection bias)
疫学調査における症例の確認方法、診断方法、証明方法などによるバイアス。例えば、病院例は検査所見で診断を確認するのに対して、病院外の症例では同様の検査を実施しない場合があり、選択基準があいまいになります。
思いめぐらしによるバイアス
ケースは自分の疾病についていろいろ思いめぐらすので、思い出し方がコントロールとは異なることによるバイアス。
記憶上のバイアス
ケースは何回も繰り返し尋ねられた経験があるのに対して、コントロールは始めて聞かれることによるバイアス。
家族歴のバイアス
ケースは家族の健康状態に詳しいため、家族歴情報をケースから聞く場合とコントロールから聞く場合とで差があるというバイアス。
報告バイアス(reporting bias)
特定の情報が選択的に抑えられたり、表面化したりするバイアス。例えば、性行為感染症の既往歴。
追従によるバイアス
調査者の気に入るような方向に、回答が変わるバイアス。
面接者バイアス(interviewer bias)
面接者の意識的または無意識的な資料の選択によるバイアス。
気づかいによるバイアス
対象者が思い悩んでいることを尋ねると、それについての情報が通常のレベルから変わるバイアス。
非認容によるバイアス
プライバシーの侵害や赤面させるような事項についての質問は拒否されたり、答えをはぐらかされてしまうバイアス。
要因予知によるバイアス
患者の症状についての知識があることによるバイアス。
「保健医療領域におけるデータ解析支援システムホームページより」http://weber.hs.tmu.ac.jp/cat/project/kihon/baiasu.html