More than 3 years have passed since last update.

【論文紹介】数字に対する信用について

Last updated at 2021-08-13Posted at 2021-08-13

こんにちは，株式会社Nospare・千葉大学の小林です．
今回はJournal of the Royal Statistical Society Series Aに掲載された論文`Trust in numbers'（Cambridgeのレポジトリ版）について紹介したいと思います．著者はDIC（deviance information criterion）でも有名なDavid Spiegelhalter教授で，本論文は科学研究から出てくる数字に対して信用性を向上させるための施策についての提言が書かれたものになります．

はじめに

この論文では

科学における再現性の危機：少なくとも科学の一部においてクオリティや信頼性について懸念が生じてきたこと
ポスト真実（post-truth）社会：感情的な反応がエビデンスに基づいた判断よりも優位になってしまうこと

という非常に話題性のある問題について触れています．この２つのトピックは密接につながっていて，専門家の見解に対する信用性の低下（という主張）や数字や科学的なエビデンスの使用に対する懸念と関連している，としています．

再現性・復元について

「再現性や復元の危機」という考え方はもともとは生物医学分野で言われていたことですが，今では心理学や他の社会科学でも言われるようになってきています．そもそも「危機にあるのか」については議論がなされてきたようです．最近の研究（Ioannidis, 2014; Szucs and Ioannidis, 2017）では30000近くもの$t$統計量と自由度を心理学や神経科学のジャーナルからスクレイピングして分析したところ，半分以上の研究においてFalse discovery（FD：帰無仮説を誤って棄却してしまうこと）が起きているとの結果となりました．別の研究（Jager and Leek, 2014）は医学ジャーナルでのランダム化比較実験とメタ分析の結果の分析を行い，14%のFDR（false discovery rate）との結果を得ました（これでも高すぎると考えられるようです）．一方で，公表された過去の実験結果を別の研究者たちが同じ結果を言えるかどうか再現する，という実証的な再現プロジェクトも行われています．Open Science Collaboration (2015)の結果では，オリジナルの心理学研究の97%は統計的に有意な結果になっていたが，復元されたもののうち36%しか統計的に有意な結果にならず，オリジナルの研究のうちの大部分はFDであったことを意味しています．また後の研究では新しい結果のうち77%はオリジナルの研究の95%予測区間内に入っているため，オリジナルと復元の結果の間には有意な差異がなく，「有意と非有意の差はしばしば有意でない（ difference between significant and not significant is often not significant; Gelman and Stern, 2006）」という言葉が当てはまる例となっています．また残りの23%ではオリジナルと復元との間に有意な差があるということを示しています．

有意かどうかということを「発見」とするのではなく，効果のサイズに注目するべきです．再現性のプロジェクトでは，再現とオリジナルとでは効果の方向は平均的に同じだったのに対し，効果のサイズは半分ほどでした．これはパブリッシュされた推定値におけるバイアスや「帰無仮説への回帰」を示唆することとなっています．

危機の原因

まず，データの捏造は実際に起きるとはいえ比較的珍しいようです．元データなどを確認することは一般的に難しいので潜在的にもっと多い可能性はあるのですが，例えばFanelli (2009)ではおよそ2%がデータの改ざんを認めたとのことです．数値計算でのエラーのほうがより一般的で，これはオリジナルのデータが手に入るのであれば繰り返し分析を行うことでエラーを見つけることができます．

不正行為や計算の問題よりも，「よい科学的実践に従わずにパブリケーションを出すか死ぬか（publish or perish）という必死さ」（Begley and Ioannidis, 2015）のほうが問題であると強く言われています．つまり，ジャーナルに投稿されるものや採択されるもののクオリティが極めて重要であり，今ある問題というのは「疑わしい研究行為」の産物であるということです．

下のグラフ（オリジナルのグラフを和訳）はアメリカの心理学者に対して行われた調査の結果で（John et al. 2012），改ざんの割合がかなり低いのに対し，研究結果に対して大きなバイアスを生むような他の行為については多く認知されていると同時に，防ぎようがあるとも認知されています．

これらの行為は実験についてのみですが，生物医学分野での観察研究も含めれば次のようなたくさんのバイアスの源が考えられます：

適切なものではなくサンプルを取りやすいものをサンプルとして取る
誘導的な質問や誤解を生むような文言
交絡因子を対処しない，フェアな比較をしない
サンプルサイズが小さすぎる
不適切なモデルの仮定
不適切な統計分析

これらに加えて解釈やコミュニケーションの方法も挙げることができます（後述）．
多くの問題は，多重検定において$p$値を調整しなかった，などというテクニカルなものだけではなく，強調する変数の選択，共変量の選択，連続変数をカテゴリー化するための閾値の選択などといった研究プロセス全体に渡るインフォーマルな選択において起きています．

$p$値が問題の根幹であるという議論もあります．所与のデータからエビデンスの強さに関する主張やその研究の実際の重要性に関する結論までの間が，$p$値によって一足飛びになる傾向が強いようです．

科学において何が起こっているか

疑わしい行為は科学文献に投稿される内容に影響を与え，最終的に何が掲載されるかは出版社が提示された内容を批判して選択する能力にかかっています．理想的には，ピアレビューによって不適切な研究やレポートが排除され，実際の結果にかかわらず優れた科学のパブリケーションが推奨されるべきです．しかし査読が不十分な場合は少なくないですし，（分野によって差はありますが）主要なジャーナルはニュースになるようなポジティブな「発見」を掲載したいので，その結果偏った情報源ができあがってしまいます．

下の表は最近著名な研究者のグループが発表した「再現可能な科学のためのマニフェスト（manifesto for reproducible science）」の概要です（Munafo et al, 2017）．

テーマ	提言	ステークホルダー
方法論	認知バイアスからの保護	ジャーナル，資金提供者
	方法論トレーニングの向上	資金提供者，機関
	方法論に関する独立したサポート	資金提供者
	共同研究とチームサイエンス	資金提供者，機関
レポーティング	研究の事前登録の促進	ジャーナル，資金提供者
	レポートの質の向上	ジャーナル
	利益相反の防止	ジャーナル
再現性	透明性とオープンサイエンスの推進	ジャーナル，資金提供者，規制者
評価	ピアレビューの多様化	ジャーナル
インセンティブ	オープンで再現性のある実践への報酬	ジャーナル，資金提供者，機関

統計科学はこれらの提案の多くにおいて，特に方法論のトレーニング，報告と査読の改善，再分析のためのデータの共有などで大きな役割を担っています．しかし，外部からの解説，批評，稚拙な実践に対して名指しで声を上げる（calling-out）ことの必要性には触れられておらず，これは科学界全体，メディア，一般市民の責任であるとしています．

次の表は医学研究の情報源としてどの職業が信用できるかイギリスの1500人の大人から得られたレスポンスです（Wellcome Trust, 2017）．

職業	完全にあるいはかなり信用できる（%）	全くあるいはほとんど信用できない（%）
医者・看護師	64	6
大学の科学者	59	4
医学研究の慈善団体	37	11
製薬会社の科学者	32	16
産業の科学者	29	16
ジャーナリスト	3	59

大学の科学者よりも強い制約下（デザインの事前設計や規制に対する分析など）で研究を行い，信用性の高い結果を生み出すのにも関わらず信用度は低いものとなっています．一方で，一般に対する主な情報源となっているのにも関わらずジャーナリストはとても低い信用度となっています．

これらのことが示唆するのは，信用というものは一般にエビデンスについての慎重な考慮に基づいたものではなく，直感に基づいて即座に反応するものだということを示していて，日常生活の中であふれる数字，特にニュースで出てくるものを処理する方法につながっています．

ニュースにおける数字

統計的根拠に基づいた主張を行うのは科学者だけではありません．政治家，非政府組織，その他多くの団体が数字や科学を使って一見「客観的」な主張の根拠を示して注目を集めようとします．技術の変化により，オンラインやソーシャルメディアを利用した情報発信が多様化していますが，信頼性の高いエビデンスの使用を保証する管理体制はほとんどありません．これにより，私たちは理性よりも感情に訴えるポピュリズム的な政治的言説の時代にいると指摘されています．

データの捏造や改ざん自体は主要な問題ではなく，これらはファクトチェッキングの組織やcalling-outの組み合わせによってよりうまく対処されるでしょう．

一方で，より大きなリスクは不適切な解釈による操作や誇張によって，テクニカルには正しくても「疑わしい解釈やコミュニケーション行為」によって歪められてしまうところにあります．下の図（オリジナルを和訳）は私たちが統計的証拠を耳にするプロセスを非常に単純化して示したもので，データの発信者から始まり，「authorities」を経て，その報道機関やコミュニケーション・オフィスから伝統的なメディアを経て，最終的に社会の一員である私たちに届くまでのパイプラインの末端としての役割を果たしています．図の中の点線は疑わしい研究，解釈，コミュニケーション行為（選択的なレポート，文脈の無視，重要性の誇張など）に起因するフィルターを表しています．

プレスオフィス，コミュニケーションチーム，ジャーナリストの中には（科学者も含まれる可能性があります），次のような疑わしい慣行を行っているところもあります：

現在のコンセンサスに反するようなストーリーを選ぶ
研究のクオリティに関わらずストーリーの売り込みを行う
不確実性をレポートしない
コンテクストや比較的見地を示さない
関連しか観測されていないのに原因を示唆する
発見の妥当性や重要性を誇張する
エビデンスが特定の政策を支持していると主張する
絶対リスクを示さず相対リスクのみを示す
安心させることか怖がらせることが目的かによってポジティブな構成とネガティブな構成を使い分ける
利害の対立や別の見解をよく考えない
キャッチーだが情報量の少ないグラフの使用
記事との関連性は低いかもしれないがクリックを促すような見出しを書く

このパイプラインでは，科学についての誤ったレポートはジャーナリストに責任があることが簡単に見てとれます．またプレスオフィス，ジャーナル，科学者自身も責任があり，2011年のイギリスの大学による462のプレスリリースでは40%が誇張されたアドバイス，33%が誇張された因果に関する主張，36%が動物研究から人間への誇張された推論があり，報道における誇張の大部分はプレスリリースまで辿れるとのことでした（Sumner et al. 2014）．また生物医学ジャーナルによる534のプレスリリースのうち，21%が論文内での因果に関する主張やアドバイスがプレスリリースにおいて誇張されていたことがわかりました（Sumner et al. 2016）．

誇張や言い換えの例として，スウェーデンの詳細な調査（Khanolkar et al., 2016）では，論文の概要に「高い社会経済的地位と神経膠腫の間に関連性がある」と記述され，プレスリリースの見出しでは「高い教育レベルと高い脳腫瘍のリスクは関連がある」と書かれ，最終的にDaily Mirrorの副編集長は「脳腫瘍のリスクを高めるためになぜ大学へ行くのか」という見出しを打ちました．

イギリスのBBC（British Broadcasting Corporation）統計ガイドラインでは絶対リスクなしに相対リスクのみを使うことに対する警告が明記されています．相対リスクはその大きさにかかわらずメディアでは単に「リスクの増加」と呼ばれることが多く，ストーリーをより面白く見せる効果的な方法であることが知られています．オッズ，レート，ハザード比が生物医学研究の標準的なアウトプットなのですがこれらは役に立っていないようです．

専門知識に対する信用

自然界や社会の仕組みに関する話を聞いてもそれを自分の目で確かめることはほとんどできないため，統計的なエビデンスを扱う際には信用性は避けられない要素であり，専門知識に対する信用性が低下しているという最近の主張には重大な注意が必要です．こういった主張はBrexitのキャンペーンにおいて大きく取り上げられました．近年の金融市場の予測とコントロールの失敗などを見るともっともらしく聞こえますが，信用性の低下に関するエビデンスは様々なようです．エデルマン社のトラストバロメーター（Edelman, 2017）は，信用は「危機に瀕している」と主張しており，彼らの世論調査では「自分と同じような人」は専門家と同じくらい信頼できるとされています．しかし彼らのデータによると2012年以降政府，メディア，ビジネス，非政府組織に対する信頼は全体的に高まっています．最近のYouGov社の世論調査では，科学者の信頼度は71％でしたが，これはEU離脱と残留のどちらに投票するかによって63％と83％の差があり，英国の信頼度では科学者は看護師，医師，一般開業医に次いで4位となっています（YouGov, 2017年）．公式統計に対する信頼のレベルは依然として高く，増加しているようです（National Centre for Social Research, 2017）．2016年に意見を述べることができた人のうち

90%が統計局を信用している
85%が統計局が作成した統計を信用している
78%が公式の数字は正確であると考えている
26％がイギリス政府が公式の数字を正直に発表していると考えている
18％が新聞が公式の数字を正直に発表していると考えている

重要なのは私たちの行動によって判断される能動的な信用であり，信頼されることを期待するだけではダメで，信頼できることを示す必要があるということです．

信用性を上げるには

O'Neill (2013)は、信用を築くことを目指すのではなく、信用性を上げることを目指すべきだと主張していおり，これは能力，誠実さ，信頼性を示すことを意味します．しかし自分が信頼できるかどうかを他人が確認できるような証拠を提供しなければなりません．欺くことは信用を失うことの一番の要因ですが，データの捏造やフェイクニュースなどに注意しすぎると，誤解を生むような，不適切な，信頼性の低いエビデンスの使い方というより重要な問題を見失いかねません．この論文ではつぎの3つの方法で統計のパイプラインにおける信用性を上げることができると提言しています：

コミュニケーションの構造を変える
情報伝達のフィルターを改善する
オーディエンスの信用性チェックの能力を上げる

コミュニケーションの構造を変える

例えば情報を歪めるようなフィルターを回避することが挙げられます．科学者，政府機関，統計学の「専門家」，米国大統領までもがソーシャルメディアを通じて一般市民と直接コミュニケーションをとることが可能になっています．このような技術革新は直接的なコミュニケーションの機会を広げるものですが，クオリティの低い科学や統計を排除するために積極的な役割を果たしているフィルターを迂回してしまう危険性もあります．よってオーディエンスが主張されていることの信頼性を評価できるようになることがより重要になります．

フィルターの改善

O'Neillは上のマニフェストの表にあるような単なる透明性だけでなく，情報は「アクセスシブル，明瞭，評価可能，利用可能」であるべきであるという「インテリジェントな透明性（intelligent transparency）」が必要であると主張しています（Royal Society, 2012）．ここで重要な点は，オーディエンスが信用に基づいてただ情報を受け入れるだけでなくて問い合わせができることです．マニフェストにおけるトレーニング，レポート基準の改善，利益相反の防止なども信用性向上に役立つと考えられます．科学・統計の専門知識に対する信用性向上のためには他にも次のようなことが挙げられます：

不確実性を受け入れる
オーディエンスとの共感，信念や懸念に対する理解
エビデンスから言えることと潜在的な政策提言との間を明確に区別

特に3つめについては，エビデンスの解釈やデータの潜在的な示唆について説明する必要があり，政策の擁護や特定の意思決定を促すようなことになってはいけません．

プレスオフィスやメディアからのアウトプットについては，疑わしいコミュニケーションをしないようにすることを目指します：

ガイドラインの策定・採用（イギリスではBBCが王立統計学会からの協力のもとガイドラインを策定）
統計家とジャーナリストの間の連携
Science Media CentreやSense about Scienceなどといった専門の組織との協働
適切で魅力的な物語化や視覚化によって，データを使った優れたストーリーテリングの促進

数字を物語にするプロセスにはリスクが伴います．ストーリーには起承転結が必要ですが，科学において起承転結はめったにありません．そのため単純化しすぎたり，主張しすぎたりしたくなることがあります．よって，強み，弱み，不確実性といったエビデンスに忠実なストーリーを推奨する必要があります．例えば，薬やその他の医療行為は良いものでも悪いものでもなく，利点もあれば害もあり，人々はそれらを様々な方法で検討して極めて合理的に異なる結論を出すことができる，と言えるようにしなければなりません．

信用性評価の改善

信用性をきちんと評価するための方法として次の２つが考えられます：

批判的評価をできるようにオーディエンスをトレーニングする
「評価者」はそれぞれ異なる能力と関心を持っていますが，分析者が提唱するインパクトを批判する政策専門家であろうと，情報冊子を手にしている患者であろうと，統計エビデンスの信用性を検討している人には同様の原則が適用されるべきです．例えば，Stempra (2017)の「Guide to being a press officer」では，研究の限界を明確にする必要性を強調しています．
レスポンスや名指しのための専用のプラットフォームを推奨する
トレーニングには批判的評価の教材や評価資料の作成，チェックリストの提供，特定のオーディエンスに適した魅力的な例を用いたトリックに対する認識などが含まれます．ストーリーに対してオーディエンスは以下の３つの点について問うことができます：
研究に対する問い：数字自体に対する信用（内的妥当性）
解釈に対する問い：結論に対する信用（外的妥当性）
コミュニケーションに対する問い：情報源や何を伝えられたかに対する信用性（偏り）

下の図は，ファクトチェッカー，ブログ，英国統計局のような公的な監視機関が，統計の使用における悪しき慣習を公に「名指しで非難」できることを示しています．一方で，機能不全な出版モデルにより，科学コミュニティが出版された論文にコメントする機会は主に個人ブログに限られています．撤回はしないまでも，科学者が疑わしい行為をしたり擁護行為に走ったりしても罰則はほとんどないようです．

おわりに

色々な例が挙げられてきましたが，改めてまとめると

情報を伝達する側の研究の実施方法，解釈の方法，コミュニケーションの方法に関するチェック構造の整備と充実，疑わしい行為をする主体に対して名指しで声を上げることができるシステム
情報を受ける側のトレーニング：ただ情報を受け入れるだけでなく，情報が信頼に足るものか判断し批評できるようになる

といったことが重要です．後者については科学及びメディア両方に責任があると考えられます．

株式会社Nospareでは研究者が統計学の様々な分野を専門とする研究者が所属しており，しっかりと統計学の枠組みに則り統計アドバイザリーやビジネスデータの分析を行います．また統計分析の結果をちゃんと理解してコミュニケーションができるようになるための研修も行いますのでご関心がありましたら弊社までお問い合わせ下さい．インターンや正社員も随時募集しています！

参考文献

Begley, C. G. and Ioannidis, J. P. A. (2015) Reproducibility in science: improving the standard for basic and
preclinical research. Circln Res., 116, 116–126.
Edelman (2017) Trust barometer. (Available from http://www.edelman.com/trust2017/.)
Fanelli, D. (2009) How many scientists fabricate and falsify research?: a systematic review and meta-analysis of
survey data. PLOS One, 4, no. 5, article e5738.
Gelman, A. and Stern, H. (2006) The difference between “significant” and “not significant” is not itself statistically significant. Am. Statistn, 60, 328–331.
Ioannidis, J. (2014). Discussion: Why ‘An estimate of the science-wise false discovery rate and application to the
top medical literature’ is false. Biostatistics, 15, 28–36.
Jager, L. R. and Leek, J. T. (2014) An estimate of the science-wise false discovery rate and application to the top
medical literature. Biostatistics, 15, 1–12.
John, L. K., Loewenstein, G. and Prelec, D. (2012) Measuring the prevalence of questionable research practices
with incentives for truth telling. Psychol. Sci., 23, 524–532.
Munafo`, M. R., Nosek, B. A., Bishop, D. V. M., Button, K. S., Chambers, C. D., Percie du Sert, N., Simonsohn,
U., Wagenmakers, E. J., Ware, J. and Ioannidis, J. P. A. (2017) A manifesto for reproducible science. Nat. Hum.
Behav., 1, no. 1, article 0021.
National Centre for Social Research (2017) Public confidence in official statistics. National Centre for Social
Research, London. (Available from http://natcen.ac.uk/our-research/research/public-confidence-in-official-statistics/.)
O’Neill, O. (2013) What we don’t understand about trust. (Available from https://www.ted.com/talks/onora_o_neill_what_we_don_t_understand_about_trust/transcript?language=en.)
Open Science Collaboration (2015) Estimating the reproducibility of psychological science. Science, 349, article.

Sumner, P., Vivian-Griffiths, S., Boivin, J., Williams, A., Bott, L., Adams, R., Venetis, C. A., Whelan, L., Hughes, B. and Chambers, C. D. (2016) Exaggerations and caveats in press releases and health-related science news.
PLOS One, 11, no 12, article e0168217.
Sumner, P., Vivian-Griffiths, S., Boivin, J., Williams, A., Venetis, C. A., Davies, A., Ogden, J., Whelan, L., Hughes,
B., Dalton, B., Boy, F. and Chambers, C. D. (2014) The association between exaggeration in health related
science news and academic press releases: retrospective observational study. Br. Med. J., 349, article 7015.
Royal Society (2012) Science as an open enterprise. Report. Royal Society, London. (Available from https://royalsociety.org/topics-policy/projects/science-public-enterprise/report/.)
Stempra (2017) Guide to being a press officer. Stempra. (Available from https://stempra.org.uk/wp-content/themes/stempra/downloads/2017_stempra_guide_to_being_a_media_officer.pdf.)
Szucs, D. and Ioannidis, J. P. A. (2017) Empirical assessment of published effect sizes and power in the recent
cognitive neuroscience and psychology literature. PLOS Biol., 15, no.3, article e2000797.
YouGov (2017) Leave voters are less likely to trust any experts—even weather forecasters. YouGov, London. (Available from https://yougov.co.uk/news/2017/02/17/leave-voters-are-less-likely-trust-any-experts-eve/.)
Wellcome Trust (2017) Public views on medical research. Wellcome Trust, London. (Available from https://wellcome.ac.uk/what-we-do/our-work/public-views-medical-research.)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up