はじめに
この文章は The End of Theory: The Data Deluge Makes The Scientific Method Obsolete (Anderson, 2008) の和訳です。10年前の記事で、当時はその過激な内容に結構批判もあったようです。しかし文章自体は今でも通用するほど面白いです。
本文
「すべてのモデルは間違っているが、中には使えるモデルもある」
30年前に自称統計家のGeorge Boxが言ったことは正しかったようだ。しかし我々はどのような選択肢を持っていただろうか? 宇宙から人間の行動に至るまで、モデルだけが不完全ながらも私たちの世界を説明してくれるように思える。しかしそれも現在までの話だ。今日では、大量のデータがある時代に育ったGoogleのような会社は間違ったモデルには満足していない。実際に彼らはモデルにこだわる必要がないのだ。
60年前、デジタルコンピュータによって情報が読めるようになった。20年前、インターネットによって情報が手に入るようになった。10年前、最初の検索エンジンが情報をデータベースにした。今、Googleのような企業は、この大量のコーパスを社会の実験室として扱うことによって、歴史上最も測定される機会が多い時代を駆け抜けている。彼らはPeta-byte時代の申し子なのだ。
Peta-byte時代の尺度では、情報は単純な3,4次元のオーダーで捉えられるものではなく、統計的には認識不可能なものなのである。それは既存の方法とは全く違ったアプローチを要請する。データとは全体を視覚化できるようなものではないのだ。データは最初に数学的に理解されてそのあとに文脈をみられることになる。例えば、Googleが広告業界を席捲したのは応用数学のおかげ以外の何物でもない。彼らは広告の文化や慣例については何も知らないが、優れたデータと分析ツールを用いることで勝利を収めた。そしてGoogleは正しかった。
Googleの設立理念はサイトの優劣の理由を求めないということだった。そのサイトに宛てられたリンク数があれば十分だった。意味的な推論および因果推論は必要ない。これがGoogleがその言語を知ることなく言語を翻訳でき、広告の内容を理解することなく広告とユーザのマッチができる理由である。
現代は大量のデータと応用数学がほかのすべてのツールを置き換えていく世界である。行動科学、言語学、社会学も例外ではない。分類体系も概念仕様も心理学もすべて忘れよう。人々が自分のしていることを行っていることをどうして知れようか? 大事なのは、彼らがやっていて、我々はそれを未だかつてない精度でトラッキングし測定できるということだ。データがあれば、データが語ってくれる。
しかし主な対象は広告ではない。科学だ。科学の様式は検証可能な仮説である。これらのモデルが、大部分は、科学者の心に見られるシステムである。モデルは検証され、実験によって世界がどのように動いているかについての理論的なモデルを確認する。これが科学が何百年もやってきたやり方だ。
科学者は相関が因果関係と異なることを学ぶ。XとYが相関関係にあることからは何の結論も得られない。その代わりに、2つを結びつける隠れたメカニズムを理解しなければならない。モデルがあればデータを確信をもってつなぐことができる。モデルなきデータは雑音にすぎない。
しかし大量のデータの時代にあって、この科学のやり方-仮説生成、モデル作成、検証-は廃れつつある。物理学を例に挙げよう。ニュートン力学は世界の真実の雑な近似だ(今でも有効だが、原子レベルでは異なる)。100年前統計学をベースとした量子力学がより良い見通しを提供した。しかし量子力学でさえ、より複雑な現実世界の似顔絵にすぎないのだ。物理学が数十年もn次元の壮大な統一理論の理論的思索に漂っている理由は、燃料が高いやら加速器が高いやらで仮説を確かめる実験をする方法が見当たらないからだ。
今、生物学が同じ方向を向いている。メンデルの法則を支配する「優勢」「劣勢」遺伝子について我々が学校で教えられたモデルは現実世界をかなり単純化したものだ。遺伝子とタンパク質の相互作用に関する発見とエピジェネティクスに関する知見はDNAに対する見方を変えた。DNAはかつて考えられていたように遺伝的に変えることのできないものではなく、環境の中で変わるものなのだ。
要約すると、生物学について学べば学ぶほど我々はモデルが説明できるところからは離れたところにいることに気づく。
もっといい方法がある。ペタバイトのデータがあれば「相関で十分」なのである。我々はモデルを見るのをやめることができる。データを分析する際に仮説も要らない。データをコンピュータに入れれば、統計的なアルゴリズムによって科学者が見つけることのできなかった関係性を見つけることができる。
最も実践的な例がJ.Craig Venterによるショットガン遺伝子シークエンス法である。高速なシーケンサとそれらの統計的な分析ができるスーパーコンピュータを使ってVenterは個別の臓器から離れて生態系全体のシーケンスを行った。2003年にクック船長の後を追って彼は海の大部分を分析し始めた。そして2005年には彼は大気の分析を行っている。その過程で、彼は何千もの新種のバクテリアや生命体を発見している。
「新種を発見した」という言葉を聞けばダーウィンを思い出して古典的な科学のやり方に固執するかもしれない。Venterは彼が発見した種については何も教えてくれない。彼は種がどのように見えるかも知らないし、どうやって生きていているかもわからない。ただその形を知っているだけである。遺伝子の全体像も知らない。彼が知っているのはその種の遺伝子がデータベース上で固有の配列を持っていて、統計的な点が新種であることを示すということだけである。
このシーケンスは我々が知っている種に似ているかもしれない。その場合Venterはその動物に対して彼らは共通の祖先を持っているかもしれないと推論できる。しかしそれを除いて、Venterはその種に対してGoogleよりも優れたモデルを持っているわけではない。それは単なるデータであるが、Googleクオリティの計算資源を使って分析することによってVenterは彼と同世代の誰よりも生物学に精通することができた。
このような考え方は主流になりつつある。2月NSFはGoogleとIBMが開発した大規模分散計算プラットフォーム上で行う研究に助成を与えるプログラム Cluster Explolatory (CluE)を発表した。このプラットフォームは1600のプロセッサ、数テラバイトのメモリ、数百テラバイトのストレージ、IBMのTivoli、Google File Systemのオープンソース版、MapReduceを含む。初期のCluEプロジェクトは脳神経系のシミュレーションとウェットウェアとソフトウェアの間にあるほかの生物学的な研究を含むだろう。
コンピュータをこの規模で使うことを学ぶのは挑戦的かもしれない。しかしチャンスも大きい。新たに利用可能になった大量のデータとそれらを処理する統計ツールがあれば世界について全く新しい見方を得ることができる。相関が因果を凌駕する。そして科学は一貫したモデル、統一理論、メカニズムの説明なしに進歩することができる。
昔のやり方にしがみつく必要はない。「科学はGoogleから何を学ぶことができるだろうか」という問いに真剣に考えてみるときが来た。
感想
著者の「大量のデータと統計学があればなんでもできる」という姿勢は現在の(あるいはちょっと前の)日本に通じるところがあると思います。ただ2018年の私たちが知っているように、公開から10年後の現在、実際にそのような状況は存在しません。依然として専門家の熟練した知識は必要であり、モデルベースの手法がデータドリブンな手法を上回ることも多々あります。やはり品質の良いデータは貴重でそれらが大量に手に入る状況はまれです。そのようなとき、科学的知見に基づいたモデルベースの手法が役立ちます。
とはいえ、もちろん精度の悪い間違ったモデルを使い続ける必要はないわけです。データをそのまま読み取ること、そこから新たな知見を得ることは自動化されたアルゴリズムの特権ではありません。与えられた仮定を忘れてまっさらな気持ちでデータを見てみるという行為には我々人間も学ぶところが多いのではないでしょうか。