こんにちは,株式会社Nospare・千葉大学の小林です.本記事ではGelman and Vehtari (2020)の`What are the most important statistical ideas of the past 50 years?'について紹介します.この論文は過去50年において最も重要だとされる次の8つのアイディアが取り上げられています.
8つのアイデア
- 反事実(counterfactual)に基づく因果推論
- ブートストラップとシミュレーションに基づいた推論
- オーバーパラメータ(overparameterized)モデルと正則化(ガウス過程,Lasso, horseshoe, ベイズnonparametric priorなど)
- ベイズマルチレベル(階層)モデル
- 汎用的な計算アルゴリズム(EM, MCMC, SMC, HMC, 変分法など)
- 適応的決定分析(ベイズ最適化,強化学習など)
- ロバスト推論($M$-openの世界など)
- 探索的データ分析(データ分析の諸ステップでの視覚化)
これらのアイディアに共通することと異なること
アイディアは方法論やワークフローにつながる
上記のアイデアはいずれも既存の問題を解決するための手法というよりも,統計学の新しい考え方やデータ分析の新しい方法を生み出すきっかけになったという点で,特に重要だと考えられています.
- 反事実の枠組みは,因果推論を統計的または予測的な枠組みの中に置くことで因果推論の対象を正確に定義し,観察されていないデータとして統計モデル内で表現できるようになりました.その結果,サーベイサンプリングや欠損データの代入のアイデアにつながりました.
- ブートストラップはノンパラメトリック・モデリングの第一歩となりました.
- オーバーパラメータモデルと正則化は,データからパラメータを推定する能力に基づいてモデルのサイズを制限するという既存の慣習を形式化・一般化したもので,交差検証や情報量規準と関連しています.
- マルチレベルモデルは,データから事前分布を推定する「経験的ベイズ(empirical Bayes)」の手法を定式化したもので,このような手法をより広範な問題において計算上および推論上の安定性を持って使用することができるようになりました.
- 汎用的な計算アルゴリズムにより,因果推論,マルチレベル分析,強化学習など,様々な分野の高度なモデルを応用実践者が迅速にフィットさせることが可能となり,統計学や機械学習のアイデアをより広い範囲に適用させることができます.
- 適応的決定分析は,古典的な実験計画を超えて最適制御の工学的問題を統計的学習の分野に結びつけることができます.
- ロバスト推論は,推論の安定性に関する直感を定式化したもので,外れ値やモデルの誤特定などの漠然とした懸念を処理するための様々な手順を評価し,モデル化する枠組みを提供しました.またロバスト推論の考え方はノンパラメトリック推定の考え方に影響を与えました.
- 探索的データ解析は,データに適合する新しい複雑な確率モデルの問題の理解・診断のために使用されてきています.
計算技術の進歩
メタアルゴリズムとは既存のモデルや推論手順を利用したワークフローのことで,最小二乗法,モーメント法,最尤法など,統計学では常に利用されてきました.過去50年間に開発された機械学習メタアルゴリズムの多くは,データやモデルを何らかの方法で分割していることが特徴です.学習メタアルゴリズムは,divide-and-conquer型の計算手法と関連しており,特に変分ベイズや期待値伝播などが挙げられますが,これらは,パラメータを反復したり,データのサブセットからの推論を組み合わせたりするアルゴリズムの一般化と見ることができます.
メタアルゴリズムと反復計算は2つの理由から統計学において重要な発展を遂げています.まず,複数のソースからの情報を組み合わせる,あるいは弱い学習者を組み合わせて強い学習者を作るという一般的な考え方は,このようなメタアルゴリズムが最初に開発された例を超えて,広く適用することができます.第二に,適応型アルゴリズムはオンライン学習との相性が良く,最終的には、データと学習者の関係を考慮した最新の統計学の考え方を表していると考えられます.情報交換や計算アーキテクチャがメタモデルや推論手順の一部となるような,データと計算が分散した現代的な統計学の考え方を表していると見ることができます.
- ブートストラップ,オーバーパラメータモデル,機械学習のメタ分析などのアイデアは,コンピュータの速度と直結しており,コンピュータが登場する前の世界では容易に想像できないものでした.例えば,ニューラルネットワークの普及は,高性能なGPUやクラウドコンピューティングの導入後に大きく発展しました.
- また計算機の性能だけでなく,計算機資源の分散も重要です.デスクトップコンピュータのおかげで統計学者やコンピュータ科学者が新しい手法を試すことができ,実務家がそれを使うことができるようになりました.
- 探索的データ解析は鉛筆と紙のグラフで始まりましたが,コンピュータグラフィックスの発展で完全に変わりました.
- かつてベイズ推論は、解析的に解くことのできる単純なモデルに限定されていました.しかし計算機の性能向上に伴い,変分法やMCMCにより,モデル構築と推論アルゴリズムの開発を分離できるようになりました.確率的プログラミングが可能になったことで,様々な分野の専門家がモデル構築に集中し,推論は自動的に行われるようになりました.この結果,1990年代以降多くの応用分野でベイズ法が普及することになりました.
- 適応的決定分析,ベイズ最適化,オンライン学習は,機械学習やニューラルネットワークモデルの最適化,リアルタイム画像処理,自然言語処理など,計算量やデータ量の多い問題に用いられています.
- 多変量推論における縮小(shrinkage)は,統計的効率だけでなく計算上の理由からも正当化され,新しい種類の漸近理論の動機となっています.
- 反事実に基づいた因果推論の重要なアイデアは理論的なものであり計算的なものではありませんが,近年因果推論は計算集約的なノンパラメトリック手法の使用によって進歩し,統計学,経済学,機械学習における因果モデルと予測モデルの統一につながっています.
ビッグデータ
遺伝子アレイ,画像や文字のストリーミングデータ,自動運転車などのオンライン制御問題など,現代の計算では,統計解析の機会に加えて新たな統計手法の適用や開発のきっかけとなるようなビッグデータを生み出しています.実際「データサイエンス」という言葉が一般的になった理由の一つとして,このような問題では,データ処理と効率的なコンピューティングが,データを適合させるための統計的手法と同じくらい重要になるということが挙げられます.
本論文で取り上げたアイデアに共通する特徴は,これまでの既存のアプローチと比較してより多くのデータを利用しやすくすることです.
- 反事実の枠組みは,実験のモデル化に使用されるのと同じ構造を用いて観察データから因果推論を可能にします.
- ブートストラップ法は,解析的な計算ができない複雑な調査,実験計画,およびその他のデータ構造のバイアス補正と分散推定のためにに使用することができます.
- 正則化により,オーバーフィッティングをあまり気にすることなくより多くの予測変数をモデルに含めることができます.
- マルチレベルモデルでは,メタアナリシスの原理をより一般的に適用して,様々な情報源からの情報を取り込むためにparttial poolingを行います.
- 汎用的な計算アルゴリズムにより,ユーザーは,利用な可能なデータと課題を結びつけるために必要になるより大きなモデルをフィットさせることができるようになります.
- 適応的決定分析では数値解析で開発された確率的最適化手法が利用されています.
- ロバスト推論により,外れ値や相関関係など,従来の統計的モデリングでは邪魔になるようなデータをより日常的に使用できるようになります.
- 探索的データ解析は,複雑なデータセットの視覚化への扉を開き,整然としたデータ解析の開発や,統計解析,計算,コミュニケーションの統合を促進します.
この50年の間に,SやRに代表される統計プログラミング環境や,BUGSやその後継機に代表される汎用推論エンジンが開発されました.さらに最近では,Jupyter notebookなどの再現可能な研究環境や,Stan,Tensorflow,Pyroなどの確率的プログラミング環境という形で,数値解析,自動推論,統計計算のアイデアが混ざり始めています.そのため,最適化,サンプリング,感度分析などのための自動微分などにおいて,少なくとも推論法と計算法の部分的な統一が期待できます.
繋がりやインタラクションについて
- ロバスト統計と探索的分析:残差プロットのような探索的な手法は,特定のモデルクラス(それぞれ相加回帰とポアソン分布)から導き出されますが,その価値の大部分はそのきっかけとなったモデルを参照せずに解釈できることにあります.同様に,最小二乗法のような手法をデータに対する操作として考え,データ生成プロセスのクラスを考えることもできます.そして、そのような理論的分析の結果を利用して,ブレイクダウンポイントやミニマックスリスクなどに基づいて定義されているかどうかに関わらず,適用範囲を広げるようなよりロバストな手順を提案することができます.逆に,積分のモンテカルロ評価のような純粋な計算方法は,統計的な推論問題の解決策として解釈することができます.
- 反事実,マルチレベルモデル,ブートストラップ:因果推論のための潜在的な結果の枠組みは,母集団の各ユニットに対して異なる治療効果を認めるものであり,効果が変化しうるメタ分析のアプローチに自然に適しており,実験や観察研究の分析においてマルチレベル回帰を用いてこれをモデル化することができます.ブートストラップは正規分布や他のパラメトリックモデルを部分的なプーリングに使用しますが,最終的な推定値はパラメトリックな形式に制限されないノンパラメトリックなアプローチとしての経験的ベイズ(マルチレベル)推論に新たな視点を与えてくれます.
- ロバスト統計と正則化:ウェーブレットやその他の豊富なパラメータを持つモデルの正則化に関する研究は,ロバスト性の文脈で開発された安定した推論手順とつながりを持っています.
- マルチレベルモデルとロバスト統計:正則化されたオーバーパラメータモデルは,機械学習のメタアルゴリズムを用いて最適化され,その結果コンタミネーションに対してロバストな推論を得ることができます.これらの関連性を別の方法で示すと,ロバスト回帰モデルはマルチレベルモデルとして見ることができる混合分布に対応しており,これらはベイズ推論を用いてフィットさせることができます.深層学習モデルは,マルチレベルロジスティック回帰の一形態に関連しており,スプラインやサポートベクターマシンで使用される再生核ヒルベルト空間に関連しています.
- 正則化とマルチレベルモデル:高度にパラメータ化された機械学習法は,超事前分布に対応する正則化項を持つベイズ階層モデルとして見ることができ,教師なし学習モデルは未知のグループ・メンバーシップを持つ混合モデルとして組み立てることができます.ベイジアンの計算手法は,推論や予測における不確実性の把握に役立ち,効率的な最適化アルゴリズムはデルベースの推論を近似するために使用することができます.
次の数十年でどんな統計学上のアイディアが重要か?
まず既存の手法の組み合わせについて、継続的な進展があると考えられます.例えば,正則化を用いて推定された潜在的なアウトカムの高度なモデルを用いた因果推論,時間とともに変化するネットワークなどの構造化データのための複雑なモデル,マルチレベルモデルのロバスト推論,オーバーパラメータモデルのための探索的データ分析,さまざまな計算問題のためのサブセットや機械学習のメタアルゴリズムなどが挙げられます.また,構造化されたデータの実験計画やサンプリングについても進展が期待されます.
また,計算機の進歩にも期待が持てます.一つの方向性として,大規模で複雑な応用問題はより高速なコンピュータで実行されるようになってきており,計算アルゴリズムの効率性についてはまだ理論的限界に達していないようです.一方で,高速な計算機を利用できるようになったことで応用研究者が日常的に大規模な計算を行えるようになり,これが統計学研究に直接影響を与えています.このことは,階層回帰,トピックモデル,ランダムフォレスト,ディープネットなどですでに見られ,これらが一般的に利用できるようになることで多くの応用分野に革命をもたらしました.
開発が熟しているもう一つの一般的な分野は,解釈可能な機械学習と呼ばれることもあるモデル理解(model understanding)についてです.ここでのパラドックスは,複雑なモデルを理解するための最良の方法はしばしばより単純なモデルで近似することですが,その場合の問題は,ここで何が本当に伝えられているのかということです.潜在的に有用なアプローチの1つは,データとモデルパラメータの変化に対する推論の感応度を計算することであり,ロバスト性と正則化のアイデアを多くの異なる統計アルゴリズムで使用されている勾配ベースの計算方法と組み合わせることでしょう.
統計学者が直面している最大の課題と機会についてですが,応用に関連する3つのトレンドは、「ビッグデータ」「汚いデータ」「複雑な問題」です.より多くのソースからのデータを使用すれば,個別化医療,レコメンダーシステム,自動運転などの問題において,よりきめ細かな推論や判断が可能になるはずです.
サンプルサイズがどんどん大きくなるにつれて,統計的推論の重要性が以前よりも低下し,一部の特殊な「スモールデータ」の応用を除いて,純粋に予測的な推論を行う機械学習のアプローチが統計学の役割に取って代わることを意味するのでしょうか?実際はそうではなく,研究者や意思決定者が不確実性や変動の統計的問題に常に関心を持つという「ラストマイル問題」が常に存在すると予想しています.例えば,創薬には機械学習の手法を用い,投与モデルには階層的な微分方程式モデルを用いることができますが,母集団における有効性を推定する際には,サンプルから母集団への一般化,治療から対照群への一般化,観測されたデータから関心のある基本的な構成要素への一般化といった統計的な問題を避けることはできないと考えています.このことは,次の50年で最も重要な統計研究のいくつかが,一方では高次元でノンパラメトリックなモデリングと計算,他方では因果推論と意思決定の接点にあることを示唆しています.
統計学の歴史の多くは外部からのアイデアを取り入れることで成り立ってきました.この分野の強みの一つは,応用とのつながりであり,応用統計学やデータサイエンスが科学や工学の応用分野で行われることが多くなっていることから,統計学の初期の発展が心理学や遺伝学などの応用分野から生まれたのと同じように,新しい進展の多くがそこから生まれてくることが期待できます.統計学は一般的な理論的枠組みだけでなく,具体的なモデルや手法など,他の分野からのアイデアを受け入れる姿勢を持ち続けなければなりません.
最後に,新しい統計学やデータサイエンスのアイデアはほとんどすべて計算コストがかかることから,ソフトウェア工学の単体テストのようなアイデアをノイズの多いデータからの学習問題に適用して,推論方法の検証に関する研究を行うことを想定しています.統計手法が高度化しても,データ,モデル,実質的な理論の間のつながりを理解する必要性は今後も続くでしょう.
おわりに
統計学の研究者でなくても統計学に触れたことのある方でしたら,8つアイデアに含まれるもののうちいくつかは耳にしたり実際に利用したりしたことがあるかもしれません.また最後に記述されているように,機械学習のアプローチが急速に発展している中今後も統計学的な問題解決方法の必要性が必ずある,というGelman先生の言葉も心強いです.
データ分析のお仕事いたします
株式会社Nospareではベイズ統計学に限らず統計学の様々な分野を専門とする研究者が所属しており,新たな知見を日々追求しています.統計アドバイザリーやビジネスデータの分析につきましては弊社までお問い合わせください.インターンや正社員も随時募集しています!