データを使った意思決定という話をする前に、どうしても「モデル」というコンセプトを理解する必要があると思うのですが、この「モデル」という言葉やコンセプトはまだまだ世の中に受け入れられていないような気がします。
もちろん、ここで言っている「モデル」とは、ファッションのモデルでも車のモデルでもありません。データの文脈の中でのモデル、もしくは予測モデルのことです。😅
また、データの文脈の中でこの言葉を聞いたことのある人でも、機械学習の予測モデルという技術的で、狭い意味で捉えている人が多いようです。
しかし、「モデル」とは現実の世界を私達人間が理解できるように、または行動を起こせるように抽象化したもので、私達の意思決定のもととなるものです。そして、ふだん統計や機械学習のアルゴリズムなどによるモデルを作っていない人でも、実は自分の頭の中で顧客、ビジネス、交際相手、友達などを理解するために無意識のうちに作っているものなのです。
例えばの話ですが、アメリカ人というのは「体が大きく」、「がさつ」、「声が大きい」などというのはアメリカ人を理解するために自分の頭の中に持っている「モデル」だと考えることができます。
そして、あるアメリカ人に出会った時にその人がたまたま「小さく」、「丁寧」な人だったりすると、驚くことになったりします。つまり「予測」が外れていたから驚くのです。
こうした私達が頭の中に持つモデルというのは、あまり当てになるものではありません。バイアスがあまりにも多いし、データ量もあまりにも限られているからです。
そこでデータを使って、統計や機械学習のアルゴリズムを使ってしっかりとモデルを作ろうということになるわけです。
つまり、世の中でおきていることをより正確に理解することで、よりよい意思決定を行っていくことができるという期待があるわけです。
こうした意味で、全ての意思決定に関わる人はこの「モデル」というコンセプトを理解することが重要になります。
最近、このことについて、もっと深く切り込んでうまくまとめている「The Model Thinker」という本がUSで出版されました。ミシガン大学の教授で複雑系システム、政治学、経済学を教えているScott Pageによるものです。
その彼が「ハーバード・ビジネス・レビュー」の方に、「なぜ複数のモデルを使って思考できる人はよりよい意思決定ができるのか」というタイトルのエッセイを出していたので、こちらで紹介したいと思います。
以下、要訳。
Why Many Model Thinkers Make Better Decisions - Link
全てのデータとデータソースは使われることではじめて価値があります。これはつまりデータがモデルに組み入れられるということを意味します。モデルとは、データにフィットさせるために適用または調整される特定の法則にのっとった数式によって表現されたものです。
いくつかの組織はその事に気づかずにモデルを使っているものです。例えば、イールド・カーブというのがありますが、同じリスクプロファイルを持つが違う満期日を持つ債権を比較する時に使います。これはモデルだと考えることができます。
採用に関する評価のための指標はモデルのようなものです。採用にふさわしい人材の特徴を書き出すとき、候補者についてのデータを取り、その情報をもとにその人を採用するかしないかのレコメンデーションをだすのです。
他の組織はもっと洗練されたモデルを開発しています。いくつかのそうしたモデルは構造的で現実世界を捉えようとするものです。他のモデルは機械学習やAIを使ってデータをマイニングしてできたものです。
最も洗練された組織、Alphabet(Googleの親会社)からBerkshire Hathaway(ウォーレン・バフェットの会社)やCIAまで、すべてのそうした組織はモデルを使います。さらに彼らはそれ以上のことをしています。彼らはたくさんのモデルを使っているのです。
モデルなしでデータを理解することは難しいものです。
データは完全ではないにしても現実を説明するのに役立ちます。しかしデータだけではどんな意思決定も提案もすることはできません。
ここで、あなたの組織の中でもっとも成功しているチームは最も多様性があるということに気づいたとします。それは興味深い発見かもしれません。しかしそのデータをインサイトとするには、それをモデルに組み込まなくてはいけません。
そうすることで、例えば様々な視点を持つチームはよりよい意思決定に結びつくということを仮説とすることになります。この仮説があなたの世界を表現するモデルとなるのです。
モデルはドメインやプロセスを表現し、変数や数式を使います。実際には多くの人は自分の頭の中でなんとなくモデルを構築しているものです。しかし、そのモデルをしっかりと構築することでより明確になり、より使いやすくなるのです。
例えば、Point Nine Capitalは線形モデルを使って可能性の有りそうなスタートアップの投資機会を探します。そのモデルはチームのクオリティ、テクノロジーなどを表現する変数をもとに作られたものです。
プリンストンやミシガン大学などは、候補者の学校の成績やほかの指標をもとにした確率モデルを作り、入学した生徒が卒業できる確率を予測しています。
議会予算局は、所得、失業率、健康などに関するデータをもとに作った経済モデルを使い、ヘルスケアに関する法律を変えることによるコストを予測します。
これらの例に共通しているのはモデルはじゃぶじゃぶと流れ出ているデータを整理するということです。
こうしたモデルは指導者が現在起きていることを説明したり、情報を効果的に伝えたりするのに役立ちます。モデルは論理的な道筋を与えてくれるので、私達が戦略的な意思決定や予測をすることをサポートしてくれます。
モデルが予測をする者としてであれば、ほとんどの人間よりも正確だというのは驚くべきことではありません。モデルを使う人とモデルを使うことなしにただ予測する人を比べると、モデルを使う人が圧倒的な差で勝ちます。
モデルが勝つのは、人間が持たない能力を備えているからです。モデルはより多くのデータを取り込むことができ利用することができます。モデルは検証されることができ、調整でき、比較することができます。
そして、モデルは論理的におかしいというような間違いを起こすことはありません。モデルは認識に関するバイアスで失敗することはありません。もちろん、人間の持つようなバイアスを起こしてしまったり、それを複製したりすることはあります。
そしてこのことが、複数のモデルを使う方がいいという理由なのです。
複数のモデルを組み合わせる
一つのモデルでも使っている方がいいですが、複数のモデルを使うことはさらにいいです。特に複雑な問題を解決するためには。
なぜかというと、モデルは物事をシンプルにするものだからです。
どんなに多くのデータを取り込んだとしても、いくつかの関連のある変数を逃してしまうし、いくつかの交差するような情報を捉えきれなかったりします。なのである意味、どのモデルも間違ったものなのです。
一つの例です。先にも述べたように、たくさんのベンチャーキャピタルは属性に重みを付けてモデルを使って何千というピッチ(投資してもらうためにスタートアップが行うプレゼンテーション)からよいものを見つけようとします。
よくある属性はチーム、マーケットサイズ、使っているテクノロジー、タイミングなどです。そこで、あるVCはそれぞれの属性に1から5の評価を与えたとし、それぞれに重みのスコアを与えたとすると以下のような数式となります。
Score = 10Team + 8Market size + 7Technology + 4Timing
ブースティングのアプローチは過去のすべての決定からのデータをもとにどこで最初のモデルが失敗したのかを見ます。
例えば、投資の機会があって、チーム、マーケットのサイズ、テクノロジーの全てが5段階評価中5だったにも関わらずうまくいかなかったとします。
これはこのマーケットが混雑しすぎているからかもしれません。チーム、マーケットのサイズ、テクノロジーといった属性はそれぞれ独立した環境では予測をうまくできるかもしれませんが、もしこの3つのすべてでいいスコアを出しているということは、他のチームも同じようにいいスコアをだしているのかもしれません。それゆえに最初のモデルの予測のパフォーマンスがたいしたことなかったのです。
ブースティングの考え方は、他のモデルがだめなときにもっとマシなモデルを探しに行くということです。
ブースティングは大量の過去データがある時に本領を発揮しますが、そんなにデータがない時もあります。
そんなときは、衝突を求めるべきです。お互い反対し合うモデルを見つけるべきです。チームが複雑な意思決定を行う必要のある時、反対意見が出てくることを期待します。みんなが一緒の意見というのは集団思考の悪いサインです。それはモデルにも当てはまります。
集団モデルがシングルモデルを改善できるただ一つの理由はそれぞれのモデルが違うからです。Richard Levinsの言葉を借りるなら、「真実はいくつかの独立した嘘が混じり合うところの存在する。」ということです。それは、相関関係のある嘘どうしが交わり合うところには存在しないのです。あなたの周りをいつもYesという人でかためないのと一緒です。Yesというモデルだけで周りを固めるべきではないのです。
要訳、終わり。
あとがき
機械学習に慣れていない人は、後半のブースティングの話のあたりがわかりにくかったかもしれません。機械学習におけるブースティングという手法は、データの一部を抜き出して予測モデルを作り、そのモデルの予測性能をもとに、モデルがうまく予測できていないところに重みを置いたデータをまた一部抜き出し、そこから予測モデルを作り評価する、ということを繰り返しながらよりよい予測モデルを作っていくというものです。
これは、アンサンブル学習モデルのように、一つのモデルではなく複数のモデルを使うことでよりよい予測結果が得られるということの文脈で出てきた話でした。
冒頭にも言いましたが、結局人間はデータやアルゴリズムを使ってなかったとしても、頭の中で「モデル」を使って予測し、因果関係を考えた上で意思決定を行っているわけです。それを意識して行っているか、気づいていないかは別にして。
そのことが理解できると、その「モデル」の性能を上げたい、予測精度を上げたいとなってくると思います。その延長線上に、データがあり、統計や機械学習のアルゴリズムがあるのだと思います。
つまり、データサイエンスや統計・機械学習というのは普段私達がやってることと何の関係もないところから急に出てきたわけではなく、逆に普段私達がすでに毎日行っていることを、より良くするための手法なのだと考えると、データサイエンスの世界に入りやすくなるのではないかと思います。
今後も機会を見つけてこのあたりの話はどんどんとしていきたいと思うので、お楽しみに!
SaaSアナリティクスと探索的データ分析のトレーニング5月開催!
Exploratoryでは来る5月、SaaSビジネスに関わる方を対象にした、データとアナリティクスを使ってビジネスを改善していくための**「SaaSアナリティクス・トレーニング」と、データの可視化とアナリティクスを使って、よりよい予測と意思決定のための仮説を構築していく「探索的データ分析トレーニング」**を開催します。
データとアナリティクスを使ってビジネスの成長のためのより良い意思決定を行っていきたいと言う方は、ぜひこの機会に参加をご検討ください!
以下のページにExploratory主催のトレーニングの一覧があります。