はじめに
これは「imtakalab Advent Calendar 2024」の25日目の記事です。
本記事では、社会的な学習と意思決定に関する計算モデルを紹介し、シミュレーションを通じて集団のパフォーマンスが異なることを確認します。
集団の知恵と狂気
集合知 (collective intelligence) とは、多数の凡庸な個体が集まることで優れた1つの知能が生じる、という現象を指す言葉です。
ハーバード大学の昆虫学者 William Morton Wheeler が、アリの観察を通じて1910年に発表した概念です。
アリの集団は、単体の能力から想像できないほどに優れたパフォーマンスを見せました。
人間もまた社会を形成し、文明を推し進めてきました。
それは群衆の知恵(Wisdom of the crowd)とも呼ばれ、法や政治、科学や技術など、現代社会の至る所で発揮されているといえるでしょう。
一方で、社会心理学や認知科学では、集団の持つ負の側面があることも確認されています。
近年では、情報通信技術が発達した結果、インターネットを通じて誰でも気軽に情報収集が可能になりました。
その結果、人々がよりよい意思決定をするようになったか?
現実は、そうではない(と思う)。
本記事では、社会情報に基づく意思決定を検討することで、人々の「知恵と狂気のトレードオフ」を調停するメカニズムを検討します。
多腕バンディット問題とその計算モデル
まず、基本となる多腕バンディット問題について説明します。
スロットが何台かあると想像してください。
それぞれ当たりの出る確率が異なっていますが、その確率はわかりません。
規定の回数(100回とか)で、できるだけ多く当たりを出してください、という問題です。
厳密にいうと、以下のように表現できます。
個体は $K$ 個の行動 $a$ を選択することができ、それぞれ確率 ${p_1, p_2, ..., p_k}$ のベルヌーイ分布に従って報酬 $r = {0, 1}$ が返される。
報酬確率は未知であるため、個体は試行錯誤を通じて各選択行動 $a$ の価値を見積る必要があります。
個体は報酬の獲得数をできるだけ大きくすることを目指します。
そのためには、選択行動の価値 $v(a)$ を正しく推定し、なおかつ価値最大の行動をできるだけ多く選択することが重要となります。
このことから、多腕バンディット問題では、情報収集(探索)と利益追求(活用)のバランスを調整することが重要となります。
意思決定の計算モデル
多腕バンディット問題に対する個体の意思決定過程を説明する計算モデルとして、Q学習モデルが頻繁に用いられています。
Q学習モデルでは、古典的条件付け Rescorla–Wagner モデルに基づいて価値関数 $v(a)$ の更新ルールを定めています。
v(a) \leftarrow v(a) + \alpha\{r-v(a)\}
学習率 $\alpha$ が大きいほど、価値は更新されやすくなります。
そして、価値に基づいて確率的に選択します。
選択確率 $P(a)$ はソフトマックス関数により計算されます。
P(a) = \frac{e^{\beta v(a)}}{\sum_k e ^{\beta v(k)}}
ソフトマックスにおける逆温度 $\beta$ は温度の逆数であり、その値が小さいほど、確率は一様に近づき($\beta = 0$で一様)行動は探索的になります。
一方、その値が大きいほど、行動は活用的になります。
$\beta$ は探索と活用のバランスを調整する上で重要な役割を果たしていると言えるでしょう。
社会環境を表すモデルとしてのバンディット
次に、本記事のシミュレーションで題材となるマルチプレイヤー・バンディット課題について説明します。
マルチプレイヤー・バンディット課題では、複数の個体が同一の環境(報酬確率)に置かれて、各個体はできるだけ多くの報酬を獲得することを目指します。
各個体には、前試行での他個体の選択が情報共有されます(各選択肢について何人がそれを選んだかが分かるということです)。
したがって、通常のバンディット問題とは異なり、他者からの情報(社会情報)を利用した意思決定が可能となります。
果たして、社会情報の利用は、単体よりも効率的な選択を促進するのか、あるいは悪化させてしまうのでしょうか?
社会学習の計算モデル
Toyokawa et al. (2019) は、社会情報に基づいた人々の意思決定過程を定式化しました。
社会的影響と非社会的影響の加重平均として、選択確率 $P(a)$ が計算されます。
P(a) = \sigma \times {\rm social\, influence} + (1-\sigma) \times {\rm asocial\, influence}
社会学習率 $\sigma$ が大きいほど、社会情報が重視されます。
非社会的影響としては、Q学習モデルにより算出される選択確率を用いることができます。
マルチプレイヤー・バンディットでは、各個体に前試行 $t-1$ で他個体が選択した頻度 $F(a)$ が社会情報として共有されます。
{\rm social\, influence} = \frac{(F(a) + 0.1)^\theta}{\sum_k (F(k) + 0.1)^\theta}
同調係数 $\theta$ が正の場合では、その値が大きくなるほど他者の選択をマネしやすくなります。
負の場合では、その値が小さくなるほど他者とは異なった選択をします (所謂「逆張り」)。
シミュレーション
シミュレーションの設定について説明します。
課題は以下の通りです。
- 4本腕
- 試行回数は100回
- 報酬確率は開始時 {$0.3, 0.3, 0.3, 0.7$} 、51回目以降 {$0.9, 0.3, 0.3, 0.7$}
各個体のパラメータは、以下の期待値と値域による切断正規分布から生成しました。
パラメータ | 期待値 | 値域 |
---|---|---|
学習率 $\alpha$ | 0.3 | 0 ~ 1 |
逆温度 $\beta$ | 3 | 1 ~ 10 | 社会学習率 $\sigma$ | 0.1 or 0.9 | 0 ~ 1 |
同調係数 $theta$ | 1 or 3 | 0 ~ 10 |