こういう分布推定の問題、やったことありませんか
統計なりマーケティングなりに関わる仕事をしていると、限られたサンプルから母集団全体の傾向を知りたいというニーズには一度は出会ったことがあるだろう。それがいわゆる母集団推定であり、これに関しては信頼区間など、様々な指標・方法が確立している。
しかし時に、母集団推定と設定は似ているが、異なる対象を推定したいと考えることがある。文字で書き下すより、図で表現した方が正確に伝達できると思われるため図にて記す。
こんなニーズありえるの?と思われるかもしれないが、あり得るのである。詳細は伏せるが、例えば「特定のラベルを持つデータ」部分を「自社のアプリ利用者」と置き換えてもらえればピンとくるかもしれない。
日本の人口$N_{m}$は国勢調査なり人口統計でわかるし、全アプリ利用者$G_{m}$は運営元なら当然把握できるだろう。(簡単のため、ここではアプリは国内限定配信とし、1人が複数の端末にアプリをインストールしているケースはないものとする)
そして、特定の条件に合致するアプリ利用者数を調べたところ$G_{s}$人だった。この時、日本全体で同じ条件を満たす人は何人いるだろうか?という問題である。
この問題では、通常の母集団推定と関係性が異なっているせいで信頼区間はそのままでは使えない。数式で言うと二項分布の逆数比を求めるような問題になると思われる。
ベイズ的には標本総数の事前分布を一様分布と仮定して、$G_{s}$の値から事後分布を求める、というような解決法になるだろうが、上のような事例では同時に複数サンプリングをすることは出来ない。仮に毎日「特定の条件に合致するアプリ利用者数」を調べ続けたとしても、$N_{m}$はともかく、$G_{m}$、$N_{s}$は日々無視できないぐらい変化するからだ。
こうやって書いていると、絶対にどこかの先人が取り組んで一定の解法を出しているのではないかと思うのだが、自分の情報収集能力が足りないのか、今に至るまで「これだ!」という手法を見つけることが出来ていない。
ご存知の方いましたらぜひともご教示いただければ幸いです。。