注意:私は数学が専門ではないので,間違っているかもしれません.もし間違いに気がついた方がいらしたら,コメントを頂けると幸いです.
あまり多くの確率の本を確認したわけではないですが,通常,離散型と連続型の確率(密度)関数は別個のものとして定義されることが多いです.ここでは,これらを統一的に定義する方法を考えてみましょう.
とりあえず確率変数$X$が離散型とか連続型とかの定義をしましょう.まず確率空間を$(\Omega, \mathcal{F},\Pr)$とします.また関数$X$を$\Omega$から$\mathbb{R}$への写像とし,$\mathcal{F}$可測である(すなわち$\{\omega\mid X(\omega)\in \mathcal{B}(\mathbb{R})\}\in\mathcal{F}$)とします.このとき$X$は確率変数です.また,確率変数$X$によって誘導される確率測度を$\mathbb{P}_X(A)=\Pr(X\in A)$と定義します.ただし,$A$はボレル可測集合です.そうすると,測度空間$(\mathbb{R}, \mathcal{B}(\mathbb{R}), \mathbb{P}_X)$が定義できます.さらに累積分布関数を$F(x)=\Pr(X\leq x)$で定義します.ここで,$X$が連続だとか離散型だとかいうのを次のように定義しましょう.
[定義]確率変数における連続型と離散型の定義
確率変数$X$が連続型確率変数であるとは,$\mathbb{P}_X$がルベーグ測度$\mu$に対して絶対連続であるときにいう.また,$X$が離散型確率変数であるとは,たかだか可算な集合$A\subset \mathbb{R}$があって,$\Pr(X\in A)=1$となるときにいう.
いくつか注意点を書いておきます.まず確率変数は$\mathbb{R}$ではなく,$\mathbb{R}^d, d\geq 2$のような多次元の場合にも定義できますが,ここでは簡単のために実数上だけで考えています.また,確率変数は上記の連続型や離散型以外にも様々なものが考えられますが,ここでは連続型と離散型のみを考えます.統計の教科書などでは,連続型と離散型を考えて,それぞれについて議論するという形式を取ることが多いと思いますので,とりあえずはこれらを統一的に扱う方法を考えましょう.
上の定義から次のことがわかります.
[定理]連続型と離散型における累積分布関数の表示
-
$X$を離散型確率変数とする.定義から,$A=\{a_i\in \mathbb{R}\mid i=1,2,\dots\}\subset \mathbb{R}$で$\Pr(X\in A)=1$となるようなものが存在する.このとき,分布関数は
$$
F(x)=\sum_{a_i\leq x}p(a_i)
$$
とかける.ここで,$p(a_i)=\Pr(X=a_i)$ -
$X$を連続型確率変数とする.このとき,ある非負関数$f$で$\int_{\mathbb{R}}f(x)dx=1$となるものを用いて,
$$
F(x) = \int_{-\infty}^x f(x) dx
$$
とかける.
よく知られているように$p$のことを確率質量関数とよび,$f$のことを確率密度関数と呼びます.見たらわかりますが,両者の違いは単に総和か積分かだけです.したがって,ルベーグ積分を用いればこれらを統一的に定義できそうなことがわかります.そのために次のラドンニコディムの定理を用います.
ラドンニコディムの定理
測度空間$(\Omega, \mathcal{F})$上の2つの$\sigma$有限な測度$\mu$と$\nu$について,$\nu$が$\mu$に対して絶対連続であるとき($\nu \ll \mu$と書きます),非負な可測関数$f$が存在して,任意の可測集合$A\in \mathcal{F}$について
$$
\nu(A) = \int_A f(x) d\mu(x)
$$
を満たす.
連続型確率変数については,そもそも定義がラドンニコディムの定理(というかルベーグの分解定理)を意識しているので,素直に密度関数を定義可能です.すなわち,上のラドンニコディムの定理において,$\nu=\mathbb{P}_X$,$\mu$をルベーグ測度とすれば良いです.一方で,離散型の場合は,少なくともルベーグ測度に対して絶対連続ではないので,連続型と同じようにはラドンニコディムの定理は使えません.
離散型確率変数では,ルベーグ測度ではなく計数測度を$\mu$とすれば,絶対連続となります.ただし,この場合の注意点として,測度空間$(\mathbb{R}, \mathcal{B}(\mathbb{R}), \mu)$は,$\sigma$有限ではないので,そのままではラドンニコディムの定理を使うことができないということです.そこで,新たに集合$\mathcal{X}=\{x\in \mathbb{R}\mid F(x)\neq F(x-)\}$を定義します.明らかに,$\sum_{x\in \mathcal{X}}\Pr(X=x)=1$です.また,$\mathcal{X}$はたかだか可算なので,測度空間$(\mathcal{X}, 2^\mathcal{X}, \mu)$は$\sigma$有限となります.これを用いることで,ラドンニコディムの定理を使って離散型の場合についても確率質量関数を定義可能です.以上より次のようになります.
離散型と連続型の確率関数の統一的な定義
確率変数$X$が離散型のとき,$\mathcal{X}$を$F(x)$の不連続点の集合とし,位相として離散位相を入れる.また,測度$\mu$を計数測度とする.もし$X$が連続型のときは,$\mathcal{X}=\mathbb{R}$のようにユークリッド空間を取り,測度$\mu$をルベーグ測度とする.このとき,可測空間$(\mathcal{X}, \mathcal{B}(\mathcal{X}))$において,
$$
\mathbb{P}_X(A)=\int_A f(x) d\mu(x)
$$
を満たす非負な可測関数$f$が存在する.この$f$を確率関数という.
以上の話は,確率質量と確率密度関数を統一的に扱うための話でした.ただ見て分かる通り,すべてを実数上(すなわち可測空間$(\mathbb{R}, \mathcal{B}(\mathbb{R}))$)で議論できないので,多くの本では,面倒を避けるためにラドンニコディムの定理を使って統一的に定義を行っていないのかなと思いました.また,測度論的には,離散型と連続型のミックスとか,そもそも特異な分布も存在するので,密度関数のような特別なものを考えることに重きをおいてもしょうがないという話もあると思います.
同じようなのりで,離散型と連続型の確率変数の入り混じった多変数の場合を考えることもできます.ただその話はまた別の機会にしたいと思います.