笔记

贝叶斯数据分析(3)——单参数模型(二)

贝叶斯数据分析(3)——单参数模型(二)

本笔记基于Bayesian Data Analysis Third Edition, Andrew Gelman et. al. 学习编写,由于是英文教材,可能在学习过程中一些翻译或者内容有误,如有问题或错误,可以发送至邮箱[email protected]反馈。在学习本书中,需要有一定数学基础或者数理统计的基础,并且存在很多需要计算的场景,对于每一条定理,从头开始的证明会让你更明白每一步是如何实现的。

我们之前谈论过了二项分布的单参数模型,现在我们来看更多的单参数模型,看看其他分布下的模型的求解方式:

已知方差的正态分布(Normal distribution with known variance)

共轭先验的便利计算

正态分布,是所有统计分布里用的最广泛的和最基础的分布。因为其中心极限定理可以帮助我们使用正态似然来简化统计学问题,使得变成一个更容易分析实际似然的问题。因为我们后面会知道,即使正态分布不能提供一个很好的拟合效果,但它仍然是一个很有用的成分当涉及到 t 分布或有限混合分布的更复杂的模型的情况。

对于已知方差 σ2\sigma^2 的正态分布,那么未知数是位置参数 θ\theta,即其分布似然为:

p(yθ)=12πσe12σ2(yθ)2p(y|\theta) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^2}(y-\theta)^2}

为了展示方便,我换成这种写法:

p(yθ)=12πσexp(12σ2(yθ)2)p(y|\theta) = \frac{1}{\sqrt{2\pi}\sigma}\exp({-\frac{1}{2\sigma^2}(y-\theta)^2})

我们之前提到过共轭先验的概念,其是说当一个先验分布乘以似然分布的检验得到的后验分布,其后验分布的分布类型与先验分布一样,则先验分布为似然分布的共轭先验。

当似然分布正态分布时,我们的先验分布就可以设置成正态分布,此时后验分布也会是正态分布:

我们不妨设置先验分布服从 θN(μ0,τ02)\theta \sim N(\mu_0, \tau_0^2), 那么我们的先验可以写作:

p(θ)exp(12τ02(θμ0)2)p(\theta) \propto \exp\bigg(-\frac{1}{2\tau^2_0}(\theta-\mu_0)^2 \bigg)

其中,这里的 μ0,τ02\mu_0, \tau_0^2 为超参数,在这一步中,我们会假设这些超参数是已知的。

然后我们就可以计算后验分布了:

p(θy)exp{12σ2(yθ)212τ02(θμ0)2}=exp{12[(1σ2+1τ02)θ22(yσ2+μ0τ02)θ+const.]}exp{12(1σ2+1τ02)(θyσ2+μ0τ021σ2+1τ02)2}.\begin{aligned} p(\theta|y) &\propto \exp\left\{ -\frac{1}{2\sigma^2}(y-\theta)^2 -\frac{1}{2\tau_0^2}(\theta-\mu_0)^2 \right\} \\[4pt] &= \exp\left\{ -\frac{1}{2} \left[ \left(\frac{1}{\sigma^2}+\frac{1}{\tau_0^2}\right)\theta^2 -2\left(\frac{y}{\sigma^2}+\frac{\mu_0}{\tau_0^2}\right)\theta +\text{const.} \right] \right\} \\[4pt] &\propto \exp\left\{ -\frac{1}{2} \left(\frac{1}{\sigma^2}+\frac{1}{\tau_0^2}\right) \left( \theta- \frac{\frac{y}{\sigma^2}+\frac{\mu_0}{\tau_0^2}} {\frac{1}{\sigma^2}+\frac{1}{\tau_0^2}} \right)^2 \right\}. \end{aligned}

于是乎,我们可以切换一些形式,令

1τ12=1τ02+1σ2,μ1=1τ02μ0+1σ2y1τ02+1σ2\frac{1}{\tau_1^2} = \frac{1}{\tau_0^2} + \frac{1}{\sigma^2}, \qquad \mu_1 = \frac{\frac{1}{\tau_0^2}\mu_0+\frac{1}{\sigma^2}y} {\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}}

则:

p(θy)exp(12τ12(θμ1)2)p(\theta|y) \propto \exp\left( -\frac{1}{2\tau_1^2}(\theta-\mu_1)^2 \right)

我们在后验分布里也得到了正态分布(这种采用共轭先验的计算方法会大幅度减少我们的推理过程)

后验分布的precision

这里需要明确的是,这跟机器学习里的precision完全不一样,需要做出详细区分

Precision in Bayesian analysis: 指的是方差的倒数,如我们上面展示的 1/τ121/\tau_1^2 就是后验分布的精确度

我们在上面留意到,**后验分布的精确度 = 先验分布的精确度 + 来源数据的精确度 **。

对于我们的均值,这看着还是很唬人,我们详细来看看:

分子是先验和观测值的加权平均,加权的权重就是先验和似然的精确度,我们也可以通过一边变换:

μ1=μ0+(yμ0)τ02σ2+τ02\mu_1 = \mu_0+(y-\mu_0)\frac{\tau_0^2}{\sigma^2+\tau_0^2}

这个式子可以看作后验均值是先验均值向观测值进行调整

又或者:

μ1=y(yμ0)σ02σ2+τ02\mu_1 = y - (y-\mu_0)\frac{\sigma_0^2}{\sigma^2+\tau_0^2}

看作数据观测值向先验均值“收缩”了。

在极端情况下:

如果 y=μ0y=\mu_0 或者 τ02=0\tau_0^2 = 0, 则 μ1=μ0\mu_1 = \mu_0

如果 y=μ0y=\mu_0 或者 σ2=0\sigma^2 = 0,则 μ1=y\mu_1 = y

我们注意到,其实当 y=μ0y=\mu_0 时,说明先验和数据均值重合了,所以后验均值也一定会与先验均值或数据均值相同。

后验预测分布

p(y~y)=p(y~θ,y)p(θy)dθexp(12σ2(θy~)2)exp(12τ12(θμ1)2)dθ\begin{aligned} p(\tilde y|y) &= \int p(\tilde y|\theta,y)p(\theta|y) d\theta \\ & \propto \int \exp\left( -\frac{1}{2\sigma^2}(\theta-\tilde y)^2 \right)\exp\left( -\frac{1}{2\tau_1^2}(\theta-\mu_1)^2 \right) d\theta \end{aligned}

我们也可以知道, y~\tilde y 的边缘后验分布也是正态的

这时候,我们会去考虑后验预测分布的期望和方差

期望的计算, 根据重期望公式:

E(y~y)=E(E(y~θ,y)y)=E(E(y~θ)y)=E(θy)=μ1\begin{aligned} E(\tilde y|y) &= E\bigg( E(\tilde y|\theta,y)|y \bigg) \\ &= E\bigg( E(\tilde y|\theta)|y \bigg) \\ &= E(\theta|y) \\ &= \mu_1 \end{aligned}

方差的计算:

var(y~y)=E(var(y~θ,y)y)+var(E(y~θ,y)y)\operatorname{var}(\tilde y|y) = E(\operatorname{var}(\tilde y|\theta,y)|y) + \operatorname{var}(E(\tilde y|\theta,y)|y)

对于第一项:

var(y~θ,y)=σ2\operatorname{var}(\tilde y|\theta,y)=\sigma^2

所以:

E(var(y~θ,y)y)=E(σ2y)=σ2E(\operatorname{var}(\tilde y|\theta,y)|y) = E(\sigma^2|y)=\sigma^2

对于第二项:

E(y~θ,y)=θE(\tilde y|\theta,y)=\theta

所以:

var(E(y~θ,y)y)=var(θy)=τ12\operatorname{var}(E(\tilde y|\theta,y)|y)=\operatorname{var}(\theta|y) = \tau_1^2

所以:

var(y~y)=σ2+τ12\operatorname{var}(\tilde y|y) = \sigma^2+\tau_1^2

y~yN(μ1,σ2+τ12)\tilde y|y \sim N(\mu_1,\sigma^2+\tau_1^2)

有多观测值的正态分布

这种基于单次观测的正态模型计算方法可以很容易地扩展到更实际的情况,即拥有独立同分布的多观测样本。

那么此时的后验密度为:

p(θy)p(θ)p(yθ)=p(θ)i=1np(yiθ)i=1nexp{12σ2(yiθ)2}exp{12τ02(θμ0)2}\begin{aligned} p(\theta|y) &\propto p(\theta)p(y|\theta) \\ &= p(\theta) \prod_{i=1}^n p(y_i|\theta) \\ & \propto \prod_{i=1}^n\exp\left\{ -\frac{1}{2\sigma^2}(y_i-\theta)^2\right\} \exp\left\{-\frac{1}{2\tau_0^2}(\theta-\mu_0)^2\right\} \end{aligned}

我们可以很容易证明:yˉ=1niyi\bar y = \frac{1}{n}\sum_i y_i 是充分统计量,

p(θy1,,yn)=p(θyˉ)=N(θμn,τn2)p(\theta|y_1, \dots , y_n) = p(\theta|\bar y) = N(\theta|\mu_n, \tau_n^2)

其中:

1τn2=1τ02+nσ2,μn=1τ02μ0+nσ2yˉ1τ02+nσ2\frac{1}{\tau_n^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2}, \qquad \mu_n = \frac{\frac{1}{\tau_0^2}\mu_0+\frac{n}{\sigma^2}\bar y} {\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}}

nn 足够大时,我们之前说过,我们的后验分布会更接近于数据分布,因此当观测量一定时 τ0\tau_0 \to \infinτ02\tau_0^2 一定时 nn \to \infin 时,我们近似有 p(θy)N(θyˉ,σ2/n)p(\theta|y) \approx N(\theta|\bar y,\sigma^2/n)

已知均值的正态分布 (Normal distribution with known mean)

还是一样的,我们先写出似然分布,为了更加普遍性的书写,这里采用多个观测值进行描述:

p(yσ2)=i=1np(yiσ2)σnexp(12σ2i=1n(yiθ)2)=(σ2)n/2exp(n2σ2v)\begin{aligned} p(y|\sigma^2) &= \prod_{i=1}^n p(y_i|\sigma^2) \\ &\propto \sigma^{-n}\exp\bigg(-\frac{1}{2\sigma^2}\sum^{n}_{i=1}(y_i-\theta)^2\bigg) \\ &= (\sigma^2)^{-n/2}\exp\bigg(-\frac{n}{2\sigma^2}v\bigg) \end{aligned}

其中:充分统计量是:

v=1ni=1n(yiθ)2v= \frac{1}{n}\sum^{n}_{i=1}(y_i-\theta)^2

这时候我们也会构造共轭先验,这里我们会用到逆Gamma分布:

逆Gamma分布(Inverse-Gamma distribution)

记作:θInv-gamma(α,β)\theta \sim \operatorname{Inv-gamma}(\alpha,\beta)α\alpha 是形状,β\beta 是缩放系数 (不同于Gamma分布,其是逆缩放系数)

密度函数:

p(θ)=βαΓ(α)θ(α+1)eβ/θp(\theta) = \frac{\beta^\alpha}{\Gamma(\alpha)}\theta^{-(\alpha+1)}e^{-\beta/\theta}

期望: E(θ)=βα1,α>1E(\theta) = \frac{\beta}{\alpha-1}, \alpha>1

方差:var(θ)=β2(α1)2(α2),α>2var(\theta) = \frac{\beta^2}{(\alpha-1)^2(\alpha-2)}, \alpha>2

众数:mode(θ)=βα+1mode(\theta) = \frac{\beta}{\alpha+1}

我们构造逆Gamma分布作为先验:

p(σ2)(σ2)(α+1)eβ/σ2p(\sigma^2) \propto (\sigma^2)^{-(\alpha+1)}e^{-\beta/\sigma^2}

这个先验分布里有两个超参数 α\alpha, β\beta。这样子我们确实可以计算后验分布。

逆Gamma先验分布

为了简化记号,令:

S=i=1n(yiθ)2=nvS = \sum_{i=1}^n(y_i-\theta)^2 = nv

于是似然可以写成:

p(yσ2)(σ2)n/2exp(S2σ2)p(y|\sigma^2) \propto (\sigma^2)^{-n/2}\exp\left(-\frac{S}{2\sigma^2}\right)

逆Gamma先验是:

p(σ2)(σ2)(α+1)exp(βσ2)p(\sigma^2) \propto (\sigma^2)^{-(\alpha+1)}\exp\left(-\frac{\beta}{\sigma^2}\right)

我们可以直接计算后验分布:

p(σ2y)p(σ2)p(yσ2)(σ2)(α+1)exp(βσ2)(σ2)n/2exp(S2σ2)=(σ2)(α+n/2+1)exp[β+S/2σ2].\begin{aligned} p(\sigma^2|y) &\propto p(\sigma^2)p(y|\sigma^2) \\ &\propto (\sigma^2)^{-(\alpha+1)} \exp\left(-\frac{\beta}{\sigma^2}\right) (\sigma^2)^{-n/2} \exp\left(-\frac{S}{2\sigma^2}\right) \\ &= (\sigma^2)^{-(\alpha+n/2+1)} \exp\left[-\frac{\beta+S/2}{\sigma^2}\right]. \end{aligned}

这仍然是逆Gamma分布,所以:

σ2yInv-gamma(α+n2, β+S2)\sigma^2|y \sim \operatorname{Inv-gamma}\left(\alpha+\frac{n}{2},\ \beta+\frac{S}{2}\right)

换回原来的表达式:

σ2yInv-gamma(α+n2, β+nv2)\sigma^2|y \sim \operatorname{Inv-gamma}\left(\alpha+\frac{n}{2},\ \beta+\frac{nv}{2}\right)

此时后验均值和众数为

E(σ2y)=β+nv2α+n21(α+n2>1),mode(σ2y)=β+nv2α+n2+1E(\sigma^2|y)= \frac{\beta+\frac{nv}{2}}{\alpha+\frac{n}{2}-1}\quad (\alpha+\frac{n}{2}>1) ,\qquad mode(\sigma^2|y)= \frac{\beta+\frac{nv}{2}}{\alpha+\frac{n}{2}+1}

逆Chi-square分布与scaled inverse-chi-square分布

在介绍另外一种先验分布计算前,我们首先需要了解下Inverse-χ2\chi^2分布和scaled Inverse-χ2\chi^2分布,这个分布尤其在解决未知方差参数的模型里经常用到。

逆Chi-square分布(Inverse-chi-square distribution)

如果 Xχν2X\sim \chi^2_\nu,并令 ω=1/X\omega=1/X,那么 ω\omega 服从自由度为 ν\nu 的逆Chi-square分布,记作:

ωInv-χ2(ν)\omega\sim \operatorname{Inv}\text{-}\chi^2(\nu)

密度函数为:

p(ω)=(1/2)ν/2Γ(ν/2)ω(ν/2+1)exp(12ω),ω>0p(\omega)= \frac{(1/2)^{\nu/2}}{\Gamma(\nu/2)} \omega^{-(\nu/2+1)} \exp\left(-\frac{1}{2\omega}\right), \qquad \omega>0

注意到,其是一个特殊的逆Gamma分布:

Inv-χ2(ν)=Inv-gamma(ν2,12)\operatorname{Inv}\text{-}\chi^2(\nu)= \operatorname{Inv-gamma}\left(\frac{\nu}{2},\frac{1}{2}\right)

期望:E(ω)=1ν2,ν>2E(\omega)=\frac{1}{\nu-2},\qquad \nu>2

方差:var(ω)=2(ν2)2(ν4),ν>4var(\omega)=\frac{2}{(\nu-2)^2(\nu-4)},\qquad \nu>4

众数:mode(ω)=1ν+2mode(\omega)=\frac{1}{\nu+2}

Scaled inverse-Chi-square分布

如果 Xχν2X\sim \chi^2_\nu,令:

ω=νs2X\omega = \frac{\nu s^2}{X}

那么 ω\omega 服从 scaled inverse-χ2\chi^2 分布,记作:

ωInv-χ2(ν,s2)\omega\sim \operatorname{Inv}\text{-}\chi^2(\nu,s^2)

密度函数为:

p(ω)=(νs2/2)ν/2Γ(ν/2)ω(ν/2+1)exp(νs22ω),ω>0p(\omega)= \frac{(\nu s^2/2)^{\nu/2}}{\Gamma(\nu/2)} \omega^{-(\nu/2+1)} \exp\left(-\frac{\nu s^2}{2\omega}\right), \qquad \omega>0

注意到,其与逆Gamma分布的关系是:

Inv-χ2(ν,s2)=Inv-gamma(ν2,νs22)\operatorname{Inv}\text{-}\chi^2(\nu,s^2) = \operatorname{Inv-gamma}\left(\frac{\nu}{2},\frac{\nu s^2}{2}\right)

期望:E(ω)=νs2ν2,ν>2E(\omega)=\frac{\nu s^2}{\nu-2},\qquad \nu>2

方差:var(ω)=2ν2s4(ν2)2(ν4),ν>4var(\omega)=\frac{2\nu^2s^4}{(\nu-2)^2(\nu-4)},\qquad \nu>4

众数:mode(ω)=νs2ν+2mode(\omega)=\frac{\nu s^2}{\nu+2}

scaled inverse-χ2\chi^2先验分布

我们可以不用逆Gamma分布书写先验,而是把 σ2\sigma^2 的先验写成scaled inverse-χ2\chi^2分布:

σ2Inv-χ2(ν0,σ02)\sigma^2 \sim \operatorname{Inv}\text{-}\chi^2(\nu_0,\sigma_0^2)

也就是:

p(σ2)(σ2)(ν0/2+1)exp(ν0σ022σ2)p(\sigma^2) \propto (\sigma^2)^{-(\nu_0/2+1)} \exp\left(-\frac{\nu_0\sigma_0^2}{2\sigma^2}\right)

这里 ν0\nu_0 可以看作先验的自由度,σ02\sigma_0^2 可以看作先验方差尺度。

和似然相乘:

p(σ2y)(σ2)(ν0/2+1)exp(ν0σ022σ2)(σ2)n/2exp(nv2σ2)=(σ2)((ν0+n)/2+1)exp[ν0σ02+nv2σ2].\begin{aligned} p(\sigma^2|y) &\propto (\sigma^2)^{-(\nu_0/2+1)} \exp\left(-\frac{\nu_0\sigma_0^2}{2\sigma^2}\right) (\sigma^2)^{-n/2} \exp\left(-\frac{nv}{2\sigma^2}\right) \\&= (\sigma^2)^{-((\nu_0+n)/2+1)} \exp\left[-\frac{\nu_0\sigma_0^2+nv}{2\sigma^2}\right]. \end{aligned}

这仍然是 scaled inverse-χ2\chi^2 分布。为了写成标准形式:

σ2yInv-χ2(νn,σn2)\sigma^2|y\sim \operatorname{Inv}\text{-}\chi^2(\nu_n,\sigma_n^2)

我们需要令:

νn=ν0+n\nu_n = \nu_0+n

并且:

νnσn2=ν0σ02+nv\nu_n\sigma_n^2 = \nu_0\sigma_0^2+nv

所以:

σn2=ν0σ02+nvν0+n\sigma_n^2 = \frac{\nu_0\sigma_0^2+nv}{\nu_0+n}

最终得到:

σ2yInv-χ2(ν0+n, ν0σ02+nvν0+n)\sigma^2|y\sim \operatorname{Inv}\text{-}\chi^2 \left( \nu_0+n,\ \frac{\nu_0\sigma_0^2+nv}{\nu_0+n} \right)

在后验分布下,后验自由度等于先验自由度加上数据样本量;后验尺度先验尺度 σ02\sigma_0^2样本平方偏差 vv 的加权平均,权重分别是 ν0\nu_0nn

Gamma先验与scaled inverse-χ2\chi^2先验

我们可以用逆Gamma分布或者Scaled inverse-χ2\chi^2分布来假设先验,从数学上看,scaled inverse-χ2\chi^2 是逆Gamma分布的一种重参数化:

α=ν02,β=ν0σ022\alpha=\frac{\nu_0}{2}, \qquad \beta=\frac{\nu_0\sigma_0^2}{2}

反过来就是:

ν0=2α,σ02=βα\nu_0=2\alpha, \qquad \sigma_0^2=\frac{\beta}{\alpha}

如果我们把逆Gamma先验

Inv-gamma(α,β)\operatorname{Inv-gamma}(\alpha,\beta)

按照上面的关系改写成:

Inv-χ2(2α,β/α)\operatorname{Inv}\text{-}\chi^2(2\alpha,\beta/\alpha)

换句话说,这两个先验其实是同一个分布(Gamma分布),只是参数名字和解释方式不同,后者的先验是前者先验分布的特殊形式。我们通过逆Gamma分布计算的后验分布为:

σ2yInv-gamma(α+n2,β+nv2)\sigma^2|y \sim \operatorname{Inv-gamma} \left( \alpha+\frac{n}{2}, \beta+\frac{nv}{2} \right)

而 scaled inverse-χ2\chi^2 作为先验分布计算的后验分布为:

σ2yInv-χ2(ν0+n,ν0σ02+nvν0+n)\sigma^2|y \sim \operatorname{Inv}\text{-}\chi^2 \left( \nu_0+n, \frac{\nu_0\sigma_0^2+nv}{\nu_0+n} \right)

ν0=2α\nu_0=2\alphaσ02=β/α\sigma_0^2=\beta/\alpha 代入第二个结果:

ν0+n=2α+n=2(α+n2)\nu_0+n = 2\alpha+n = 2\left(\alpha+\frac{n}{2}\right)

并且:

ν0σ02+nvν0+n=2αβα+nv2α+n=2β+nv2α+n=β+nv2α+n2\frac{\nu_0\sigma_0^2+nv}{\nu_0+n} = \frac{2\alpha\cdot \frac{\beta}{\alpha}+nv}{2\alpha+n} = \frac{2\beta+nv}{2\alpha+n} = \frac{\beta+\frac{nv}{2}}{\alpha+\frac{n}{2}}

这正好对应逆Gamma后验的参数关系:

αn=α+n2,βn=β+nv2,σn2=βnαn\alpha_n=\alpha+\frac{n}{2}, \qquad \beta_n=\beta+\frac{nv}{2}, \qquad \sigma_n^2=\frac{\beta_n}{\alpha_n}

一般而言, scaled inverse-χ2\chi^2 的参数更便于在统计层面上进行解释,而且也更加直观:ν0\nu_0 类似于先验提供的等价观测数量,σ02\sigma_0^2 类似于先验给出的平均平方偏差尺度,并且后验更新可以写成非常直观的形式,即下面这种加权平均的形式:

σn2=ν0σ02+nvν0+n\sigma_n^2= \frac{\nu_0\sigma_0^2+nv}{\nu_0+n}

所以,我们在实际计算里,当我们假设方差为未知量时,我们会更偏向于使用 Scaled Inverse-χ2\chi^2 分布来假设先验(当先验未知时)。

泊松分布(Poisson distribution)

这个分布在流行病学里十分常用,常用于发病率的研究。

如果一个数据点 yy 服从泊松分布

Poisson distribution

记作: θPossion(λ)\theta \sim \operatorname{Possion}(\lambda), 率λ>0\lambda > 0

密度方程:

p(θ)=1θ!λθexp(λ)θ=0,1,2,p(\theta) = \frac{1}{\theta!}\lambda^{\theta}\exp(-\lambda) \quad \theta = 0, 1, 2,\dots

期望: E[θ]=λE[\theta] = \lambda

方差:var(θ)=λ\operatorname{var}(\theta) = \lambda

众数:mode(θ)=λ\operatorname{mode}(\theta) = \lfloor \lambda \rfloor

于是乎,我们可以写出似然:

p(yθ)=θyeθy!p(y|\theta) = \frac{\theta^ye^{-\theta}}{y!}

对于多个独立数据点,我们的似然可以写作:

p(yθ)=i=1nθyieθyi!θt(y)enθ\begin{aligned} p(y|\theta) &= \prod^n_{i=1}\frac{\theta^{y_i}e^{-\theta}}{y_i!} \\ & \propto \theta^{t(y)}e^{-n\theta}\\ \end{aligned}

其中 t(y)=yi=nyˉt(y) =\sum y_i =n\bar y 是充分统计量,这时候我们也知道了,其实Poisson分布的似然函数也可以写作Gamma分布的形式:

yθGamma(nyˉ+1,n)y|\theta \sim \operatorname{Gamma}(n\bar y+1,n)

为了形式更加统一,我们采用指数对数变换

p(yθ)enθet(y)log(θ)p(y|\theta) \propto e^{-n\theta}e^{t(y)\log(\theta)}

于是乎,我们可以写出共轭先验:[我们在之前提到过,Gamma分布是泊松分布的共轭先验]

p(θ)(eθ)ηeνlogθp(\theta) \propto (e^{-\theta})^\eta e^{\nu \log{\theta}}

这里实际上就是Gamma分布转变后的形式,这里有两个超参数 (η,ν)(\eta,\nu), 我们转化为Gamma分布:

p(θ)eβθθα1p(\theta) \propto e^{-\beta\theta}\theta^{\alpha-1}

此时, θGamma(α,β)\theta \sim Gamma(\alpha,\beta)

所以这时候我们直接可以计算后验分布:

p(θy)p(yθ)p(θ)=Gamma(α,β)Gamma(nyˉ+1,n)=Gamma(α+nyˉ,β+n)\begin{aligned} p(\theta|y) &\propto p(y|\theta)p(\theta) \\ &= \operatorname{Gamma}(\alpha,\beta)\operatorname{Gamma}(n\bar y+1,n) \\ &= \operatorname{Gamma}(\alpha + n \bar y , \beta+n) \end{aligned}

负二项分布(Negative binomial distribution)

当失败次数为整数时,又叫做Pascal distribution,帕斯卡分布。

于是乎,我们现在有了似然,先验分布,后验分布,我们就可以用于计算先验预测分布:为了计算简约,我们使用 n=1n = 1 进行计算

p(y)=p(yθ)p(θ)p(θy)=Possion(yθ)Gamma(θα,β)Gamma(θα+y,β+1)=θyeθy!×βαΓ(α)θα1eβθ×Γ(α+y)(β+1)α+yθα+y1e(β+1)θ=βαΓ(α+y)(β+1)α+yΓ(α)y!=(α+y1)!(α1)!y!(ββ+1)α(1β+1)y=(α+y1y)(ββ+1)α(1β+1)y\begin{aligned} p(y) &= \frac{p(y|\theta)p(\theta)}{p(\theta|y)} \\ &= \frac{\operatorname{Possion}(y|\theta)\operatorname{Gamma}(\theta|\alpha,\beta)}{\operatorname{Gamma}(\theta|\alpha + y,\beta +1)} \\ &= \frac{\theta^ye^{-\theta}}{y!}\times \frac{\beta^\alpha}{\Gamma(\alpha)}\theta^{\alpha-1}e^{-\beta\theta} \times \frac{\Gamma(\alpha + y)}{(\beta+1)^{\alpha+y}\theta^{\alpha+y-1}e^{-(\beta+1)\theta}} \\ &= \frac{\beta^\alpha\Gamma(\alpha + y)}{(\beta+1)^{\alpha+y}\Gamma(\alpha)y!} \\ &= \frac{(\alpha+y-1)!}{(\alpha-1)!y!}\bigg(\frac{\beta}{\beta+1}\bigg)^\alpha\bigg(\frac{1}{\beta+1}\bigg)^y \\ &= \binom{\alpha+y-1}{y}\bigg(\frac{\beta}{\beta+1}\bigg)^\alpha\bigg(\frac{1}{\beta+1}\bigg)^y \end{aligned}

此时,这个即是负二项分布的密度,于是乎

yNeg-bin(α,β)y \sim \operatorname{Neg-bin}(\alpha,\beta)

负二项分布:

记作:θNeg-bin(α,β)\theta \sim \operatorname{Neg-bin}(\alpha,\beta),其中 α\alpha 是形状参数, β\beta 是逆缩放参数

密度方程:

p(θ)=(α+θ1α1)(ββ+1)α(1β+1)θp(\theta) = \binom{\alpha+\theta-1}{\alpha-1}\bigg(\frac{\beta}{\beta+1}\bigg)^\alpha\bigg(\frac{1}{\beta+1}\bigg)^\theta

期望:E(θ)=αβE(\theta) = \frac{\alpha}{\beta}

方差:var(θ)=αβ2(β+1)\operatorname{var}(\theta) = \frac{\alpha}{\beta^2}(\beta+1)

Neg-bin(yα,β)=Poisson(yθ)Gamma(θα,β)dθ\operatorname{Neg-bin}(y|\alpha,\beta) = \int\operatorname{Poisson}(y|\theta)\operatorname{Gamma}(\theta|\alpha,\beta)d\theta

率和暴露(Rate and exposure)

在许多应用中,我们常常有多个数据测量点 y1,,yny_1,\dots,y_n

yiPoisson(xiθ)y_i \sim \operatorname{Poisson}(x_i\theta)

其中, xix_i 是解释变量,而 θ\theta 常常是我们所感兴趣的参数,在流行病学中, θ\theta 通常叫做率,而xix_i 叫做暴露单元。应该注意的是,这个模型并不是可交换的,对于 yiy_i 而言,但对于 (x,y)i(x,y)_i 的配对是可交换的。

此时似然为:

p(yθ)θ(i=1nyi)e(i=1nxi)θp(y|\theta) \sim \theta^{\bigg(\sum^n_{i=1}y_i\bigg)}e^{-\bigg(\sum^n_{i=1}x_i\bigg)\theta}

先验分布假设仍然服从 Gamma分布:

θGamma(α,β)\theta \sim \operatorname{Gamma}(\alpha,\beta)

所以后验分布为

θyGamma(α+i=1nyi,β+i=1nxi)\theta|y \sim \operatorname{Gamma}\bigg(\alpha+\sum^n_{i=1}y_i,\beta+\sum^n_{i=1}x_i\bigg)

指数分布(Exponential model)

指数分布通常用于模拟“等待时间”和其他连续的、正的、实值的随机变量,这些随机变量通常以时间尺度来衡量。首先回忆一下指数分布的密度函数

指数分布:

记作: θExpon(β)\theta\sim Expon(\beta)

密度函数: p(θ)=βeβθ,θ>0,same as Gamma(α=1,β)p(\theta) = \beta e^{-\beta\theta}, \theta >0, \text{same as Gamma}(\alpha = 1, \beta)

期望:E(θ)=1βE(\theta) = \frac{1}{\beta}

方差:var(θ)=1β2var(\theta) = \frac{1}{\beta^2}

众数: 0

我们还是一样的写出似然函数:

p(yθ)=θexp(yθ)p(y|\theta) = \theta\exp(-y\theta)

其中,这里的 θ\theta 跟泊松分布一样,也被叫做“率(Rate)”。

指数分布有一个特性,具有“无记忆性”,这使其成为生存或寿命数据的天然模型。一个个体能够存活额外时间 t 的概率与到目前为止所经过的时间无关:即Pr(y>t+sy>s,θ)=Pr(y>tθ)\operatorname{Pr}(y>t+s|y>s,\theta) =\operatorname{Pr}(y>t|\theta) 。 那么我们先前提过,泊松分布也可以看作一个特殊的Gamma分布,那么,同样的,指数分布也可以看作一个特殊的Gamma函数,所以显然,我们可以构造Gamma分布的先验函数来方便我们计算,即:

θGamma(α,β)\theta \sim \operatorname{Gamma}(\alpha,\beta)

对于多个观测值的情况下,似然函数应该写成:

p(yθ)=i+1nθexp(yiθ)=θnexp(θi=1nyi)=θnexp(θnyˉ)\begin{aligned} p(y|\theta) &= \prod^n_{i+1}\theta\exp(-y_i\theta) \\ &= \theta^n\exp(-\theta\sum^n_{i=1}y_i) \\ &= \theta^n\exp(-\theta n \bar y) \end{aligned}

此时,

yθGamma(n+1,nyˉ)y|\theta \sim \operatorname{Gamma}(n+1,n\bar y)

于是乎,我们可以计算后验分布:

p(θy)p(yθ)p(θ)=Gamma(n+1,nyˉ)Gamma(α,β)=Gamma(n+α,nyˉ+β)\begin{aligned} p(\theta|y) &\propto p(y|\theta)p(\theta) \\ &= \operatorname{Gamma}(n+1,n\bar y)\operatorname{Gamma}(\alpha, \beta)\\ &= \operatorname{Gamma}(n+\alpha,n\bar y+\beta) \end{aligned}