贝叶斯数据分析(3)——单参数模型(二)
本笔记基于Bayesian Data Analysis Third Edition, Andrew Gelman et. al. 学习编写,由于是英文教材,可能在学习过程中一些翻译或者内容有误,如有问题或错误,可以发送至邮箱[email protected] 反馈。在学习本书中,需要有一定数学基础或者数理统计的基础,并且存在很多需要计算的场景,对于每一条定理,从头开始的证明会让你更明白每一步是如何实现的。
我们之前谈论过了二项分布的单参数模型,现在我们来看更多的单参数模型,看看其他分布下的模型的求解方式:
已知方差的正态分布(Normal distribution with known variance)
共轭先验的便利计算
正态分布,是所有统计分布里用的最广泛的和最基础的分布。因为其中心极限定理可以帮助我们使用正态似然来简化统计学问题,使得变成一个更容易分析实际似然的问题。因为我们后面会知道,即使正态分布不能提供一个很好的拟合效果,但它仍然是一个很有用的成分当涉及到 t 分布或有限混合分布的更复杂的模型的情况。
对于已知方差 σ 2 \sigma^2 σ 2 的正态分布,那么未知数是位置参数 θ \theta θ ,即其分布似然为:
p ( y ∣ θ ) = 1 2 π σ e − 1 2 σ 2 ( y − θ ) 2 p(y|\theta) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^2}(y-\theta)^2} p ( y ∣ θ ) = 2 π σ 1 e − 2 σ 2 1 ( y − θ ) 2
为了展示方便,我换成这种写法:
p ( y ∣ θ ) = 1 2 π σ exp ( − 1 2 σ 2 ( y − θ ) 2 ) p(y|\theta) = \frac{1}{\sqrt{2\pi}\sigma}\exp({-\frac{1}{2\sigma^2}(y-\theta)^2}) p ( y ∣ θ ) = 2 π σ 1 exp ( − 2 σ 2 1 ( y − θ ) 2 )
我们之前提到过共轭先验的概念,其是说当一个先验分布乘以似然分布的检验得到的后验分布,其后验分布的分布类型与先验分布一样,则先验分布为似然分布的共轭先验。
当似然分布正态分布时,我们的先验分布就可以设置成正态分布,此时后验分布也会是正态分布:
我们不妨设置先验分布服从 θ ∼ N ( μ 0 , τ 0 2 ) \theta \sim N(\mu_0, \tau_0^2) θ ∼ N ( μ 0 , τ 0 2 ) , 那么我们的先验可以写作:
p ( θ ) ∝ exp ( − 1 2 τ 0 2 ( θ − μ 0 ) 2 ) p(\theta) \propto \exp\bigg(-\frac{1}{2\tau^2_0}(\theta-\mu_0)^2 \bigg) p ( θ ) ∝ exp ( − 2 τ 0 2 1 ( θ − μ 0 ) 2 )
其中,这里的 μ 0 , τ 0 2 \mu_0, \tau_0^2 μ 0 , τ 0 2 为超参数,在这一步中,我们会假设这些超参数是已知的。
然后我们就可以计算后验分布了:
p ( θ ∣ y ) ∝ exp { − 1 2 σ 2 ( y − θ ) 2 − 1 2 τ 0 2 ( θ − μ 0 ) 2 } = exp { − 1 2 [ ( 1 σ 2 + 1 τ 0 2 ) θ 2 − 2 ( y σ 2 + μ 0 τ 0 2 ) θ + const. ] } ∝ exp { − 1 2 ( 1 σ 2 + 1 τ 0 2 ) ( θ − y σ 2 + μ 0 τ 0 2 1 σ 2 + 1 τ 0 2 ) 2 } . \begin{aligned}
p(\theta|y) &\propto \exp\left\{ -\frac{1}{2\sigma^2}(y-\theta)^2 -\frac{1}{2\tau_0^2}(\theta-\mu_0)^2 \right\} \\[4pt]
&= \exp\left\{ -\frac{1}{2} \left[ \left(\frac{1}{\sigma^2}+\frac{1}{\tau_0^2}\right)\theta^2 -2\left(\frac{y}{\sigma^2}+\frac{\mu_0}{\tau_0^2}\right)\theta +\text{const.} \right] \right\} \\[4pt]
&\propto \exp\left\{ -\frac{1}{2} \left(\frac{1}{\sigma^2}+\frac{1}{\tau_0^2}\right) \left( \theta- \frac{\frac{y}{\sigma^2}+\frac{\mu_0}{\tau_0^2}} {\frac{1}{\sigma^2}+\frac{1}{\tau_0^2}} \right)^2 \right\}.
\end{aligned} p ( θ ∣ y ) ∝ exp { − 2 σ 2 1 ( y − θ ) 2 − 2 τ 0 2 1 ( θ − μ 0 ) 2 } = exp { − 2 1 [ ( σ 2 1 + τ 0 2 1 ) θ 2 − 2 ( σ 2 y + τ 0 2 μ 0 ) θ + const. ] } ∝ exp ⎩ ⎨ ⎧ − 2 1 ( σ 2 1 + τ 0 2 1 ) ( θ − σ 2 1 + τ 0 2 1 σ 2 y + τ 0 2 μ 0 ) 2 ⎭ ⎬ ⎫ .
于是乎,我们可以切换一些形式,令
1 τ 1 2 = 1 τ 0 2 + 1 σ 2 , μ 1 = 1 τ 0 2 μ 0 + 1 σ 2 y 1 τ 0 2 + 1 σ 2 \frac{1}{\tau_1^2} = \frac{1}{\tau_0^2} + \frac{1}{\sigma^2},
\qquad
\mu_1 = \frac{\frac{1}{\tau_0^2}\mu_0+\frac{1}{\sigma^2}y} {\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}} τ 1 2 1 = τ 0 2 1 + σ 2 1 , μ 1 = τ 0 2 1 + σ 2 1 τ 0 2 1 μ 0 + σ 2 1 y
则:
p ( θ ∣ y ) ∝ exp ( − 1 2 τ 1 2 ( θ − μ 1 ) 2 ) p(\theta|y) \propto \exp\left( -\frac{1}{2\tau_1^2}(\theta-\mu_1)^2 \right) p ( θ ∣ y ) ∝ exp ( − 2 τ 1 2 1 ( θ − μ 1 ) 2 )
我们在后验分布里也得到了正态分布(这种采用共轭先验的计算方法会大幅度减少我们的推理过程)
后验分布的precision
这里需要明确的是,这跟机器学习里的precision完全不一样,需要做出详细区分
Precision in Bayesian analysis : 指的是方差的倒数,如我们上面展示的 1 / τ 1 2 1/\tau_1^2 1/ τ 1 2 就是后验分布的精确度
我们在上面留意到,**后验分布的精确度 = 先验分布的精确度 + 来源数据的精确度 **。
对于我们的均值,这看着还是很唬人,我们详细来看看:
分子是先验和观测值的加权平均,加权的权重就是先验和似然的精确度,我们也可以通过一边变换:
μ 1 = μ 0 + ( y − μ 0 ) τ 0 2 σ 2 + τ 0 2 \mu_1 = \mu_0+(y-\mu_0)\frac{\tau_0^2}{\sigma^2+\tau_0^2} μ 1 = μ 0 + ( y − μ 0 ) σ 2 + τ 0 2 τ 0 2
这个式子可以看作后验均值是先验均值向观测值进行调整
又或者:
μ 1 = y − ( y − μ 0 ) σ 0 2 σ 2 + τ 0 2 \mu_1 = y - (y-\mu_0)\frac{\sigma_0^2}{\sigma^2+\tau_0^2} μ 1 = y − ( y − μ 0 ) σ 2 + τ 0 2 σ 0 2
看作数据观测值向先验均值“收缩”了。
在极端情况下:
如果 y = μ 0 y=\mu_0 y = μ 0 或者 τ 0 2 = 0 \tau_0^2 = 0 τ 0 2 = 0 , 则 μ 1 = μ 0 \mu_1 = \mu_0 μ 1 = μ 0
如果 y = μ 0 y=\mu_0 y = μ 0 或者 σ 2 = 0 \sigma^2 = 0 σ 2 = 0 ,则 μ 1 = y \mu_1 = y μ 1 = y
我们注意到,其实当 y = μ 0 y=\mu_0 y = μ 0 时,说明先验和数据均值重合了,所以后验均值也一定会与先验均值或数据均值相同。
后验预测分布
p ( y ~ ∣ y ) = ∫ p ( y ~ ∣ θ , y ) p ( θ ∣ y ) d θ ∝ ∫ exp ( − 1 2 σ 2 ( θ − y ~ ) 2 ) exp ( − 1 2 τ 1 2 ( θ − μ 1 ) 2 ) d θ \begin{aligned}
p(\tilde y|y) &= \int p(\tilde y|\theta,y)p(\theta|y) d\theta \\
& \propto \int \exp\left( -\frac{1}{2\sigma^2}(\theta-\tilde y)^2 \right)\exp\left( -\frac{1}{2\tau_1^2}(\theta-\mu_1)^2 \right) d\theta
\end{aligned} p ( y ~ ∣ y ) = ∫ p ( y ~ ∣ θ , y ) p ( θ ∣ y ) d θ ∝ ∫ exp ( − 2 σ 2 1 ( θ − y ~ ) 2 ) exp ( − 2 τ 1 2 1 ( θ − μ 1 ) 2 ) d θ
我们也可以知道, y ~ \tilde y y ~ 的边缘后验分布也是正态的
这时候,我们会去考虑后验预测分布的期望和方差
期望的计算, 根据重期望公式:
E ( y ~ ∣ y ) = E ( E ( y ~ ∣ θ , y ) ∣ y ) = E ( E ( y ~ ∣ θ ) ∣ y ) = E ( θ ∣ y ) = μ 1 \begin{aligned}
E(\tilde y|y) &= E\bigg( E(\tilde y|\theta,y)|y \bigg) \\
&= E\bigg( E(\tilde y|\theta)|y \bigg) \\
&= E(\theta|y) \\
&= \mu_1
\end{aligned} E ( y ~ ∣ y ) = E ( E ( y ~ ∣ θ , y ) ∣ y ) = E ( E ( y ~ ∣ θ ) ∣ y ) = E ( θ ∣ y ) = μ 1
方差的计算:
var ( y ~ ∣ y ) = E ( var ( y ~ ∣ θ , y ) ∣ y ) + var ( E ( y ~ ∣ θ , y ) ∣ y ) \operatorname{var}(\tilde y|y) = E(\operatorname{var}(\tilde y|\theta,y)|y) + \operatorname{var}(E(\tilde y|\theta,y)|y) var ( y ~ ∣ y ) = E ( var ( y ~ ∣ θ , y ) ∣ y ) + var ( E ( y ~ ∣ θ , y ) ∣ y )
对于第一项:
var ( y ~ ∣ θ , y ) = σ 2 \operatorname{var}(\tilde y|\theta,y)=\sigma^2 var ( y ~ ∣ θ , y ) = σ 2
所以:
E ( var ( y ~ ∣ θ , y ) ∣ y ) = E ( σ 2 ∣ y ) = σ 2 E(\operatorname{var}(\tilde y|\theta,y)|y) = E(\sigma^2|y)=\sigma^2 E ( var ( y ~ ∣ θ , y ) ∣ y ) = E ( σ 2 ∣ y ) = σ 2
对于第二项:
E ( y ~ ∣ θ , y ) = θ E(\tilde y|\theta,y)=\theta E ( y ~ ∣ θ , y ) = θ
所以:
var ( E ( y ~ ∣ θ , y ) ∣ y ) = var ( θ ∣ y ) = τ 1 2 \operatorname{var}(E(\tilde y|\theta,y)|y)=\operatorname{var}(\theta|y) = \tau_1^2 var ( E ( y ~ ∣ θ , y ) ∣ y ) = var ( θ ∣ y ) = τ 1 2
所以:
var ( y ~ ∣ y ) = σ 2 + τ 1 2 \operatorname{var}(\tilde y|y) = \sigma^2+\tau_1^2 var ( y ~ ∣ y ) = σ 2 + τ 1 2
即
y ~ ∣ y ∼ N ( μ 1 , σ 2 + τ 1 2 ) \tilde y|y \sim N(\mu_1,\sigma^2+\tau_1^2) y ~ ∣ y ∼ N ( μ 1 , σ 2 + τ 1 2 )
有多观测值的正态分布
这种基于单次观测的正态模型计算方法可以很容易地扩展到更实际的情况,即拥有独立同分布的多观测样本。
那么此时的后验密度为:
p ( θ ∣ y ) ∝ p ( θ ) p ( y ∣ θ ) = p ( θ ) ∏ i = 1 n p ( y i ∣ θ ) ∝ ∏ i = 1 n exp { − 1 2 σ 2 ( y i − θ ) 2 } exp { − 1 2 τ 0 2 ( θ − μ 0 ) 2 } \begin{aligned}
p(\theta|y) &\propto p(\theta)p(y|\theta) \\
&= p(\theta) \prod_{i=1}^n p(y_i|\theta) \\
& \propto \prod_{i=1}^n\exp\left\{ -\frac{1}{2\sigma^2}(y_i-\theta)^2\right\} \exp\left\{-\frac{1}{2\tau_0^2}(\theta-\mu_0)^2\right\}
\end{aligned} p ( θ ∣ y ) ∝ p ( θ ) p ( y ∣ θ ) = p ( θ ) i = 1 ∏ n p ( y i ∣ θ ) ∝ i = 1 ∏ n exp { − 2 σ 2 1 ( y i − θ ) 2 } exp { − 2 τ 0 2 1 ( θ − μ 0 ) 2 }
我们可以很容易证明:y ˉ = 1 n ∑ i y i \bar y = \frac{1}{n}\sum_i y_i y ˉ = n 1 ∑ i y i 是充分统计量,
p ( θ ∣ y 1 , … , y n ) = p ( θ ∣ y ˉ ) = N ( θ ∣ μ n , τ n 2 ) p(\theta|y_1, \dots , y_n) = p(\theta|\bar y) = N(\theta|\mu_n, \tau_n^2) p ( θ ∣ y 1 , … , y n ) = p ( θ ∣ y ˉ ) = N ( θ ∣ μ n , τ n 2 )
其中:
1 τ n 2 = 1 τ 0 2 + n σ 2 , μ n = 1 τ 0 2 μ 0 + n σ 2 y ˉ 1 τ 0 2 + n σ 2 \frac{1}{\tau_n^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2},
\qquad
\mu_n = \frac{\frac{1}{\tau_0^2}\mu_0+\frac{n}{\sigma^2}\bar y} {\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}} τ n 2 1 = τ 0 2 1 + σ 2 n , μ n = τ 0 2 1 + σ 2 n τ 0 2 1 μ 0 + σ 2 n y ˉ
当 n n n 足够大时,我们之前说过,我们的后验分布会更接近于数据分布,因此当观测量一定时 τ 0 → ∞ \tau_0 \to \infin τ 0 → ∞ 或 τ 0 2 \tau_0^2 τ 0 2 一定时 n → ∞ n \to \infin n → ∞ 时,我们近似有 p ( θ ∣ y ) ≈ N ( θ ∣ y ˉ , σ 2 / n ) p(\theta|y) \approx N(\theta|\bar y,\sigma^2/n) p ( θ ∣ y ) ≈ N ( θ ∣ y ˉ , σ 2 / n )
已知均值的正态分布 (Normal distribution with known mean)
还是一样的,我们先写出似然分布,为了更加普遍性的书写,这里采用多个观测值进行描述:
p ( y ∣ σ 2 ) = ∏ i = 1 n p ( y i ∣ σ 2 ) ∝ σ − n exp ( − 1 2 σ 2 ∑ i = 1 n ( y i − θ ) 2 ) = ( σ 2 ) − n / 2 exp ( − n 2 σ 2 v ) \begin{aligned}
p(y|\sigma^2) &= \prod_{i=1}^n p(y_i|\sigma^2) \\
&\propto \sigma^{-n}\exp\bigg(-\frac{1}{2\sigma^2}\sum^{n}_{i=1}(y_i-\theta)^2\bigg) \\
&= (\sigma^2)^{-n/2}\exp\bigg(-\frac{n}{2\sigma^2}v\bigg)
\end{aligned} p ( y ∣ σ 2 ) = i = 1 ∏ n p ( y i ∣ σ 2 ) ∝ σ − n exp ( − 2 σ 2 1 i = 1 ∑ n ( y i − θ ) 2 ) = ( σ 2 ) − n /2 exp ( − 2 σ 2 n v )
其中:充分统计量是:
v = 1 n ∑ i = 1 n ( y i − θ ) 2 v= \frac{1}{n}\sum^{n}_{i=1}(y_i-\theta)^2 v = n 1 i = 1 ∑ n ( y i − θ ) 2
这时候我们也会构造共轭先验,这里我们会用到逆Gamma分布:
逆Gamma分布(Inverse-Gamma distribution)
记作:θ ∼ Inv-gamma ( α , β ) \theta \sim \operatorname{Inv-gamma}(\alpha,\beta) θ ∼ Inv-gamma ( α , β ) , α \alpha α 是形状,β \beta β 是缩放系数 (不同于Gamma分布,其是逆缩放系数)
密度函数:
p ( θ ) = β α Γ ( α ) θ − ( α + 1 ) e − β / θ p(\theta) = \frac{\beta^\alpha}{\Gamma(\alpha)}\theta^{-(\alpha+1)}e^{-\beta/\theta} p ( θ ) = Γ ( α ) β α θ − ( α + 1 ) e − β / θ
期望: E ( θ ) = β α − 1 , α > 1 E(\theta) = \frac{\beta}{\alpha-1}, \alpha>1 E ( θ ) = α − 1 β , α > 1
方差:v a r ( θ ) = β 2 ( α − 1 ) 2 ( α − 2 ) , α > 2 var(\theta) = \frac{\beta^2}{(\alpha-1)^2(\alpha-2)}, \alpha>2 v a r ( θ ) = ( α − 1 ) 2 ( α − 2 ) β 2 , α > 2
众数:m o d e ( θ ) = β α + 1 mode(\theta) = \frac{\beta}{\alpha+1} m o d e ( θ ) = α + 1 β
我们构造逆Gamma分布作为先验:
p ( σ 2 ) ∝ ( σ 2 ) − ( α + 1 ) e − β / σ 2 p(\sigma^2) \propto (\sigma^2)^{-(\alpha+1)}e^{-\beta/\sigma^2} p ( σ 2 ) ∝ ( σ 2 ) − ( α + 1 ) e − β / σ 2
这个先验分布里有两个超参数 α \alpha α , β \beta β 。这样子我们确实可以计算后验分布。
逆Gamma先验分布
为了简化记号,令:
S = ∑ i = 1 n ( y i − θ ) 2 = n v S = \sum_{i=1}^n(y_i-\theta)^2 = nv S = i = 1 ∑ n ( y i − θ ) 2 = n v
于是似然可以写成:
p ( y ∣ σ 2 ) ∝ ( σ 2 ) − n / 2 exp ( − S 2 σ 2 ) p(y|\sigma^2) \propto (\sigma^2)^{-n/2}\exp\left(-\frac{S}{2\sigma^2}\right) p ( y ∣ σ 2 ) ∝ ( σ 2 ) − n /2 exp ( − 2 σ 2 S )
逆Gamma先验是:
p ( σ 2 ) ∝ ( σ 2 ) − ( α + 1 ) exp ( − β σ 2 ) p(\sigma^2) \propto (\sigma^2)^{-(\alpha+1)}\exp\left(-\frac{\beta}{\sigma^2}\right) p ( σ 2 ) ∝ ( σ 2 ) − ( α + 1 ) exp ( − σ 2 β )
我们可以直接计算后验分布:
p ( σ 2 ∣ y ) ∝ p ( σ 2 ) p ( y ∣ σ 2 ) ∝ ( σ 2 ) − ( α + 1 ) exp ( − β σ 2 ) ( σ 2 ) − n / 2 exp ( − S 2 σ 2 ) = ( σ 2 ) − ( α + n / 2 + 1 ) exp [ − β + S / 2 σ 2 ] . \begin{aligned}
p(\sigma^2|y)
&\propto p(\sigma^2)p(y|\sigma^2) \\
&\propto
(\sigma^2)^{-(\alpha+1)}
\exp\left(-\frac{\beta}{\sigma^2}\right)
(\sigma^2)^{-n/2}
\exp\left(-\frac{S}{2\sigma^2}\right) \\
&=
(\sigma^2)^{-(\alpha+n/2+1)}
\exp\left[-\frac{\beta+S/2}{\sigma^2}\right].
\end{aligned} p ( σ 2 ∣ y ) ∝ p ( σ 2 ) p ( y ∣ σ 2 ) ∝ ( σ 2 ) − ( α + 1 ) exp ( − σ 2 β ) ( σ 2 ) − n /2 exp ( − 2 σ 2 S ) = ( σ 2 ) − ( α + n /2 + 1 ) exp [ − σ 2 β + S /2 ] .
这仍然是逆Gamma分布,所以:
σ 2 ∣ y ∼ Inv-gamma ( α + n 2 , β + S 2 ) \sigma^2|y \sim \operatorname{Inv-gamma}\left(\alpha+\frac{n}{2},\ \beta+\frac{S}{2}\right) σ 2 ∣ y ∼ Inv-gamma ( α + 2 n , β + 2 S )
换回原来的表达式:
σ 2 ∣ y ∼ Inv-gamma ( α + n 2 , β + n v 2 ) \sigma^2|y \sim \operatorname{Inv-gamma}\left(\alpha+\frac{n}{2},\ \beta+\frac{nv}{2}\right) σ 2 ∣ y ∼ Inv-gamma ( α + 2 n , β + 2 n v )
此时后验均值和众数为
E ( σ 2 ∣ y ) = β + n v 2 α + n 2 − 1 ( α + n 2 > 1 ) , m o d e ( σ 2 ∣ y ) = β + n v 2 α + n 2 + 1 E(\sigma^2|y)=
\frac{\beta+\frac{nv}{2}}{\alpha+\frac{n}{2}-1}\quad
(\alpha+\frac{n}{2}>1) ,\qquad mode(\sigma^2|y)=
\frac{\beta+\frac{nv}{2}}{\alpha+\frac{n}{2}+1} E ( σ 2 ∣ y ) = α + 2 n − 1 β + 2 n v ( α + 2 n > 1 ) , m o d e ( σ 2 ∣ y ) = α + 2 n + 1 β + 2 n v
逆Chi-square分布与scaled inverse-chi-square分布
在介绍另外一种先验分布计算前,我们首先需要了解下Inverse-χ 2 \chi^2 χ 2 分布和scaled Inverse-χ 2 \chi^2 χ 2 分布,这个分布尤其在解决未知方差参数的模型里经常用到。
逆Chi-square分布(Inverse-chi-square distribution)
如果 X ∼ χ ν 2 X\sim \chi^2_\nu X ∼ χ ν 2 ,并令 ω = 1 / X \omega=1/X ω = 1/ X ,那么 ω \omega ω 服从自由度为 ν \nu ν 的逆Chi-square分布,记作:
ω ∼ Inv - χ 2 ( ν ) \omega\sim \operatorname{Inv}\text{-}\chi^2(\nu) ω ∼ Inv - χ 2 ( ν )
密度函数为:
p ( ω ) = ( 1 / 2 ) ν / 2 Γ ( ν / 2 ) ω − ( ν / 2 + 1 ) exp ( − 1 2 ω ) , ω > 0 p(\omega)=
\frac{(1/2)^{\nu/2}}{\Gamma(\nu/2)}
\omega^{-(\nu/2+1)}
\exp\left(-\frac{1}{2\omega}\right),
\qquad \omega>0 p ( ω ) = Γ ( ν /2 ) ( 1/2 ) ν /2 ω − ( ν /2 + 1 ) exp ( − 2 ω 1 ) , ω > 0
注意到,其是一个特殊的逆Gamma分布:
Inv - χ 2 ( ν ) = Inv-gamma ( ν 2 , 1 2 ) \operatorname{Inv}\text{-}\chi^2(\nu)=
\operatorname{Inv-gamma}\left(\frac{\nu}{2},\frac{1}{2}\right) Inv - χ 2 ( ν ) = Inv-gamma ( 2 ν , 2 1 )
期望:E ( ω ) = 1 ν − 2 , ν > 2 E(\omega)=\frac{1}{\nu-2},\qquad \nu>2 E ( ω ) = ν − 2 1 , ν > 2
方差:v a r ( ω ) = 2 ( ν − 2 ) 2 ( ν − 4 ) , ν > 4 var(\omega)=\frac{2}{(\nu-2)^2(\nu-4)},\qquad \nu>4 v a r ( ω ) = ( ν − 2 ) 2 ( ν − 4 ) 2 , ν > 4
众数:m o d e ( ω ) = 1 ν + 2 mode(\omega)=\frac{1}{\nu+2} m o d e ( ω ) = ν + 2 1
Scaled inverse-Chi-square分布
如果 X ∼ χ ν 2 X\sim \chi^2_\nu X ∼ χ ν 2 ,令:
ω = ν s 2 X \omega = \frac{\nu s^2}{X} ω = X ν s 2
那么 ω \omega ω 服从 scaled inverse-χ 2 \chi^2 χ 2 分布,记作:
ω ∼ Inv - χ 2 ( ν , s 2 ) \omega\sim \operatorname{Inv}\text{-}\chi^2(\nu,s^2) ω ∼ Inv - χ 2 ( ν , s 2 )
密度函数为:
p ( ω ) = ( ν s 2 / 2 ) ν / 2 Γ ( ν / 2 ) ω − ( ν / 2 + 1 ) exp ( − ν s 2 2 ω ) , ω > 0 p(\omega)=
\frac{(\nu s^2/2)^{\nu/2}}{\Gamma(\nu/2)}
\omega^{-(\nu/2+1)}
\exp\left(-\frac{\nu s^2}{2\omega}\right),
\qquad \omega>0 p ( ω ) = Γ ( ν /2 ) ( ν s 2 /2 ) ν /2 ω − ( ν /2 + 1 ) exp ( − 2 ω ν s 2 ) , ω > 0
注意到,其与逆Gamma分布的关系是:
Inv - χ 2 ( ν , s 2 ) = Inv-gamma ( ν 2 , ν s 2 2 ) \operatorname{Inv}\text{-}\chi^2(\nu,s^2) =
\operatorname{Inv-gamma}\left(\frac{\nu}{2},\frac{\nu s^2}{2}\right) Inv - χ 2 ( ν , s 2 ) = Inv-gamma ( 2 ν , 2 ν s 2 )
期望:E ( ω ) = ν s 2 ν − 2 , ν > 2 E(\omega)=\frac{\nu s^2}{\nu-2},\qquad \nu>2 E ( ω ) = ν − 2 ν s 2 , ν > 2
方差:v a r ( ω ) = 2 ν 2 s 4 ( ν − 2 ) 2 ( ν − 4 ) , ν > 4 var(\omega)=\frac{2\nu^2s^4}{(\nu-2)^2(\nu-4)},\qquad \nu>4 v a r ( ω ) = ( ν − 2 ) 2 ( ν − 4 ) 2 ν 2 s 4 , ν > 4
众数:m o d e ( ω ) = ν s 2 ν + 2 mode(\omega)=\frac{\nu s^2}{\nu+2} m o d e ( ω ) = ν + 2 ν s 2
scaled inverse-χ 2 \chi^2 χ 2 先验分布
我们可以不用逆Gamma分布书写先验,而是把 σ 2 \sigma^2 σ 2 的先验写成scaled inverse-χ 2 \chi^2 χ 2 分布:
σ 2 ∼ Inv - χ 2 ( ν 0 , σ 0 2 ) \sigma^2 \sim \operatorname{Inv}\text{-}\chi^2(\nu_0,\sigma_0^2) σ 2 ∼ Inv - χ 2 ( ν 0 , σ 0 2 )
也就是:
p ( σ 2 ) ∝ ( σ 2 ) − ( ν 0 / 2 + 1 ) exp ( − ν 0 σ 0 2 2 σ 2 ) p(\sigma^2)
\propto
(\sigma^2)^{-(\nu_0/2+1)}
\exp\left(-\frac{\nu_0\sigma_0^2}{2\sigma^2}\right) p ( σ 2 ) ∝ ( σ 2 ) − ( ν 0 /2 + 1 ) exp ( − 2 σ 2 ν 0 σ 0 2 )
这里 ν 0 \nu_0 ν 0 可以看作先验的自由度,σ 0 2 \sigma_0^2 σ 0 2 可以看作先验方差尺度。
和似然相乘:
p ( σ 2 ∣ y ) ∝ ( σ 2 ) − ( ν 0 / 2 + 1 ) exp ( − ν 0 σ 0 2 2 σ 2 ) ( σ 2 ) − n / 2 exp ( − n v 2 σ 2 ) = ( σ 2 ) − ( ( ν 0 + n ) / 2 + 1 ) exp [ − ν 0 σ 0 2 + n v 2 σ 2 ] . \begin{aligned}
p(\sigma^2|y)
&\propto
(\sigma^2)^{-(\nu_0/2+1)}
\exp\left(-\frac{\nu_0\sigma_0^2}{2\sigma^2}\right)
(\sigma^2)^{-n/2}
\exp\left(-\frac{nv}{2\sigma^2}\right) \\&=
(\sigma^2)^{-((\nu_0+n)/2+1)}
\exp\left[-\frac{\nu_0\sigma_0^2+nv}{2\sigma^2}\right].
\end{aligned} p ( σ 2 ∣ y ) ∝ ( σ 2 ) − ( ν 0 /2 + 1 ) exp ( − 2 σ 2 ν 0 σ 0 2 ) ( σ 2 ) − n /2 exp ( − 2 σ 2 n v ) = ( σ 2 ) − (( ν 0 + n ) /2 + 1 ) exp [ − 2 σ 2 ν 0 σ 0 2 + n v ] .
这仍然是 scaled inverse-χ 2 \chi^2 χ 2 分布。为了写成标准形式:
σ 2 ∣ y ∼ Inv - χ 2 ( ν n , σ n 2 ) \sigma^2|y\sim
\operatorname{Inv}\text{-}\chi^2(\nu_n,\sigma_n^2) σ 2 ∣ y ∼ Inv - χ 2 ( ν n , σ n 2 )
我们需要令:
ν n = ν 0 + n \nu_n = \nu_0+n ν n = ν 0 + n
并且:
ν n σ n 2 = ν 0 σ 0 2 + n v \nu_n\sigma_n^2 = \nu_0\sigma_0^2+nv ν n σ n 2 = ν 0 σ 0 2 + n v
所以:
σ n 2 = ν 0 σ 0 2 + n v ν 0 + n \sigma_n^2 =
\frac{\nu_0\sigma_0^2+nv}{\nu_0+n} σ n 2 = ν 0 + n ν 0 σ 0 2 + n v
最终得到:
σ 2 ∣ y ∼ Inv - χ 2 ( ν 0 + n , ν 0 σ 0 2 + n v ν 0 + n ) \sigma^2|y\sim
\operatorname{Inv}\text{-}\chi^2
\left(
\nu_0+n,\
\frac{\nu_0\sigma_0^2+nv}{\nu_0+n}
\right) σ 2 ∣ y ∼ Inv - χ 2 ( ν 0 + n , ν 0 + n ν 0 σ 0 2 + n v )
在后验分布下,后验自由度等于先验自由度加上数据样本量 ;后验尺度 是先验尺度 σ 0 2 \sigma_0^2 σ 0 2 和样本平方偏差 v v v 的加权平均 ,权重分别是 ν 0 \nu_0 ν 0 和 n n n 。
Gamma先验与scaled inverse-χ 2 \chi^2 χ 2 先验
我们可以用逆Gamma分布或者Scaled inverse-χ 2 \chi^2 χ 2 分布来假设先验,从数学上看,scaled inverse-χ 2 \chi^2 χ 2 是逆Gamma分布的一种重参数化:
α = ν 0 2 , β = ν 0 σ 0 2 2 \alpha=\frac{\nu_0}{2},
\qquad
\beta=\frac{\nu_0\sigma_0^2}{2} α = 2 ν 0 , β = 2 ν 0 σ 0 2
反过来就是:
ν 0 = 2 α , σ 0 2 = β α \nu_0=2\alpha,
\qquad
\sigma_0^2=\frac{\beta}{\alpha} ν 0 = 2 α , σ 0 2 = α β
如果我们把逆Gamma先验
Inv-gamma ( α , β ) \operatorname{Inv-gamma}(\alpha,\beta) Inv-gamma ( α , β )
按照上面的关系改写成:
Inv - χ 2 ( 2 α , β / α ) \operatorname{Inv}\text{-}\chi^2(2\alpha,\beta/\alpha) Inv - χ 2 ( 2 α , β / α )
换句话说,这两个先验其实是同一个分布(Gamma分布),只是参数名字和解释方式不同,后者的先验是前者先验分布的特殊形式。我们通过逆Gamma分布计算的后验分布为:
σ 2 ∣ y ∼ Inv-gamma ( α + n 2 , β + n v 2 ) \sigma^2|y
\sim
\operatorname{Inv-gamma}
\left(
\alpha+\frac{n}{2},
\beta+\frac{nv}{2}
\right) σ 2 ∣ y ∼ Inv-gamma ( α + 2 n , β + 2 n v )
而 scaled inverse-χ 2 \chi^2 χ 2 作为先验分布计算的后验分布为:
σ 2 ∣ y ∼ Inv - χ 2 ( ν 0 + n , ν 0 σ 0 2 + n v ν 0 + n ) \sigma^2|y
\sim
\operatorname{Inv}\text{-}\chi^2
\left(
\nu_0+n,
\frac{\nu_0\sigma_0^2+nv}{\nu_0+n}
\right) σ 2 ∣ y ∼ Inv - χ 2 ( ν 0 + n , ν 0 + n ν 0 σ 0 2 + n v )
将 ν 0 = 2 α \nu_0=2\alpha ν 0 = 2 α 和 σ 0 2 = β / α \sigma_0^2=\beta/\alpha σ 0 2 = β / α 代入第二个结果:
ν 0 + n = 2 α + n = 2 ( α + n 2 ) \nu_0+n = 2\alpha+n = 2\left(\alpha+\frac{n}{2}\right) ν 0 + n = 2 α + n = 2 ( α + 2 n )
并且:
ν 0 σ 0 2 + n v ν 0 + n = 2 α ⋅ β α + n v 2 α + n = 2 β + n v 2 α + n = β + n v 2 α + n 2 \frac{\nu_0\sigma_0^2+nv}{\nu_0+n} =
\frac{2\alpha\cdot \frac{\beta}{\alpha}+nv}{2\alpha+n} =
\frac{2\beta+nv}{2\alpha+n} =
\frac{\beta+\frac{nv}{2}}{\alpha+\frac{n}{2}} ν 0 + n ν 0 σ 0 2 + n v = 2 α + n 2 α ⋅ α β + n v = 2 α + n 2 β + n v = α + 2 n β + 2 n v
这正好对应逆Gamma后验的参数关系:
α n = α + n 2 , β n = β + n v 2 , σ n 2 = β n α n \alpha_n=\alpha+\frac{n}{2},
\qquad
\beta_n=\beta+\frac{nv}{2},
\qquad
\sigma_n^2=\frac{\beta_n}{\alpha_n} α n = α + 2 n , β n = β + 2 n v , σ n 2 = α n β n
一般而言, scaled inverse-χ 2 \chi^2 χ 2 的参数更便于在统计层面上进行解释,而且也更加直观:ν 0 \nu_0 ν 0 类似于先验提供的等价观测数量,σ 0 2 \sigma_0^2 σ 0 2 类似于先验给出的平均平方偏差尺度,并且后验更新可以写成非常直观的形式,即下面这种加权平均的形式:
σ n 2 = ν 0 σ 0 2 + n v ν 0 + n \sigma_n^2=
\frac{\nu_0\sigma_0^2+nv}{\nu_0+n} σ n 2 = ν 0 + n ν 0 σ 0 2 + n v
所以,我们在实际计算里,当我们假设方差为未知量时,我们会更偏向于使用 Scaled Inverse-χ 2 \chi^2 χ 2 分布来假设先验(当先验未知时)。
泊松分布(Poisson distribution)
这个分布在流行病学里十分常用,常用于发病率的研究。
如果一个数据点 y y y 服从泊松分布
Poisson distribution
记作: θ ∼ Possion ( λ ) \theta \sim \operatorname{Possion}(\lambda) θ ∼ Possion ( λ ) , 率λ > 0 \lambda > 0 λ > 0
密度方程:
p ( θ ) = 1 θ ! λ θ exp ( − λ ) θ = 0 , 1 , 2 , … p(\theta) = \frac{1}{\theta!}\lambda^{\theta}\exp(-\lambda) \quad \theta = 0, 1, 2,\dots p ( θ ) = θ ! 1 λ θ exp ( − λ ) θ = 0 , 1 , 2 , …
期望: E [ θ ] = λ E[\theta] = \lambda E [ θ ] = λ
方差:var ( θ ) = λ \operatorname{var}(\theta) = \lambda var ( θ ) = λ
众数:mode ( θ ) = ⌊ λ ⌋ \operatorname{mode}(\theta) = \lfloor \lambda \rfloor mode ( θ ) = ⌊ λ ⌋
于是乎,我们可以写出似然:
p ( y ∣ θ ) = θ y e − θ y ! p(y|\theta) = \frac{\theta^ye^{-\theta}}{y!} p ( y ∣ θ ) = y ! θ y e − θ
对于多个独立数据点,我们的似然可以写作:
p ( y ∣ θ ) = ∏ i = 1 n θ y i e − θ y i ! ∝ θ t ( y ) e − n θ \begin{aligned}
p(y|\theta) &= \prod^n_{i=1}\frac{\theta^{y_i}e^{-\theta}}{y_i!} \\
& \propto \theta^{t(y)}e^{-n\theta}\\
\end{aligned} p ( y ∣ θ ) = i = 1 ∏ n y i ! θ y i e − θ ∝ θ t ( y ) e − n θ
其中 t ( y ) = ∑ y i = n y ˉ t(y) =\sum y_i =n\bar y t ( y ) = ∑ y i = n y ˉ 是充分统计量,这时候我们也知道了,其实Poisson分布的似然函数也可以写作Gamma分布的形式:
y ∣ θ ∼ Gamma ( n y ˉ + 1 , n ) y|\theta \sim \operatorname{Gamma}(n\bar y+1,n) y ∣ θ ∼ Gamma ( n y ˉ + 1 , n )
为了形式更加统一,我们采用指数对数变换
p ( y ∣ θ ) ∝ e − n θ e t ( y ) log ( θ ) p(y|\theta) \propto e^{-n\theta}e^{t(y)\log(\theta)} p ( y ∣ θ ) ∝ e − n θ e t ( y ) l o g ( θ )
于是乎,我们可以写出共轭先验:[我们在之前提到过,Gamma分布是泊松分布的共轭先验]
p ( θ ) ∝ ( e − θ ) η e ν log θ p(\theta) \propto (e^{-\theta})^\eta e^{\nu \log{\theta}} p ( θ ) ∝ ( e − θ ) η e ν l o g θ
这里实际上就是Gamma分布转变后的形式,这里有两个超参数 ( η , ν ) (\eta,\nu) ( η , ν ) , 我们转化为Gamma分布:
p ( θ ) ∝ e − β θ θ α − 1 p(\theta) \propto e^{-\beta\theta}\theta^{\alpha-1} p ( θ ) ∝ e − β θ θ α − 1
此时, θ ∼ G a m m a ( α , β ) \theta \sim Gamma(\alpha,\beta) θ ∼ G amma ( α , β )
所以这时候我们直接可以计算后验分布:
p ( θ ∣ y ) ∝ p ( y ∣ θ ) p ( θ ) = Gamma ( α , β ) Gamma ( n y ˉ + 1 , n ) = Gamma ( α + n y ˉ , β + n ) \begin{aligned}
p(\theta|y) &\propto p(y|\theta)p(\theta) \\
&= \operatorname{Gamma}(\alpha,\beta)\operatorname{Gamma}(n\bar y+1,n) \\
&= \operatorname{Gamma}(\alpha + n \bar y , \beta+n)
\end{aligned} p ( θ ∣ y ) ∝ p ( y ∣ θ ) p ( θ ) = Gamma ( α , β ) Gamma ( n y ˉ + 1 , n ) = Gamma ( α + n y ˉ , β + n )
负二项分布(Negative binomial distribution)
当失败次数为整数时,又叫做Pascal distribution,帕斯卡分布。
于是乎,我们现在有了似然,先验分布,后验分布,我们就可以用于计算先验预测分布:为了计算简约,我们使用 n = 1 n = 1 n = 1 进行计算
p ( y ) = p ( y ∣ θ ) p ( θ ) p ( θ ∣ y ) = Possion ( y ∣ θ ) Gamma ( θ ∣ α , β ) Gamma ( θ ∣ α + y , β + 1 ) = θ y e − θ y ! × β α Γ ( α ) θ α − 1 e − β θ × Γ ( α + y ) ( β + 1 ) α + y θ α + y − 1 e − ( β + 1 ) θ = β α Γ ( α + y ) ( β + 1 ) α + y Γ ( α ) y ! = ( α + y − 1 ) ! ( α − 1 ) ! y ! ( β β + 1 ) α ( 1 β + 1 ) y = ( α + y − 1 y ) ( β β + 1 ) α ( 1 β + 1 ) y \begin{aligned}
p(y) &= \frac{p(y|\theta)p(\theta)}{p(\theta|y)} \\
&= \frac{\operatorname{Possion}(y|\theta)\operatorname{Gamma}(\theta|\alpha,\beta)}{\operatorname{Gamma}(\theta|\alpha + y,\beta +1)} \\
&= \frac{\theta^ye^{-\theta}}{y!}\times \frac{\beta^\alpha}{\Gamma(\alpha)}\theta^{\alpha-1}e^{-\beta\theta} \times \frac{\Gamma(\alpha + y)}{(\beta+1)^{\alpha+y}\theta^{\alpha+y-1}e^{-(\beta+1)\theta}} \\
&= \frac{\beta^\alpha\Gamma(\alpha + y)}{(\beta+1)^{\alpha+y}\Gamma(\alpha)y!} \\
&= \frac{(\alpha+y-1)!}{(\alpha-1)!y!}\bigg(\frac{\beta}{\beta+1}\bigg)^\alpha\bigg(\frac{1}{\beta+1}\bigg)^y \\
&= \binom{\alpha+y-1}{y}\bigg(\frac{\beta}{\beta+1}\bigg)^\alpha\bigg(\frac{1}{\beta+1}\bigg)^y
\end{aligned} p ( y ) = p ( θ ∣ y ) p ( y ∣ θ ) p ( θ ) = Gamma ( θ ∣ α + y , β + 1 ) Possion ( y ∣ θ ) Gamma ( θ ∣ α , β ) = y ! θ y e − θ × Γ ( α ) β α θ α − 1 e − β θ × ( β + 1 ) α + y θ α + y − 1 e − ( β + 1 ) θ Γ ( α + y ) = ( β + 1 ) α + y Γ ( α ) y ! β α Γ ( α + y ) = ( α − 1 )! y ! ( α + y − 1 )! ( β + 1 β ) α ( β + 1 1 ) y = ( y α + y − 1 ) ( β + 1 β ) α ( β + 1 1 ) y
此时,这个即是负二项分布的密度,于是乎
y ∼ Neg-bin ( α , β ) y \sim \operatorname{Neg-bin}(\alpha,\beta) y ∼ Neg-bin ( α , β )
负二项分布:
记作:θ ∼ Neg-bin ( α , β ) \theta \sim \operatorname{Neg-bin}(\alpha,\beta) θ ∼ Neg-bin ( α , β ) ,其中 α \alpha α 是形状参数, β \beta β 是逆缩放参数
密度方程:
p ( θ ) = ( α + θ − 1 α − 1 ) ( β β + 1 ) α ( 1 β + 1 ) θ p(\theta) = \binom{\alpha+\theta-1}{\alpha-1}\bigg(\frac{\beta}{\beta+1}\bigg)^\alpha\bigg(\frac{1}{\beta+1}\bigg)^\theta p ( θ ) = ( α − 1 α + θ − 1 ) ( β + 1 β ) α ( β + 1 1 ) θ
期望:E ( θ ) = α β E(\theta) = \frac{\alpha}{\beta} E ( θ ) = β α
方差:var ( θ ) = α β 2 ( β + 1 ) \operatorname{var}(\theta) = \frac{\alpha}{\beta^2}(\beta+1) var ( θ ) = β 2 α ( β + 1 )
Neg-bin ( y ∣ α , β ) = ∫ Poisson ( y ∣ θ ) Gamma ( θ ∣ α , β ) d θ \operatorname{Neg-bin}(y|\alpha,\beta) = \int\operatorname{Poisson}(y|\theta)\operatorname{Gamma}(\theta|\alpha,\beta)d\theta Neg-bin ( y ∣ α , β ) = ∫ Poisson ( y ∣ θ ) Gamma ( θ ∣ α , β ) d θ
率和暴露(Rate and exposure)
在许多应用中,我们常常有多个数据测量点 y 1 , … , y n y_1,\dots,y_n y 1 , … , y n
y i ∼ Poisson ( x i θ ) y_i \sim \operatorname{Poisson}(x_i\theta) y i ∼ Poisson ( x i θ )
其中, x i x_i x i 是解释变量,而 θ \theta θ 常常是我们所感兴趣的参数,在流行病学中, θ \theta θ 通常叫做率,而x i x_i x i 叫做暴露单元。应该注意的是,这个模型并不是可交换的,对于 y i y_i y i 而言,但对于 ( x , y ) i (x,y)_i ( x , y ) i 的配对是可交换的。
此时似然为:
p ( y ∣ θ ) ∼ θ ( ∑ i = 1 n y i ) e − ( ∑ i = 1 n x i ) θ p(y|\theta) \sim \theta^{\bigg(\sum^n_{i=1}y_i\bigg)}e^{-\bigg(\sum^n_{i=1}x_i\bigg)\theta} p ( y ∣ θ ) ∼ θ ( ∑ i = 1 n y i ) e − ( ∑ i = 1 n x i ) θ
先验分布假设仍然服从 Gamma分布:
θ ∼ Gamma ( α , β ) \theta \sim \operatorname{Gamma}(\alpha,\beta) θ ∼ Gamma ( α , β )
所以后验分布为
θ ∣ y ∼ Gamma ( α + ∑ i = 1 n y i , β + ∑ i = 1 n x i ) \theta|y \sim \operatorname{Gamma}\bigg(\alpha+\sum^n_{i=1}y_i,\beta+\sum^n_{i=1}x_i\bigg) θ ∣ y ∼ Gamma ( α + i = 1 ∑ n y i , β + i = 1 ∑ n x i )
指数分布(Exponential model)
指数分布通常用于模拟“等待时间”和其他连续的、正的、实值的随机变量,这些随机变量通常以时间尺度来衡量。首先回忆一下指数分布的密度函数
指数分布:
记作: θ ∼ E x p o n ( β ) \theta\sim Expon(\beta) θ ∼ E x p o n ( β )
密度函数: p ( θ ) = β e − β θ , θ > 0 , same as Gamma ( α = 1 , β ) p(\theta) = \beta e^{-\beta\theta}, \theta >0, \text{same as Gamma}(\alpha = 1, \beta) p ( θ ) = β e − β θ , θ > 0 , same as Gamma ( α = 1 , β )
期望:E ( θ ) = 1 β E(\theta) = \frac{1}{\beta} E ( θ ) = β 1
方差:v a r ( θ ) = 1 β 2 var(\theta) = \frac{1}{\beta^2} v a r ( θ ) = β 2 1
众数: 0
我们还是一样的写出似然函数:
p ( y ∣ θ ) = θ exp ( − y θ ) p(y|\theta) = \theta\exp(-y\theta) p ( y ∣ θ ) = θ exp ( − y θ )
其中,这里的 θ \theta θ 跟泊松分布一样,也被叫做“率(Rate)”。
指数分布有一个特性,具有“无记忆性”,这使其成为生存或寿命数据的天然模型。一个个体能够存活额外时间 t 的概率与到目前为止所经过的时间无关:即Pr ( y > t + s ∣ y > s , θ ) = Pr ( y > t ∣ θ ) \operatorname{Pr}(y>t+s|y>s,\theta) =\operatorname{Pr}(y>t|\theta) Pr ( y > t + s ∣ y > s , θ ) = Pr ( y > t ∣ θ ) 。 那么我们先前提过,泊松分布也可以看作一个特殊的Gamma分布,那么,同样的,指数分布也可以看作一个特殊的Gamma函数,所以显然,我们可以构造Gamma分布的先验函数来方便我们计算,即:
θ ∼ Gamma ( α , β ) \theta \sim \operatorname{Gamma}(\alpha,\beta) θ ∼ Gamma ( α , β )
对于多个观测值的情况下,似然函数应该写成:
p ( y ∣ θ ) = ∏ i + 1 n θ exp ( − y i θ ) = θ n exp ( − θ ∑ i = 1 n y i ) = θ n exp ( − θ n y ˉ ) \begin{aligned}
p(y|\theta) &= \prod^n_{i+1}\theta\exp(-y_i\theta) \\
&= \theta^n\exp(-\theta\sum^n_{i=1}y_i) \\
&= \theta^n\exp(-\theta n \bar y)
\end{aligned} p ( y ∣ θ ) = i + 1 ∏ n θ exp ( − y i θ ) = θ n exp ( − θ i = 1 ∑ n y i ) = θ n exp ( − θ n y ˉ )
此时,
y ∣ θ ∼ Gamma ( n + 1 , n y ˉ ) y|\theta \sim \operatorname{Gamma}(n+1,n\bar y) y ∣ θ ∼ Gamma ( n + 1 , n y ˉ )
于是乎,我们可以计算后验分布:
p ( θ ∣ y ) ∝ p ( y ∣ θ ) p ( θ ) = Gamma ( n + 1 , n y ˉ ) Gamma ( α , β ) = Gamma ( n + α , n y ˉ + β ) \begin{aligned}
p(\theta|y) &\propto p(y|\theta)p(\theta) \\
&= \operatorname{Gamma}(n+1,n\bar y)\operatorname{Gamma}(\alpha, \beta)\\
&= \operatorname{Gamma}(n+\alpha,n\bar y+\beta)
\end{aligned} p ( θ ∣ y ) ∝ p ( y ∣ θ ) p ( θ ) = Gamma ( n + 1 , n y ˉ ) Gamma ( α , β ) = Gamma ( n + α , n y ˉ + β )