笔记

贝叶斯数据分析(4)——单参数模型(三)

贝叶斯数据分析(4)——单参数模型(三)

本笔记基于Bayesian Data Analysis Third Edition, Andrew Gelman et. al. 学习编写,由于是英文教材,可能在学习过程中一些翻译或者内容有误,如有问题或错误,可以发送至邮箱[email protected]反馈。在学习本书中,需要有一定数学基础或者数理统计的基础,并且存在很多需要计算的场景,对于每一条定理,从头开始的证明会让你更明白每一步是如何实现的。

那么,我们讲完了很多模型的设置,一般为了方便,我们会选用共轭先验来进行计算。在这种情况下,我们需要知道的是,我们假设先验的时候,其可以包括很多信息,但同时,它也可以几乎没有信息(因为我们无法观察),也可以介乎两者之间。但我们之前说过,后验是先验和数据的折衷,数据少时,先验会明显影响后验;数据多时,似然通常会主导后验。

我们这里选用一个例子讲述有信息的先验:

有信息先验(Informative prior distribution)

背景:美国各县在 1980-1989 年间白人男性肾脏/输尿管癌死亡率。原始地图显示:死亡率最高的 10% 县很多在美国中部;但再看死亡率最低的 10% 县,也有很多在美国中部。

The counties of the United States with the age-standardized death rates for cancer of kidney

如果我们熟悉美国地理的就知道,美国的常住人口基本位于东部和西部,而中部的居民比较少(由于环境不如东西部好),因此我们真的可以说中部地区XX县的肾癌死亡率高或者低吗,显然不可以,因为中部有很多人口很少的县,且肾癌本身处于罕见疾病,小县在十年内可能出现 0 例死亡,也可能偶然出现 1 例死亡。由于分母很小,1 例死亡就会让原始死亡率显得很高;0 例死亡又会让原始死亡率显得很低。接下来我们构建模型来做一示范。需要注意的是,由于这些地区之前本身有异质性,因此使用分层(hierarchal model )会更加合适,但为了简单,我们暂时不考虑。

Poisson-Gamma 模型

对于罕见疾病(比如癌症),我们通畅会使用泊松分布来进行拟合发病率。

对每个县 jj,设:

  • yjy_j:1980-1989 年间该县观察到的肾癌死亡人数;
  • njn_j:该县人口数;
  • ωj\omega_j:该县年死亡率,单位是 deaths per person-year;
  • 10nj10n_j:十年人年数,也就是 person-years。

于是我们便可以写出似然:

yjωjPoisson(10njωj)y_j \mid \omega_j \sim \operatorname{Poisson}(10n_j\omega_j)

而对于总体的肾癌死亡率为yj10nj\frac{y_j}{10n_j}

为了估计每个县的死亡率,我们使用Gamma先验

ωjGamma(α,β)\omega_j \sim \operatorname{Gamma}(\alpha,\beta) p(ωjα,β)=βαΓ(α)ωjα1exp(βωj),ωj>0p(\omega_j\mid \alpha,\beta) = \frac{\beta^\alpha}{\Gamma(\alpha)} \omega_j^{\alpha-1}\exp(-\beta\omega_j), \quad \omega_j>0

在这个参数下,根据Gamma分布的性质,我们写下期望和方差:

E(ωj)=αβ,var(ωj)=αβ2E(\omega_j)=\frac{\alpha}{\beta}, \qquad \operatorname{var}(\omega_j)=\frac{\alpha}{\beta^2}

在这里,我们可以通过设置不同的 α,β\alpha, \beta 来进行先验的构造,在这里,我们需要明白的是,我们构造的先验是没有唯一正确的,在这里我们使用 α=20,β=430000\alpha=20,\quad \beta=430000 来构造先验。

此时:

E(ωj)=20430000=4.65×105sd(ωj)=20430000=1.04×105E(\omega_j)=\frac{20}{430000}=4.65\times 10^{-5} \\ \operatorname{sd}(\omega_j) =\frac{\sqrt{20}}{430000} =1.04\times 10^{-5}

在这里,这个期望由县级死亡率数据的总体特征来近似确定。换句话说,我们把原有的信息纳入了我们的模型。

后验分布

此时,我们就可以计算后验分布:

p(ωjyj)p(yiωj)p(ωj)=Poisson(10njωj)Gamma(α,β)ωjα+yj1exp[(β+10nj)ωj]=Gamma(20+yj,430000+10nj)\begin{aligned} p(\omega_j\mid y_j) &\propto p(y_i|\omega_j)p(\omega_j)\\ &= \operatorname{Poisson}(10n_j\omega_j)\operatorname{Gamma}(\alpha,\beta)\\ &\propto \omega_j^{\alpha+y_j-1} \exp[-(\beta+10n_j)\omega_j] \\ &= \operatorname{Gamma}(20+y_j,430000+10n_j) \end{aligned}

此时,后验均值和方差为:

E(ωjyj)=20+yj430000+10njvar(ωjyj)=20+yj(430000+10nj)2E(\omega_j\mid y_j) = \frac{20+y_j}{430000+10n_j} \\ \operatorname{var}(\omega_j\mid y_j) = \frac{20+y_j}{(430000+10n_j)^2}

我们令暴露量:Ej=10njE_j=10n_j, 则一般形式下,我们可以计算一个普遍式的后验均值:

E(ωjyj)=α+yjβ+EjE(\omega_j\mid y_j) = \frac{\alpha+y_j}{\beta+E_j}

我们可以改写:

α+yjβ+Ej=ββ+Ejαβ+Ejβ+EjyjEj\frac{\alpha+y_j}{\beta+E_j} = \frac{\beta}{\beta+E_j}\frac{\alpha}{\beta} + \frac{E_j}{\beta+E_j}\frac{y_j}{E_j}

我们可以发现:这个后验均值就是先验和数据的折衷:

后验均值 = 先验权重 * 先验均值 + 数据权重 * 死亡率

换句话说,当我们人口越小的县,那么其 EjE_j 越小,数据权重越低,后验估计越接近先验均值。人口越多的县,EjE_j 越大,数据权重越高,后验估计越接近该县的原始死亡率。

先验预测分布

yjy_j 的边际分布为:

p(yj)=p(yjωj)p(ωj)dωjp(y_j) = \int p(y_j\mid \omega_j)p(\omega_j)\,d\omega_j

我们之前也说过,此时计算的结果是负二项分布:

P(Yj=y)=Γ(α+y)Γ(α)y!(ββ+Ej)α(Ejβ+Ej)yP(Y_j=y) = \frac{\Gamma(\alpha+y)}{\Gamma(\alpha)y!} \left(\frac{\beta}{\beta+E_j}\right)^\alpha \left(\frac{E_j}{\beta+E_j}\right)^y

其中,均值和方差为:

E(Yj)=Ejαβvar(Yj)=Ejαβ+Ej2αβ2E(Y_j)=E_j\frac{\alpha}{\beta} \\ \operatorname{var}(Y_j) = E_j\frac{\alpha}{\beta} + E_j^2\frac{\alpha}{\beta^2}

我们看回方差,我们可以知道其第一项来自 Poisson 抽样波动,第二项来自县与县之间死亡率 ωj\omega_j 的差异。

预测

我们首先看真实情况:

Kidney cancer death rates vs. population size

我们可以清晰的看到人口小的县更容易出现极端死亡率。

小县人口

我们假设一个人口数少的县,n=1,000

那么,十年的人年数为10,000:

如果,在这十年内没有人死亡,即yj=0y_j=0,死亡率是 00,后验均值为:

20430000+10000=20440000=4.55×105\frac{20}{430000+10000} = \frac{20}{440000} = 4.55\times 10^{-5}

yj=1y_j=1,死亡率为 1/ 10000,即 10410^{-4},此时,后验均值为:

21440000=4.77×105\frac{21}{440000} = 4.77\times 10^{-5}

yj=2y_j=2,死亡率是 2/10000, 此时后验均值为:

22440000=5.00×105\frac{22}{440000} = 5.00\times 10^{-5}

对小县来说,0 例、1 例、2 例造成的死亡率差异非常大,但贝叶斯估计会收缩到总体先验均值附近。这种收缩是在承认小样本条件下原始率噪声很大的基础上,把总体信息纳入估计。

大县人口

如果 nj=1000000n_j=1000000,则 Ej=10nj=10000000E_j=10n_j=10000000. 在进行先验预测模拟后,我们得到:十年死亡人数的中位数约为 473,50% 区间约为 [393,545][393,545]

假设,当 yj=393y_j=393 时,其死亡率为 3.93×1053.93\times 10^{-5} ,则后验均值为:

20+393430000+10000000=3.96×105\frac{20+393}{430000+10000000} = 3.96\times 10^{-5}

而当 yj=545y_j=545 时,死亡率为 5.45×1055.45\times 10^{-5} , 后验均值为:

20+545430000+10000000=5.41×105\frac{20+545}{430000+10000000} = 5.41\times 10^{-5}

对于大县来说,真实死亡率和后验均值非常接近,因为数据量已经足够大,先验的影响很小

下面这幅图就很明显展示不同人口下其死亡率的估计,且随着人口数增大,其置信区间也会变小。

Kidney cancer death rates vs. population size

构造信息先验

我们先计算可观测的死亡率:

Rj=yj10njR_j=\frac{y_j}{10n_j}

此时对于先验预测,我们计算其均值和方差为:

E(Rj)=αβvar(Rj)=110njαβ+αβ2E(R_j)=\frac{\alpha}{\beta} \\ \operatorname{var}(R_j) = \frac{1}{10n_j}\frac{\alpha}{\beta} + \frac{\alpha}{\beta^2}

由于不同县的 njn_j 不同,实际估计时可以用样本中 1/(10nj)1/(10n_j) 的平均值来近似上式中的暴露量项,再把观测到的死亡率均值、方差与理论均值、方差匹配,解出 α,β\alpha,\beta。这是一种经验贝叶斯或矩匹配思路:用总体的数据帮助构造先验,同时是对分层模型的近似。

非信息先验(Non-informative prior distribution)

合适的先验与不合适的先验

其实是Proper prior和improper prior,更多的是它是否在后验收敛,为了减少犯错概率后面用英文代称。

如果一个先验密度 p(θ)p(\theta) 不依赖数据,并且满足:

p(θ)dθ=1\int p(\theta)\,d\theta=1

那么我们称作为proper prior。其实通常的,只要其是收敛于一个常数即可,当不收敛于1而收敛于其他常数时,我们称作非正态密度,但是其可以被标准化,通过乘以积分值倒数即可。而如果其不收敛:

p(θ)dθ=\int p(\theta)\,d\theta=\infty

则它是 improper prior。improper prior 不是合法的概率分布。但需要注意的是,我们仍然可以用improper prior得到proper posterior。因此二者并不是等价的。

我们看回已知方差的正态分布的例子:

yiθN(θ,σ2)θN(μ0,τ02)y_i\mid \theta \sim N(\theta,\sigma^2) \\ \theta\sim N(\mu_0,\tau_0^2)

我们之前算过,此时后验的precision为:

1τ02+nσ2\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}

我们知道,当先验的precision远小于数据本身的precision时,我们会有:

p(θy)N(yˉ,σ2n)p(\theta\mid y)\approx N\left(\bar y,\frac{\sigma^2}{n}\right)

此时,我们等价于将先验里的 τ02\tau_0^2 \to \infin ,则此时,p(θ)1,<θ<p(\theta)\propto 1,\qquad -\infty<\theta<\infty

那么显然,p(θ)dθ=\int p(\theta)\,d\theta=\infty,其是一个improper prior,但注意到,只要我们有一个观测值 n>0n > 0 即有proper posterior。

因此,既然improper prior可以算出proper posterior,那么prior的设定是否proper好像就不重要了,但事实情况是,我们要明白我们的目的是获得未知参数 θ\theta 的分布,因此我们想要的是后验分布,所以后验是否proper是更加重要的,因此,我们必须检查的是:

p(yθ)p(θ)dθ<\int p(y\mid \theta)p(\theta)\,d\theta < \infty

如果这个积分有限,就可以把未归一化后验归一化为 proper posterior;如果积分无限,后验本身就不是概率分布,那么后续的推断就没有意义。

Jeffreys 不变性原则和先验

不变性原则

在选择非信息先验的时候,我们首先要知道我们选择的分布,参数都是人为选择的,这种情况下会引入主观性,因此Jeffreys提出了解决方案:首先我们在这里先借用一个分布,即二项分布,以二项分布中的成功概率为例,参数可以直接写成:θ(0,1)\theta\in(0,1) 同时也可以写成 logit 尺度:

ϕ=logit(θ)=logθ1θ,θ=eϕ1+eϕ\phi=\operatorname{logit}(\theta) =\log\frac{\theta}{1-\theta}, \qquad \theta=\frac{e^\phi}{1+e^\phi}

此时,θ\thetaϕ\phi 表示同一个未知成功概率,但所在的尺度不同。非信息先验希望尽量减少人为尺度选择对推断的影响。在这种要求下,使用 θ\theta 作为参数和使用 ϕ=h(θ)\phi=h(\theta) 作为参数时,同一套先验构造规则应当给出彼此等价的先验密度。

我们用一个例子来看:

在均匀先验下:pθ(θ)=1,0<θ<1p_\theta(\theta)=1,\qquad 0<\theta<1

若令:ϕ=logit(θ)\phi=\operatorname{logit}(\theta)

则:

dθdϕ=eϕ(1+eϕ)eϕeϕ(1+eϕ)2=eϕ(1+eϕ)2=θ1θ(1+θ1θ)2=θ(1θ)\begin{aligned} \frac{d\theta}{d\phi} &= \frac{e^{\phi}(1+e^{\phi})-e^{\phi}\cdot e^{\phi}}{(1+e^{\phi})^2} \\ &= \frac{e^{\phi}}{(1+e^{\phi})^2} \\ &= \frac{{\frac{\theta}{1-\theta}}}{(1+\frac{\theta}{1-\theta})^2} \\ &= \theta(1-\theta) \end{aligned}

根据密度变换公式(一维Jacobian):

pϕ(ϕ)=pθ(θ)dθdϕp_\phi(\phi)=p_\theta(\theta)\left|\frac{d\theta}{d\phi}\right|

因此:

pϕ(ϕ)=θ(1θ)=eϕ(1+eϕ)2p_\phi(\phi) = \theta(1-\theta) = \frac{e^\phi}{(1+e^\phi)^2}

这个密度在 ϕ\phi 上是随 ϕ\phi 变化的函数。概率尺度上的均匀先验变换到 logit 尺度后,会变成一个中间高、两端低的密度。

p_{\phi}(\phi)

假设我们在 logit 尺度上取均匀先验:pϕ(ϕ)1p_\phi(\phi)\propto 1

则变换回概率尺度有

pθ(θ)=pϕ(ϕ)dϕdθ1θ(1θ)p_\theta(\theta)=p_\phi(\phi)\left|\frac{d\phi}{d\theta}\right|\propto\frac{1}{\theta(1-\theta)}

这对应 improper 的 Beta(0,0)\operatorname{Beta}(0,0) 形式。因此,我们发现 θ\theta 尺度上的均匀先验 Beta(1,1)\operatorname{Beta}(1,1) 与 logit 尺度上的均匀先验二者不等价。

Jeffreys prior

给定似然:p(yθ)p(y\mid \theta), 记对数似然为:(θ)=logp(yθ)\ell(\theta)=\log p(y\mid \theta)

参数 θ\theta 的 Fisher 信息定义为:

J(θ)=E[((θ)θ)2|θ]=E[2(θ)θ2|θ]J(\theta) = E\left[\left(\frac{\partial \ell(\theta)}{\partial \theta}\right)^2\middle|\theta\right]=- E\left[\frac{\partial^2 \ell(\theta)}{\partial \theta^2}\middle|\theta\right]

则Jeffreys 先验定义为;

pJ(θ)J(θ)p_J(\theta)\propto \sqrt{J(\theta)}

J(θ)J(\theta) 衡量数据对参数 θ\theta 的局部辨识能力。Fisher 信息越大,似然在该参数值附近对参数变化越敏感(二阶导);Fisher 信息越小,似然在该区域越平缓。Jeffreys 先验使用 J(θ)\sqrt{J(\theta)} 作为密度形状,使先验构造规则在一一参数变换下保持一致。但应该注意的是,其仍然是一个先验设定,其特殊之处在于,先验密度由抽样模型的 Fisher 信息推出,避免选定一个主观分布族再指定超参数。某些模型中的 Jeffreys 先验是 proper prior,某些模型中的 Jeffreys 先验仍然是 improper prior,仍需检查后验密度是否收敛

书上的主要内容如上,但我觉得对于我而言这是一个比较难以理解的知识点

Jeffreys prior 服从 Jeffreys不变性原则

接下来我们进行一个证明:

设参数的一一变换为 ϕ=h(θ), θ=h1(ϕ)\phi=h(\theta),\quad\ \theta=h^{-1}(\phi).

我们对似然进行对数转化,则有:

(ϕ)=logp(yϕ)=logp(yθ=h1(ϕ))=(θ)\ell(\phi)=\log p(y\mid \phi)=\log p(y\mid \theta=h^{-1}(\phi))=\ell(\theta)

由链式法则:

(ϕ)ϕ=(θ)θdθdϕ\frac{\partial \ell(\phi)}{\partial \phi} = \frac{\partial \ell(\theta)}{\partial \theta} \frac{d\theta}{d\phi}

两边平方并取期望:

Jϕ(ϕ)=E[((ϕ)ϕ)2|ϕ]=E[((θ)θ)2|θ]dθdϕ2J_\phi(\phi) = E\left[ \left( \frac{\partial \ell(\phi)}{\partial \phi} \right)^2 \middle|\phi \right] = E\left[ \left( \frac{\partial \ell(\theta)}{\partial \theta} \right)^2 \middle|\theta \right] \left| \frac{d\theta}{d\phi} \right|^2

即:

Jϕ(ϕ)=Jθ(θ)dθdϕ2Jϕ(ϕ)=Jθ(θ)dθdϕJ_\phi(\phi)=J_\theta(\theta)\left|\frac{d\theta}{d\phi}\right|^2 \\ \Rightarrow \sqrt{J_\phi(\phi)} = \sqrt{J_\theta(\theta)} \left| \frac{d\theta}{d\phi} \right|

另一方面,密度变换公式为:

pϕ(ϕ)=pθ(θ)dθdϕp_\phi(\phi) = p_\theta(\theta) \left| \frac{d\theta}{d\phi} \right|

若在 θ\theta 尺度上使用 Jeffreys 先验:

pθ(θ)Jθ(θ)p_\theta(\theta)\propto \sqrt{J_\theta(\theta)}

当变换到 ϕ\phi 尺度下时:

pϕ(ϕ)Jθ(θ)dθdϕ=Jϕ(ϕ)p_\phi(\phi) \propto \sqrt{J_\theta(\theta)} \left| \frac{d\theta}{d\phi} \right| = \sqrt{J_\phi(\phi)}

二项分布的Jeffreys prior distribution

依旧我们使用二项分布来为我们的例子:

yBin(n,θ)y\sim \operatorname{Bin}(n,\theta)

则似然为:

p(yθ)=(ny)θy(1θ)nyp(y\mid \theta) = \binom{n}{y}\theta^y(1-\theta)^{n-y}

取对数:

(θ)=constant+ylogθ+(ny)log(1θ)\ell(\theta)=\text{constant}+y\log\theta+(n-y)\log(1-\theta)

计算对数似然的二阶导数:

2(θ)θ2=yθ2ny(1θ)2\frac{\partial^2 \ell(\theta)}{\partial \theta^2} = - \frac{y}{\theta^2} - \frac{n-y}{(1-\theta)^2}

于是乎,计算Fisher信息:

J(θ)=E[2(θ)θ2|θ]=E[yθ2ny(1θ)2|θ]=E[yθ]θ2+E[nyθ](1θ)2=nθθ2+n(1θ)(1θ)2=nθ+n1θ=nθ(1θ)\begin{aligned} J(\theta)&=-E\left[\frac{\partial^2 \ell(\theta)}{\partial \theta^2}\middle|\theta\right] \\ &= -E\left[- \frac{y}{\theta^2} - \frac{n-y}{(1-\theta)^2} \middle| \theta \right] \\ &= \frac{E[y|\theta]}{\theta^2} + \frac{E[n-y|\theta]}{(1-\theta)^2}\\ &=\frac{n\theta}{\theta^2}+\frac{n(1-\theta)}{(1-\theta)^2} \\ &=\frac{n}{\theta}+\frac{n}{1-\theta} \\ &=\frac{n}{\theta(1-\theta)} \end{aligned}

因此Jeffreys 先验为:

pJ(θ)nθ(1θ)p_J(\theta)\propto \sqrt{\frac{n}{\theta(1-\theta)}}

由于 nnθ\theta 无关,可以并入归一化常数:

pJ(θ)θ1/2(1θ)1/2p_J(\theta)\propto\theta^{-1/2}(1-\theta)^{-1/2}

所以我们构造的先验为:

θBeta(12,12)\theta\sim \operatorname{Beta}\left(\frac12,\frac12\right)

所以后验为:

p(θy)p(yθ)pJ(θ)θy(1θ)nyθ1/2(1θ)1/2=θy1/2(1θ)ny1/2.\begin{aligned} p(\theta\mid y) &\propto p(y\mid \theta)p_J(\theta) \\ &\propto \theta^y(1-\theta)^{n-y} \theta^{-1/2}(1-\theta)^{-1/2} \\ &= \theta^{y-1/2}(1-\theta)^{n-y-1/2}. \end{aligned}

仍然为Beta分布,θyBeta(y+12,ny+12)\theta\mid y\sim \operatorname{Beta}\left(y+\frac12,n-y+\frac12\right), 根据Beta分布性质,当α>0,β>0\alpha>0, \quad \beta>0, 这个后验积分是有限的,因此为proper posterior。

枢轴量(Pivotal quantities)

定义:设总体 XX 有概率密度(或分布律)f(x;θ)f(x;\theta) ,其中 θ\theta 是待估的未知参数。设 X1,,XnX_1,\dots,X_n 是一个样本,记:

G=G(X1,,Xn;θ)G = G(X_1,\dots,X_n;\theta)

为样本和待估参数 θ\theta 的函数,如果 GG 的分布已知,不依赖与任何参数,就称 GG 为枢轴量

也就是说,枢轴量与某个待估参数有关(其主要用于未知参数的区间估计),且本身含有未知参数(待估参数),因此具有“不可观察性”,也就是说即使选定了样本也无法计算出确定的值;其分布是明确的(有具体的数学公式,不包含未知参数)

例如:若有 yθN(θ,σ2)y\mid \theta\sim N(\theta,\sigma^2) , 其中 σ2\sigma^2 已知,且设 u=yθu=y-\theta ,在给定 θ\theta (即条件化), uθ=yθN(0,σ2)u\mid \theta=y-\theta\sim N(0,\sigma^2) ,此时uu 的分布不含 θ\theta,因此 u=yθu=y-\theta 是一个枢轴量。

枢轴量意义在于:把数据相对于参数的偏离标准化成一个分布已知的量。在构造非信息先验时,可以要求在观察到数据后,这个枢轴量的后验分布仍然保持其原来的抽样分布。这个要求的成立假设为:在缺少额外先验信息时,数据只改变参数的位置或尺度,不额外改变枢轴量本身的分布形状。

对于位置参数,参数只控制分布的平移。并且在没有额外信息时,一个自然的做法是在位置尺度上不给任何位置更多权重,因此得到:

p(θ)1p(\theta)\propto 1

对于尺度参数,参数控制分布的伸缩。在没有额外信息时,一个自然做法是对乘法尺度上的相对变化给相同权重,也就是在 logθ\log\theta 上取均匀先验,因此得到:

p(θ)1θp(\theta)\propto \frac{1}{\theta}

枢轴量在构造非信息先验的适用范围有限。它适合纯位置参数纯尺度参数这类结构清楚的单参数模型。对于多参数模型、分层模型或参数之间相互耦合的模型,枢轴量可能不唯一,依据不同枢轴量得到的先验也可能不同。

非信息先验局限

  1. 如果数据真的足够强,那么在一组相对平坦的先验之间,不论哪一个选择通常不会显著影响后验
  2. 平坦性依赖参数化。一个在 θ\theta 上均匀的先验,在 logθ\log\thetaθ2\theta^2 上就不再均匀
  3. improper prior 在模型比较或模型平均中会造成额外困难,因为不同模型中的归一化常数可能没有定义

弱信息先验 (Weak-informative prior distribution)

弱信息先验是 proper prior,其放入了少量的信息,它的目的是提供足够约束,使后验不会跑到明显不合理的区域。因为在很多实际问题中,我们并不是对先验分布一无所知,即便不能精确写出完整的先验分布,也通常知道参数不可能离谱到某些程度。

也就是说,弱信息先验是介于强信息先验和非信息先验的居中,我们举个例子:

对于性别而言,我们不知道这真正的比例,但我们知道这个比例不太可能远离0.5, 因此此时可以使用集中在 0.4 到 0.6 附近的先验(或者更加严格),例如:N(0.5,0.12)N(0.5,0.1^2),如果直接把正态分布用于概率参数,可以把它理解为边界外概率极小的近似,或在 [0,1][0,1] 上截断。为了保持二项模型的共轭形式,也可以使用:θBeta(20,20)\theta\sim \operatorname{Beta}(20,20)80% 的概率会落在0.4-0.6. 这个先验很松,但其排除了明显不合理的范围。

在构造弱信息先验时,我们主要可以从两点出发:

  1. 从非信息先验出发,通过加上一点先验信息,使得推断在合理范围以内。比如估计罕见病患病率,我们不能使用一个 θU(0,1)\theta\sim U(0,1), 且其真实患病率可能小于 1/10000,因为假设我们在100个人里观测到0个人,那么此时后验为 θyBeta(1,101)\theta\mid y\sim \operatorname{Beta}(1,101), 则此时后验均值为 1/102,显然远大于 1/10000. 所以不太符合
  2. 从强信息先验出发,把它适当放宽,以反映历史信息和当前研究场景之间可能存在的差异。比如历史数据可能强烈提示某个治疗效应为正,但当前实验面对的人群、剂量、测量方式可能不同。我们可以保留效应大致为正的信息,但扩大先验方差,避免历史信息过度支配新数据。

在有些场景下,即使我们想要的确实是方向性先验,也可能不希望把它直接放进分析中。比如假设我们相信某个处理效应为正,但实验本身是为了检验这个理论。如果直接使用偏向正效应的先验,就会降低证据门槛。在这种情况下,我们可以使用关于 0 对称的弱信息先验,如 θN(0,A2)\theta\sim N(0,A^2) ,这样既能限制极端不合理的效应大小,又不会预先把结论推向正方向或负方向。

总结

类型 目标 典型特点 主要风险
有信息先验 尽量表达已有科学知识或总体信息 可能明显影响小样本后验 若先验来源不适用,会引入偏差
非信息先验 尽量减少先验影响 常常很平坦,甚至 improper 参数化依赖、后验可能 improper
弱信息先验 只排除明显不合理区域,起到正则化作用 proper,较宽,但有实际尺度 若尺度选得不当,可能仍太强或太弱