笔记

Delta法估计方差

Delta method

阶的概念

对于一列p维随机向量Yn\mathbf{Y}_n,实数列rn\mathit{r}_n,若ϵ>0\forall \epsilon>0,存在实正数Mϵ\mathit{M_{\epsilon}},满足

P{YjnMϵrn}ϵ, j=1,...,p, nN+,P\{|Y_{jn}|\ge M_{\epsilon}r_n\}\le\epsilon, \ j = 1,...,p, \ \forall n \in \mathbb{N}^+,

​ 则称:

Yn=Op(rn)\mathbf{Y}_n = O_{p}(r_n)

这个定义表明,一个随机向量的阶由其每个维度所决定。

阶与Delta 方法

阶的概念本质上是在描述随机误差的大小。Delta 方法关心的是:已知估计量 θ^n\hat\theta_n 的误差大小,如何推出函数 g(θ^n)g(\hat\theta_n) 的误差大小和渐进分布。若估计量满足

n(θ^nθ)dN(0,σ2),\sqrt{n}(\hat\theta_n-\theta)\xrightarrow{d}N(0,\sigma^2),

则可以理解为

n(θ^nθ)=Op(1),\sqrt{n}(\hat\theta_n-\theta)=O_p(1),

从而

θ^nθ=Op(n1/2).\hat\theta_n-\theta=O_p(n^{-1/2}).

这说明 θ^n\hat\theta_n 与真实参数 θ\theta 的误差是 n1/2n^{-1/2} 阶。对 g(θ^n)g(\hat\theta_n)θ\theta 处作泰勒展开:

g(θ^n)=g(θ)+g(θ)(θ^nθ)+12g(θ~n)(θ^nθ)2+o(θ).g(\hat\theta_n)=g(\theta)+g'(\theta)(\hat\theta_n-\theta)+\frac{1}{2}g''(\tilde\theta_n)(\hat\theta_n-\theta)^2 + o(\theta).

因为 θ^nθ=Op(n1/2)\hat\theta_n-\theta=O_p(n^{-1/2}),所以

(θ^nθ)2=Op(n1).(\hat\theta_n-\theta)^2=O_p(n^{-1}).

于是一阶项是 Op(n1/2)O_p(n^{-1/2}),二阶项是 Op(n1)O_p(n^{-1})。在乘以标准化因子 n\sqrt n 后,一阶项变成 Op(1)O_p(1),二阶项变成 Op(n1/2)O_p(n^{-1/2}) 并趋近于 0。因此,g(θ^n)g(θ)g(\hat\theta_n)-g(\theta) 的主要变化由一阶线性项决定:

g(θ^n)g(θ)g(θ)(θ^nθ).g(\hat\theta_n)-g(\theta)\approx g'(\theta)(\hat\theta_n-\theta).

换句话说,Delta法是用阶判断泰勒展开中各项的大小,证明高阶项可以忽略,从而把复杂函数的渐进分布转化为原估计量渐进分布的线性变换。但需要注意:如果 g(θ)0g'(\theta)\ne 0,一阶项主导;如果 g(θ)=0g'(\theta)=0,一阶项消失,就需要考虑二阶 Delta 方法。

这个时候我考虑到这是否与n的大小相关,倘若n是一个小样本,则二阶项可能不可忽略,那么是否意味着需要使用二阶Delta方法

当n是一个小样本的时候,这时候我们只能说是一阶 Delta 法可能近似得不好,但不意味着使用二阶 Delta 法。这时候反而可以考虑bootstrap法、模拟法、精确分布或二阶修正。

使用二阶Delta法,真正必要的情况是g(θ)=0g'(\theta)=0,一阶项消失,这时候我们才必须要观察二阶项,因为一阶项近似失效。

Delta方法

假设有一估计量 θ^n\hat \theta_n,为某个位置参数θ\theta的估计,n为样本量,并想知道一个函数的统计性质,首先需要了解θ^n\hat \theta _n的渐进分布,假设θ^n\hat \theta _n满足中心极限定理,具有渐进正态性,即

n(θ^nθ)dN(0,σ2)\sqrt{n}(\hat \theta _n-\theta) \xrightarrow{d} N(0,\sigma^2)

其中,n \sqrt{n}为标准化因子, d\xrightarrow{d}为依分布收敛, σ2\sigma^2为渐进方差,当确定应用函数,采用泰勒展开,取一阶

g(θ^n)=g(θ)+g(θ)(θ^nθ)+ϵ(θ)g(θ^n)g(θ)g(θ)(θ^nθ)n(g(θ^n)g(θ))ng(θ)(θ^nθ)n(g(θ^n)g(θ))g(θ)n(θ^nθ)when n, thenn(g(θ^n)g(θ))dN(0,g(θ)2σ2)\begin{aligned} g(\hat \theta _n) &= g(\theta) + g'(\theta)(\hat \theta _n -\theta) + \epsilon(\theta)\\ g(\hat \theta _n) - g(\theta) &\approx g'(\theta)(\hat \theta _n -\theta)\\ \sqrt{n}\cdot (g(\hat \theta _n) - g(\theta)) &\approx \sqrt{n}\cdot g'(\theta)(\hat \theta _n -\theta) \\ \sqrt{n}\cdot (g(\hat \theta _n) - g(\theta)) &\approx g'(\theta)\cdot \sqrt{n} \cdot (\hat \theta _n -\theta) \\ when \ n \to \infty,\ then \\ \sqrt{n}\cdot (g(\hat \theta _n) - g(\theta)) &\xrightarrow{d} N(0,g'(\theta)^2 \cdot \sigma^2) \end{aligned}

所以均值为 g(θ)g(\theta), 方差为g(θ)2σ2n\frac{g'(\theta)^2 \cdot \sigma^2}{n}\\