目录导引
1 非参数统计基本概念1.1 假设检验1.1.1 假设检验基本原理1.1.2 Power Function1.1.3 无偏检验概念1.1.4 Neyman-Pearson 引理1.2 经验分布1.2.1 经验分布1.2.2 生存函数1.3 检验的相对效率1.4 分位数1.5 秩与秩检验统计量1.5.1 无结点秩1.5.2 有结点秩1.5.1.1 基本概念1.5.1.2 性质1.6 U统计量1.6.1 单样本1.6.2 两样本问题列表这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。
1 非参数统计基本概念
1.1 假设检验
1.1.1 假设检验基本原理
一句话理解:考察样本数据是否支持我们对总体的某种猜测
搞明白假设检验需要搞明白三个问题:
1、如何选择原假设和备择假设
2、ppp值和显著性水平的作用是什么(1)我们通常将样本显示出的特点作为对总体的猜想,优先将其选作备择假设
(2)H0H_0H0是相对于H1H_1H1给出的
(3)常见的备择假设:变量相关、多组样本位置参数不同
3、两类错误(1)假设检验的关键是检验统计量T=T(X1,X2,...,Xn)T=T(X_1,X_2,...,X_n)T=T(X1,X2,...,Xn)及其在H0H_0H0下的分布情况
(2)p=P{∣T∣>t0}p=P\{|T|>t_0\}p=P{∣T∣>t0}越小,说明拒绝原假设犯错误的代价越小,即第一类错误概率
(1)拒真错误 | decline H0H_0H0 while H0H_0H0 is true
(2)取伪错误 | accept H0H_0H0 while H1H_1H1 is true
1.1.2 Power Function
势函数刻画了检验统计量 TTT 落入拒绝域的概率,我们先规范假设检验问题如下再一并给出势函数定义
H0:θ∈Θ0v.s.H1:θ∈Θ1,Θ0∩Θ1=∅H_0:\theta \in \Theta_0 \quad v.s. \quad H_1:\theta \in \Theta_1,\quad \Theta_0 \cap \Theta1 = \emptyH0:θ∈Θ0v.s.H1:θ∈Θ1,Θ0∩Θ1=∅
gTn(θ)=P{Tn∈W},θ=Θ1∪Θ2g_{T_n}(\theta)=P\{T_n\in W\}, \quad \theta=\Theta_1 \cup \Theta_2gTn(θ)=P{Tn∈W},θ=Θ1∪Θ2
当θ∈Θ0\theta \in \Theta_0θ∈Θ0时,gTn(θ)g_{T_n}(\theta)gTn(θ)反映了犯第一类错误的概率。
当θ∈Θ1\theta \in \Theta_1θ∈Θ1时,gTn(θ)g_{T_n}(\theta)gTn(θ)反映了不犯第二类错误的概率。
举个例子,考虑H0:λ⩾1↔H1:λ<1H_0:\lambda \geqslant1\leftrightarrow H_1:\lambda < 1H0:λ⩾1↔H1:λ<1,以∑i=1nxi\sum_{i=1}^n x_i∑i=1nxi为充分统计量,构造拒绝域{∑i=1nxi<C}\{\sum_{i=1}^n x_i<C\}{∑i=1nxi<C}.则可以得到第一类错误和第二类错误的概率表达式,分别都是λ\lambdaλ的函数
α(λ)=P{∑i=1nxi<C∣λ∈H0}\alpha(\lambda) = P\{\sum_{i=1}^n x_i<C | \lambda\in H_0\}α(λ)=P{∑i=1nxi<C∣λ∈H0}β(λ)=1−P{∑i=1nxi<C∣λ∈H1}\beta(\lambda) = 1-P\{\sum_{i=1}^n x_i<C | \lambda\in H_1\}β(λ)=1−P{∑i=1nxi<C∣λ∈H1}
1.1.3 无偏检验概念
一个检验不犯第二类错误的概率不小于犯第一类错误的概率:
P{T∈W}={⩽α,θ∈Θ0⩾α,θ∈Θ1P\{T\in W\}=\left \{ \begin{aligned} \leqslant \alpha, \theta \in \Theta_0\\ \geqslant \alpha, \theta \in \Theta_1 \end{aligned} \right.P{T∈W}={⩽α,θ∈Θ0⩾α,θ∈Θ1
举一个例子,对于分布函数p(x)=1θe−xθ,0<xp(x)=\frac{1}{\theta}e^{-\frac{x}{\theta}},0<xp(x)=θ1e−θx,0<x
考虑假设检验H0:θ=2↔H1:θ>2H_0:\theta=2 \leftrightarrow H_1:\theta > 2H0:θ=2↔H1:θ>2
设置拒绝域W:{(x1,x2):9.5<x1+x2}W:\{(x1, x2):9.5<x1+x2\}W:{(x1,x2):9.5<x1+x2}
那么有落入拒绝域的概率为:
P{(x1,x2)∈W}=1−P{x1+x2⩽9.5}=1−∫09.5∫09.5−x21θ2e−x1+x2θdx1dx2=θ+9.5θe−9.5θP\{(x1, x2)\in W\}=1-P\{x_1+x_2\leqslant 9.5\} \\ =1-\int_{0}^{9.5}\int_{0}^{9.5-x_2}\frac{1}{\theta^2}e^{-\frac{x_1+x_2}{\theta}}dx_1dx_2=\frac{\theta+9.5}{\theta}e^{\frac{-9.5}{\theta}} P{(x1,x2)∈W}=1−P{x1+x2⩽9.5}=1−∫09.5∫09.5−x2θ21e−θx1+x2dx1dx2=θθ+9.5eθ−9.5
带入H0H_0H0得到α=0.0497≈0.05\alpha=0.0497\approx 0.05α=0.0497≈0.05,另外一头的β⩾0.05\beta\geqslant 0.05β⩾0.05
1.1.4 Neyman-Pearson 引理
1.2 经验分布
1.2.1 经验分布
经验分布函数
F^n(x)=1n∑i=1nI(Xi⩽x)\hat F_n(x)=\frac{1}{n}\sum_{i=1}^nI(X_i\leqslant x)F^n(x)=n1∑i=1nI(Xi⩽x)
经验分布函数的性质
(1)E(F^n(x))=F(x),Var(F^n(x))=F(x)(1−F(x))nE(\hat F_n(x))=F(x),Var(\hat F_n(x))=\frac{F(x)(1-F(x))}{n}E(F^n(x))=F(x),Var(F^n(x))=nF(x)(1−F(x))
(2)MSE=Var+bias2=Var→0(n→∞)MSE=Var+bias^2=Var\to 0(n \to \infty)MSE=Var+bias2=Var→0(n→∞),而F^n(x)⟶PF(x)\hat F_n(x)\stackrel{P}{\longrightarrow} F(x)F^n(x)⟶PF(x)
(3)supx∣F^n(x)−F(x)∣→a.s.0\sup\limits_{x} | \hat F_n(x)-F(x)| \stackrel{a.s.}{\to} 0xsup∣F^n(x)−F(x)∣→a.s.0
(4)DKW:∀ϵ>0,P{supx∣F^n(x)−F(x)∣>ϵ}⩽2e−2nϵ2\forall \epsilon >0,P\{\sup\limits_{x} | \hat F_n(x)-F(x)|>\epsilon\}\leqslant 2e^{-2n\epsilon^2}∀ϵ>0,P{xsup∣F^n(x)−F(x)∣>ϵ}⩽2e−2nϵ2
其中,关于DKW不等式,可以得到对于任意分布函数的一个置信区间,只需要令
ϵn2=ln(2α)/(2n)L(x)=max{F^n(x)−ϵn,0}U(x)=min{F^n(x)+ϵn,1}\begin{aligned} \epsilon_n^2&=ln(\frac{2}{\alpha})/(2n) \\ L(x) &= \max \{\hat F_n(x)-\epsilon_n, 0\} \\ U(x) &=\min \{\hat F_n(x)+\epsilon_n, 1\} \end{aligned} ϵn2L(x)U(x)=ln(α2)/(2n)=max{F^n(x)−ϵn,0}=min{F^n(x)+ϵn,1}
就可以证明[L(x),U(x)][L(x),U(x)][L(x),U(x)]是一个F(x)F(x)F(x)的1−α1-\alpha1−α置信区间
P{L(x)⩽F(x)⩽U(x)}⩾1−αP\{L(x)\leqslant F(x) \leqslant U(x)\}\geqslant 1-\alphaP{L(x)⩽F(x)⩽U(x)}⩾1−α
1.2.2 生存函数
生存函数定义
在ttt时刻存活的概率,与分布函数相斥
S(t)=P(T>t)=1−F(t)S(t)=P(T>t)=1-F(t)S(t)=P(T>t)=1−F(t)
危险函数定义
在ttt时刻存活的瞬时死亡率,为对数生存函数的负导数
h(t)=f(t)1−F(t)=−ddtln(S(t))h(t)=\frac{f(t)}{1-F(t)}=-\frac{d}{dt}ln(S(t))h(t)=1−F(t)f(t)=−dtdln(S(t))
生存函数的估计
Sn(t)=1−Fn(t)=1−1n∑i=1nI(ti⩽t)S_n(t)=1-F_n(t)=1-\frac{1}{n}\sum_{i=1}^nI(t_i\leqslant t)Sn(t)=1−Fn(t)=1−n1∑i=1nI(ti⩽t)
对数经验生存函数的方差
∵var(g(x))≈[g′(x)]2var(x)andFn(t)≈F(t)∴var{ln[1−Fn(t)]}≈var[1−Fn(t)][1−F(t)]2=1nF(t)[1−F(t)][1−F(t)]2=F(t)n[1−F(t)]\begin{aligned} \because var(g(x)) &\approx [g'(x)]^2var(x)\quad and \quad F_n(t) \approx F(t) \\ \therefore var\{ln[1-F_n(t)]\} &\approx \frac{var[1-F_n(t)]}{[1-F(t)]^2} \\ &=\frac{1}{n}\frac{F(t)[1-F(t)]}{[1-F(t)]^2} =\frac{F(t)}{n[1-F(t)]} \end{aligned} ∵var(g(x))∴var{ln[1−Fn(t)]}≈[g′(x)]2var(x)andFn(t)≈F(t)≈[1−F(t)]2var[1−Fn(t)]=n1[1−F(t)]2F(t)[1−F(t)]=n[1−F(t)]F(t)
1.3 检验的相对效率
对于同一个假设检验问题,不同的统计量有不同的是函数,一般好的检验有较大的势。在显著性水平固定的情况下,样本量越大,势越大。比较两个检验的相对效率相当于比较两个检验在相同的势条件下,需要的样本量大小,量小者更优。
渐进相对效率的英文是Asymptotic Relative Efficiency,Pitman ARE是一个代表
针对原假设只取单个值的假设检验问题H0:θ=θ0↔H1:θ≠θ0H_0:\theta=\theta_0\leftrightarrow H_1:\theta \neq \theta_0H0:θ=θ0↔H1:θ=θ0,在原假设的一个邻域内,固定势1−β1-\beta1−β,令备择假设θi\theta_iθi逼近原假设θ0\theta_0θ0,将两个统计量的样本量比值极限定义为渐进相对效率。
取一个序列limi→∞θi=θ0,θi≠θ0\lim\limits_{i \to \infty}{\theta_i}=\theta_0,\theta_i \neq \theta_0i→∞limθi=θ0,θi=θ0,构造两种检验统计量V,TV,TV,T在第iii个备择假设下需要样本量为ni,min_i,m_ini,mi.
在H0H_0H0成立时,limi→∞gVni(θ0)=limi→∞gTmi(θ0)=α\lim\limits_{i\to \infty}{g_{V_{n_i}}(\theta_0)} = \lim\limits_{i\to \infty}{g_{T_{m_i}}(\theta_0)}=\alphai→∞limgVni(θ0)=i→∞limgTmi(θ0)=α
在H1H_1H1成立时,$$
通过一个定理,可以得到Pitman ARE的简便解法:
1.4 分位数
顺序统计量与分布函数
分位数的定义
假定XXX服从概率密度为f(x)f(x)f(x)的分布,令0<p<10<p<10<p<1,满足等式F(mp)=P(X<mp)⩽p,F(mp+)=P(X⩽mp)⩾pF(m_p)=P(X<m_p)\leqslant p,F(m_p+)=P(X\leqslant m_p)\geqslant pF(mp)=P(X<mp)⩽p,F(mp+)=P(X⩽mp)⩾p唯一的根mpm_pmp称为分布F(x)F(x)F(x)的ppp分位数
对于连续分布只需要
满足等式F(mp)=P(X<mp)=pF(m_p)=P(X<m_p)=pF(mp)=P(X<mp)=p的唯一的mpm_pmp
对比两个定义的差异性,离散性分布可能在mpm_pmp上的概率非零,使得F(mp+)>F(mp)F(m_p+)>F(m_p)F(mp+)>F(mp),找不到一个F(mp)=pF(m_p)=pF(mp)=p的完美解,而连续分布显然可以。
分位数的估计
mp={X(k),kn+1=p,X(k)+(X(k+1)−X(k))[(n+1)p−k],kn+1<p<k+1n+1.m_p=\left \{ \begin{aligned} X_{(k)} \quad\quad\quad\quad\quad\quad\quad\quad &, \frac{k}{n+1}=p ,\\ X_{(k)}+(X_{(k+1)}-X_{(k)})[(n+1)p-k]&, \frac{k}{n+1}<p<\frac{k+1}{n+1}. \end{aligned} \right . mp=⎩⎪⎪⎨⎪⎪⎧X(k)X(k)+(X(k+1)−X(k))[(n+1)p−k],n+1k=p,,n+1k<p<n+1k+1.
注意,[(n+1)p-k]是一个连续插值
分位数可视化应用
箱线图QQ图
1.5 秩与秩检验统计量
1.5.1 无结点秩
Ri=∑j=1nI(Xj⩽Xi)R_i=\sum_{j=1}^n I(X_j \leqslant X_i) Ri=j=1∑nI(Xj⩽Xi)
对于SRS样本{X1,X2,...,Xn}\{X_1,X_2,...,X_n\}{X1,X2,...,Xn},其秩{R1,R2,...,Rn}\{R_1,R_2,...,R_n\}{R1,R2,...,Rn}等可能地取(1,2,...,n)(1,2,...,n)(1,2,...,n)的n!n!n!种排列中的一个。
P(R=(i1,i2,...,in))=1n!P(R=(i_1,i_2,...,i_n))=\frac{1}{n!} P(R=(i1,i2,...,in))=n!1
期望与方差
E(R1)=n+12Var(Ri)=E(Ri2)−[E(Ri)]2=n(n+1)(2n+1)61n−(n+1)222=n2−112cov(Ri,Rj)=E[Ri−E(Ri)][Rj−E(Rj)]=−n+112\begin{aligned} E(R_1)&=\frac{n+1}{2} \\ Var(R_i)&=E(R_i^2)-[E(R_i)]^2 \\ &= \frac{n(n+1)(2n+1)}{6}\frac{1}{n}-\frac{(n+1)^2}{2^2} \\ &= \frac{n^2-1}{12} \\ cov(R_i,R_j) &=E[R_i-E(R_i)][R_j-E(R_j)] \\ &=-\frac{n+1}{12} \end{aligned} E(R1)Var(Ri)cov(Ri,Rj)=2n+1=E(Ri2)−[E(Ri)]2=6n(n+1)(2n+1)n1−22(n+1)2=12n2−1=E[Ri−E(Ri)][Rj−E(Rj)]=−12n+1
秩和与平方秩和
∑i=1nα(Ri)=∑r=1nr=n(n+1)2∑i=1nα(Ri)2=∑r=1nr2=n(n+1)(2n+1)6\begin{aligned} \sum_{i=1}^n \alpha(R_i) &=\sum_{r=1}^n r \\ &=\frac{n(n+1)}{2} \\ \sum_{i=1}^n \alpha(R_i)^2 &=\sum_{r=1}^n r^2 \\ &=\frac{n(n+1)(2n+1)}{6} \end{aligned} i=1∑nα(Ri)i=1∑nα(Ri)2=r=1∑nr=2n(n+1)=r=1∑nr2=6n(n+1)(2n+1)
1.5.2 有结点秩
1.5.1.1 基本概念
结长τ\tauτ一个数的重复个数
结数ggg有重复的数的个数
我们对于一段相同的数,这么处理他们的秩,先以RjR_jRj记假设不相同条件下的秩,且这组数据的第一个选手的秩为r+1r+1r+1。
α(Rj)=1τ[(r+1)+(r+2)+...+(r+τ)]=r+τ+12\alpha(R_j)=\frac{1}{\tau}[(r+1)+(r+2)+...+(r+\tau)]=r+\frac{\tau+1}{2} α(Rj)=τ1[(r+1)+(r+2)+...+(r+τ)]=r+2τ+1
1.5.1.2 性质
相同一段长度的数据,如果全部相同或者如果全部不相同,他们的秩和不变,但是秩平方和不同。
B1=(r+1)2+...+(r+τ)2=τr2+rτ(τ+1)+τ(τ+1)(2τ+1)6B2=(r+τ+12)2×τ=τr2+rτ(τ+1)+τ(τ+1)24B_1= (r+1)^2+...+(r+\tau)^2 = \tau r^2+r\tau(\tau + 1)+\frac{\tau(\tau+1)(2\tau+1)}{6} \\ B_2=(r+\frac{\tau+1}{2})^2\times \tau =\tau r^2+r\tau(\tau + 1)+\frac{\tau(\tau+1)^2}{4} B1=(r+1)2+...+(r+τ)2=τr2+rτ(τ+1)+6τ(τ+1)(2τ+1)B2=(r+2τ+1)2×τ=τr2+rτ(τ+1)+4τ(τ+1)2
差值为τ3−τ12\frac{\tau^3-\tau}{12}12τ3−τ,这是一个非常经典的数值,后面一直会见到
一般来说,
秩和与平方秩和满足如下:
∑i=1nα(Ri)=n(n+1)2∑i=1nα(Ri)2=n(n+1)(2n+1)6−∑j=1gτj3−τj12\begin{aligned} \sum_{i=1}^n \alpha(R_i) &= \frac{n(n+1)}{2} \\ \sum_{i=1}^n \alpha(R_i)^2 &= \frac{n(n+1)(2n+1)}{6} - \sum_{j=1}^g \frac{\tau_j^3 - \tau_j}{12} \end{aligned} i=1∑nα(Ri)i=1∑nα(Ri)2=2n(n+1)=6n(n+1)(2n+1)−j=1∑g12τj3−τj
还有两个重要性质
性质1
性质2
1.6 U统计量
非参数统计中得U统计量与参数统计中的充分完备统计量有着相似的地位,后者是用来找UMVUE的。
1.6.1 单样本
参数θ\thetaθ的核有如下定义
Eh(X1,X2,...,Xk)=θ,∀θ∈ΘEh(X_1,X_2,...,X_k)=\theta,\quad \forall \theta \in \ThetaEh(X1,X2,...,Xk)=θ,∀θ∈Θ
当这样的kernel存在,且kkk是使得成立的最小样本量,参数θ\thetaθ就是kkk阶可估参数。
对称核的构造
h∗(X1,X2,...,Xk)=1k!∑(i1,i2,...,ik)h(Xi1,Xi2,...,Xik)h^*(X_1,X_2,...,X_k)=\frac{1}{k!}\sum\limits_{(i_1,i_2,...,i_k)}h(X_{i_1},X_{i_2},...,X_{i_k})h∗(X1,X2,...,Xk)=k!1(i1,i2,...,ik)∑h(Xi1,Xi2,...,Xik)
U统计量的构造
简单来说,就是把一个样本量大小为nnn的样本,组合出所有的大小为kkk的样本做(kn)\left( _k^n \right )(kn)个对称核,取平均。
U(X1,X2,...,Xn)=1(kn)∑(i1,i2,...,ik)h∗(Xi1,Xi2,...,Xik)U(X_1,X_2,...,X_n)=\frac{1}{\left( _k^n \right )}\sum\limits_{(i_1,i_2,...,i_k)}h^*(X_{i_1},X_{i_2},...,X_{i_k})U(X1,X2,...,Xn)=(kn)1(i1,i2,...,ik)∑h∗(Xi1,Xi2,...,Xik)
小练习:
证明全体一阶矩存在的分布族,对于其1阶可估参数θ=E(X)\theta=E(X)θ=E(X),对称核h(X1)=X1h(X_1)=X_1h(X1)=X1,其生成的U统计量为样本均值。证明全体二阶矩有限的分布族,对于其2阶可估参数θ=E(X−EX)2\theta=E(X-EX)^2θ=E(X−EX)2,非对称核h(X1,X2)=X12−X1X2h(X_1,X_2)=X_1^2-X_1X_2h(X1,X2)=X12−X1X2生成的U统计量就是样本方差。
U统计量的性质
期望 E(U(X1,X2,...,Xn))=θE(U(X_1,X_2,...,X_n))=\thetaE(U(X1,X2,...,Xn))=θ
方差 var(U(X1,X2,...,Xn))=1(kn)∑c=1k(ck)(k−cn−k)σc2var(U(X_1,X_2,...,X_n))=\frac{1}{(_k^n)} \sum_{c=1}^k(_c^k)(_{k-c}^{n-k})\sigma_c^2var(U(X1,X2,...,Xn))=(kn)1∑c=1k(ck)(k−cn−k)σc2
大样本量下,U统计量均方收敛到σ12\sigma_1^2σ12,从而U统计量是θ\thetaθ的相合估计
备注,上面的σc2\sigma_c^2σc2指的是:
如果一组{i1,i2,...,ik}\{i_1,i_2,...,i_k\}{i1,i2,...,ik}和另外一组{j1,j2,...,jk}\{j_1,j_2,...,j_k\}{j1,j2,...,jk}有ccc个元素是一样的,那么
σc2=cov[h(Xi1,Xi2,...,Xik),h(Xj1,Xj2,...,Xjk)]=E(hc(X1,X2,...,Xc)−θ)2\begin{aligned} \sigma_c^2 &=cov[h(X_{i_1},X_{i_2},...,X_{i_k}),h(X_{j_1},X_{j_2},...,X_{j_k})] \\ &=E(h_c(X_1,X_2,...,X_c)-\theta)^2 \end{aligned} σc2=cov[h(Xi1,Xi2,...,Xik),h(Xj1,Xj2,...,Xjk)]=E(hc(X1,X2,...,Xc)−θ)2
这里hc(X1,X2,...,Xc)=E(x1,x2,...,xc,Xc+1,...,Xk)h_c(X_1,X_2,...,X_c)=E(x_1,x_2,...,x_c,X_{c+1},...,X_k)hc(X1,X2,...,Xc)=E(x1,x2,...,xc,Xc+1,...,Xk)
Hoeffding定理
Wilcoxon检验统计量的核