数论人生

数论是一门学科,也是我的人生。有人把酒论英雄,我用数字描天下。
正文

统计推断的基本原理

(2022-10-04 12:07:27) 下一个

统计推断(Statistical inference)是指统计学中,根据样本数据(Sampling data)去推断总体 (Population) 的数量特征、以概率形式表述的推断方法。总体即是一项调查的全部对象,称为一个样本空间S。在S上,我们可以定义许多随机变量或随机向量X:S → Rk (k维欧几里德实数空间) 。X的取值具有随机性即一定的概率分布密度p =p(x, t),但是概率分布(密度)函数是未知的,即使是最简单的二项分布或者正态分布,其中包含的参数向量t也是未知的;我们只知道t的取值范围Ω(参数空间)。我们需要通过取样,来对含有参数t的某个函数f(t), 通常是X的某个数字特征如期望值、方差、中位数、各阶矩等,进行三个方面的推断:

(1) 给出f(t)的一致的、充分的、无偏的、方差最小的估计统计量;所谓统计量(statistic),是指只依赖于样本(X1, X2, …, Xn)的实值函数,不直接依赖于未知参数t。找估计量的方法通常有四种:(i)矩法,即令样本的各阶矩 Sigma{(Xi)^k: i = 1, 2, …, n}/n 等于总体的各阶矩: Integral {x^k p(x)dx: x取所有实数} ,解出参数向量t的表达式,从而得到f(t)的表达式。(ii)极大似然法。如果样本(X1, X2, …, Xn)是独立同分布的,那么它的联合分布密度函数为 Product {p(xi, t): I = 1, 2, …, n}。在给定样本时,我们可以选取t,使得此乘积的值达到最大。

iii)Bayesian估计法。把参数t本身看成一个随机变量;根据经验或专家的意见,对t提出一个先验分布密度函数Pi(t);再从总体中取一个独立样本(X1, X2, …, Xn);t和样本的联合分布密度即为 Pi(t) Product {p(xi, t): I = 1, 2, …, n}. 最后定义一个后验密度 h(t|x1, x2, …, xn) = 联合分布密度/联合分布密度对t的积分。另一方面,定义一个损失函数L(f(t), T(x)) 如(f(t) – T)^2; 一个风险函数 R(T|x) = Integral {L(f(t), T) h(t|x) dt。使得后验风险达到最小的估计量T,就称为f(t)的贝叶斯估计。Iv} 极小极大估计。基于总体分布的平均损失 R(f(t), T) = Integral{L(f(t), T(x)) p(x, t)dx} 称为风险函数;它在参数空间Ω上的上确界Sup{ R(f(t), T): t属于Ω}即是最大的平均损失。在所有可能的估计量T中,使得最大平均损失达到最小的那一个就是f(t)的极小极大估计。在一定条件下,贝叶斯估计也是极小极大估计。

(2)假设检验,即f(t)取某些值合理吗?我们可以接受或者拒绝这个假设H0。做法是,选取一个样本(X1, X2, …, Xn),构造一个统计量T(通常是f(t)的一个估计)。一方面,在f(t)取到某个值F的假设之下,T的概率分布密度g可以确定;另一方面,根据样本的当前观测值 (x1, x2, …, xn) 计算出来的T值,检查它是否落在低概率区域R中。如果T只有一个众位数m(Unimodal),低概率区域就是概率分布的两端:|T – m| > 某个数k;如果T的概率密度有多个峰值,低谷可能包含某些中部区域。对形如f(t) > F的单边假设检验,低概率区域设为满足T(X1, X2, …, Xn)<= h (某个数)的那些值(X1,X2, 。。。,Xn)。对形如f(t) <= F的单边假设检验,低概率区域设为满足T(X1, X2, …, Xn)> h (某个数)的那些值(X1,X2, 。。。,Xn)。

K或h值的选取【它们又被称为关键值(Critical Value)】取决于我们拒绝原假设的心理底线:如果T的观测值T (x1, x2, …, xn) 落在了低概率区域R中,我们就称它是 “奇怪的” (Surprising)。在一次观测中,就出现了一个小概率事件;这表明原来的假设可能是错的,我们拒绝接受它。T(x)落入R中的概率称为P-值(P-Vale):Pv = Prob (T (X1, X2, …, Xn) 属于R|H0为真) 。当Pv小于一定数值ε(置信水平Significance level或称检验水平)如0,05, 0,01时,我们拒绝原假设. 当原假设成立时,我们拒绝它的概率最多是ε。这就是所谓的犯第一类错误的概率。R又被称为拒绝域。

假设检验的另一种方式是构造信任区间(Confidence intervals)CI:给定一个信任度c(如95%, 99%),要找两个统计量L (X1, X2, …, Xn) 和U (X1, X2, …, Xn) ,使得对于所有参数t,f(t) 落在区间 [L, U] 中的概率(按g的分布式计算)至少为c, 而且区间的长度要尽可能小。当统计量T的值落在此区间之中时,我们接受原假设;犯第一类错误的概率最多为1 – c.

也有第二类错误:即原假设不成立,而我们接受了它:统计量的观测值落在了信任区间。犯第二类错误的概率为P(T属于CI|H0不真) = 1 – P(T属于拒绝域R|H0不真) 。在给定检验水平ε即要求P-值小于ε时,我们希望概率P(T属于拒绝域R|H0不真) = B(t)[称为势函数,不仅仅与t有关] 达到最大; 但在实际问题中,这种区域R并不存在。

另一方面,我们可以找到一个函数G:S → [0, 1],使得在H0成立时,E(G) ≦ε;而在H0不成立时,E(G)取到最大值。这种G就称为一致最强势的检验函数。构造方法是,当样本观测值落在拒绝域R的内部时,G = 1;当样本落在拒绝域和接受域的边界时,G取某个小数δ;其它情况下G为0。更具体一点,对于原假设H0: f(t)属于A,提出一个备选假设Ha: f(t)属于B;B与A不相交,都是f(t)的值域的子集。定义一个广义似然比Lamda(X) = Sup{p(x, t): f(t)属于A}/Sup(p(x, t): f(t)属于B); 当Lamda小于c时,G取1;等于c时取δ;大于c时取0。根据Neyman-Pearson的引理,可以证明这是一个一致最强势的检验函数。

(3)概率模型的检验。我们提出的关于一个随机变(向)量X的概率模型p(x, t)并不一定准确;最多只能评估一组观测数据s是否合符该模型。如果观测数据令人惊异,那么该模型可能不对。为此,我们提出一个原假设H0: X满足概率密度函数p(x, t);备选假设就是X满足另一种概率密度度q(x, t)。一个方法是构造一个偏差统计量D:S → (0, +∞) ,过大的D(s)值表明模型有偏差。当然,一次观测值D(s)是无法衡量大小的,我们只能看D(s)的值是否落在其值域分布的低概率区域中;检验用的P-值定义为P(D > D(s)); 其中P为D的概率函数。要求在假设H0成立时,D(X1, X2, …, Xn)的概率分布与参数t无关,即对所有的t,D的分布都是相同的;这种统计量被称作是辅助的(ancillary)。

偏差统计量D的一种具体构造方法是用剩余值(Residuals), 如r = (X1 – Avg(X), X2 – Avg(X), …, Xn – Avg(X)) ,其中Avg(X) = (X1 + X2 + … + Xn)/n为样本均值。基于r构造的统计量D,如k阶均值 Sigma(|Xi – Avg(X)|^k)/n, 甚至k = +∞的 max(|Xi – Avg(X)|)都是辅助的。还可以找任何一个凸函数C,构造C-均值:C^(-1)(Sigma{C(|Xi – Avg(X)|)/n}。再应用大数定律、中心极限定理去求D的近似(极限)分布;理论计算有困难时,还可以进行模拟(Simulation)。

在贝叶斯方法中提出的先验概率密度Pi(t),可能与实际观测数据相冲突。给定一个观测值x, 对于参数空间Ω的任一子集A,我们定义一个预估概率M(A) = Epi(p(x, t属于A)) = Sigma{Pi(t) p(x, t): t属于A},即p(x, t)按照先验分布的平均值。在给定p(x, t)时,M的分布是可以确定的。如果对某个子集A,M的值落入了其分布的低概率区域之中,那就表明先验分布不对,或者概率模型p(x, t)不对。有定理表明,对于极小的充分统计量T,在给定T的值时,预估概率与先验分布无关;因此,要检查数据冲突,需要采用后验预估概率。

如果查出模型不对,可以多做几次检验。不幸的是,做太多的模型检验,几乎可以肯定的是,一切都将是错误的。也可以对其模型改进;一种办法是采用变量代换,比如Y = Exp(X),X满足正态分布时,可以把Y取对数。再就是进行预测;一个经得起检验的模型或者理论,必须能够在应用于新的独立数据集时,预测新的数据。统计学家们可等不起;他们会把观测到的数据分成两组,一组用来做训练,构造出各种数字特征(称为预言者)。剩余数据则用来验证;根据此组数据中的实际值与预测值的偏差,可以评估验证集是否奇异;从而断言某个总体(随机变量)分布的合理性。

[ 打印 ]
阅读 ()评论 (5)
评论
欧洲联盟 回复 悄悄话 回复 '水晶蓝' 的评论 : 我一直希望把所有的想法和方程代码化,近日又装了Visual StudioCode,还没有来得及做完。
桃木 回复 悄悄话 应该对应每种方法给出一个实例。否则就是书本理论。是这个行业的用不着看。不是这个行业的还的回去看书。
水晶蓝 回复 悄悄话 要是有图就更清楚了。
欧洲联盟 回复 悄悄话 我在中国学到的统计学多年都没有搞清楚,现在总算是了然了。
znggg 回复 悄悄话 深入浅出,高手!
登录后才可评论.