数论人生

数论是一门学科，也是我的人生。有人把酒论英雄，我用数字描天下。

首页文章列表博文目录

个人资料

欧洲联盟

给我悄悄话

博客访问：

统计学原理

(2022-01-25 11:27:55) 下一个

在纯数学家的眼里，统计学是不入流的：没有漂亮的理论证明，一切都只是数据、数据和数据。在前苏联数学家们编写的《数学：它的内容，方法和意义》之中，二十章的篇幅，有概率论，就是没有统计学的一席之地。现在呢，最流行的术语可是“大数据”，一些大学还开设了统计系，搞起了机器学习；看来，统计学还是有存在的必要的。我以前的一个学生，大学专业是《犯罪学》（Criminology），她连几何、函数、微积分都不学，偏偏就要学统计。学商科的人，不学统计，结果会如何呢？我不知道他们还能干什么。

数理统计研究数值化样本的分布、数字特征（统计量），参数估计，假设检验，回归分析，还要做预测。

抽样分布

研究对象的全部元素所组成的集合称为母体或总体，集合的基数可以是可数的，也可以是连续的。母体中一定数量的元素所组成的有限集合（X1, X2,。。。，Xn) 称为一个子样，子样的观察值通常用小写字母表示。子样的可测函数，如果不含任何未知参数，就称为一个统计量。常用的统计量有：平均值、方差、矩、相关系数、次序统计量等。

当子样是独立且同分布（来自同一个母体）时，其分布函数是各个样本的分布函数之积。对于单个正态母体，子样的平均值仍服从正态分布，子样方差服从Kai分布；两个正态母体下的子样均值和方差的分布也都是可以确定的。

由于母体的分布函数中通常包含参数，统计量中自然也会如此；但是，有的统计量可能与参数无关，这类统计量称为该参数的充分统计量；具体来说就是，在给定统计量的值的条件下，子样取任意值的条件概率与参数无关。我们还有完备统计量：它导出的分布族是完备的，或者说，由子样的任何可测函数的期望值为零，可以推出该函数以概率1等于零。完备充分统计量可用于构造一致最小方差无偏估计。

参数估计

母体的分布函数中会含有某些参数，我们可以用统计量来估计它们的值，比如用频率估计概率，用子样平均值估计母体均值，用子样方差估计母体的方差。用来进行估计的统计量称为估计量，这样的估计称为点估计。点估计的两种常用方法有矩法、极大似然法、贝叶斯估计、极大极小估计。

在矩法中，假设有K个参数待估，而母体分布的K阶矩存在。让子样的各阶矩等于母体的各阶矩，得到K个方程，解之可得参数的矩法估计量。

在极大似然法中，假设给出了母体的密度函数（含有待估参数），我们按子样分量的密度函数作乘积，得到似然函数；在给出子样取值时，似然函数仅是参数的函数。使此函数达到极大值的参数，就是极大似然估计量。

衡量估计的优劣标准有：

无偏性：估计量的期望值等于该参数；

最小方差：在所有估计量中，方差最小；

一致性：估计量依概率收敛于该参数。

贝叶斯估计依赖于先验分布和后验分布的概念。假设母体的密度函数f(x, t) 依赖于参数t,把t看作是其取值范围内的一个随机变量，这样它就有一个分布函数H(t)和密度函数h(t)（称之为先验分布和先验密度）。

假设先验分布已经给定，取定一个参数值后，可以产生一个子样（X1,X2, …, Xn)；子样和参数t的联合分布密度是f(X, t) = f(x1|t)f(x2|t)…f(xn|t)h(t), 子样的边际密度是联合密度对参数t的积分。在给定子样的值时，参数t的条件密度（称为后验密度）等于联合密度除以边际密度；这就是贝叶斯定理。当变量为离散型时，只要把密度换为分布列、积分换为求和，定理依然成立。

用统计量T去估计参数t，当然会有误差，这种误差称为损失函数；常用的是平方损失函数：L(t, T)= C(t)(T – t)^2。损失函数关于后验密度的数学期望叫做估计量T的后验风险，使后验风险达到最小值的估计量就是参数的贝叶斯估计。

损失函数关于母体密度的数学期望叫做估计量的风险（函数）R(t, T)，它表示了估计的平均损失。风险函数对先验密度的数学期望叫做估计量的先验风险。一般来说，使先验风险达到最小值的估计量也使后验风险达到最小，但反之不然。

在风险函数R(t, T)中，对t（在参数空间中）求上确界，使得上确界达到最小的估计量T称为参数的极大极小估计。我们有判别极大极小估计的充分条件。

对于母体分布F(x,t)中所含的未知参数t（母体分布已知）,我们选取一个子样和一个统计量。如果统计量的分布可以求出，那么根据这个统计量所满足的分布，我们可以求出一个区间，使得参数t落在此区间内的概率为给定的数值（置信度）；这就是参数的区间估计。

假设检验

假设我们要判定一枚硬币是否均匀（公正），即正面出现的概率是不是二分之一。我们可以抛硬币N次（如1000次），如果正面出现的次数接近N/2，我们可以认为它是均匀的；如果正面出现的次数远离N/2，它就不是均匀的。可如何来衡量 “接近” 呢？

我们可以取一个以N/2为中心的闭区间，长度为2L。如果正面出现的次数落在此区间内，我们就说它是均匀的（这个区间叫做接受域），否则就不是。关键是，区间的长度要取多大。

由于判断只是基于一次偶然的实验，我们可能会犯错。很可能硬币是均匀的，但是本次试验中，正面出现的次数却落在了拒绝域中，我们因而说它是不均匀的；这是第一类错误。第二类错误是，它本来是不均匀的，我们却说它是。

如果区间长度太大，犯第二类错误的概率就大；如果区间长度太小，犯第一类错误的概率就大。总之，不可能使得犯两类错误的概率都很小。我们的做法是，控制犯第一类错误的概率的上限（称为检验水平），如10%或5%，而使犯第二类错误的概率尽可能小。

现在假定硬币是均匀的。那么，按照二项分布，它的正面出现h次的概率就可以算出；把N/2附近的各个概率相加，达到置信水平（1减去检验水平）时，就把这些h值作为接受域。这样，当假设为真时，我们拒绝它的概率就不会超过事先给定的检验水平。

然而，犯第二类错误的概率是不可能算出来的，因为假设不真实，统计量的分布是未知的。只能通过抽样来估计。

一般地，对母体的分布形式或分布中某些未知参数做出某种假设（称为原假设H0），然后抽取子样，构造合适的统计量，根据给定的检验水平，求出接受域或拒绝域R，这就是假设检验的过程。

当统计量的值落在接受域和拒绝域的边界部分时，我们不是立即接受或拒绝H0,而是以一个概率p拒绝H0（这称为随机化检验）；对每个子样的值，定义一个势检验数：若相应统计量落在拒绝域，其值为1；边界为p;接受域为零（也就是原假设被拒绝的概率）。检验函数的数学期望称为此检验的势函数，它与母体分布所含的参数有关。

当参数值在原假设范围内时，势函数是犯第一类错误的概率；当参数值在对立假设范围内时，势函数是不犯第二类错误的概率。

回归分析

一个可观察的随机变量Y可能与另一些可观察的或其值可以指定的一般变量X1, X2, 。。。，Xp有关；为了揭示其关系式，一个最简单的模型是将Y表示为X的线性组合带一个常数项，再外加一个不可观察的随机误差项，并假设误差项的期望值为零，方差给定。这就是线性模型。

对Y和各Xi选取n组独立的观察值（n>p)，用最小二乘法估算各个组合系数：即使得关于误差的平方和Se = ||Y- CX||^2达到最小的系数C。这个最小二乘估计也是一致最小方差无偏估计，其方差可以用误差项的方差表出；误差项的方差的无偏估计等于Se/(n-p)。

当Y满足正态分布时，最小二乘估计也满足正态分布，而Se/a2（a2为误差项的方差）满足自由度为n - p的Kai平方分布。

对全部系数相关性的检验，可作原假设H0: C1 = C2 =… = Cp = 0。当H0为真时，统计量F = SR/fR：Se/fe满足自由度为（p, n- p - 1) 的F分布，其中，SR是关于回归的平方和：即Y的估计值（用线性关系得出）与平均值的差的平方和；fR = p, fe = n - p - 1。

对单个系数相关性的检验，可用假设H0: Cj = 0.当H0为真时，有一统计量Fj满足F分布。

预言与决策

在找出一个母体（随机变量）的各项影响因子之后，就得到了一个大致的关系式。当出现一个新情况时，把各项数据代入关系式，便可得到一个预测值。在此值的附近，可以找一些已有的样本，作为可采用的行动。究竟采用哪个，都是有风险的；但只要最终结果没有偏离预定目标太多，便算决策成功了。如果偏离目标太多，可能是过去的样本漏掉了某个影响因子，那就当个教训，下次再调整；更大的可能是，决策者不采纳统计数据，一意孤行，遭致恶果；这只能咎由自取了。

[ 打印 ]

[ 加入书签 ]

阅读 () ┆ 评论 (0)

目前还没有任何评论

登录后才可评论.