Skip to content

Latest commit

 

History

History
713 lines (275 loc) · 52.2 KB

样本及抽样分布_show_toc.md

File metadata and controls

713 lines (275 loc) · 52.2 KB

Contents

样本及抽样分布
统计学概述
抽样: 总体与样本
  总体
  样本
   样本容量
   最常用的样本统计量——样本均值
描述统计
  直方图和箱线图
   分位
    Q1: 四分位
    Q3: 四分之三分位
    IQR: 四分位差
   异常值Outlier
   箱线图Boxplot
  集中趋势
   均值Mean
   中位数Medium
   众数Mode
   正偏斜分布与负斜分布
   鲁棒性Robust
  离散程度
   方法
   概念
   贝塞尔校正
   无偏性证明
   3σ 原则
  归一化: 标准正态分布
   Z 值: 标准差数量
    公式
    含义
   标准正态分布
   Z 值表
抽样分布
  样本统计量
   样本均值
   样本方差
   样本标准差
   样本K阶(原点)矩
   样本K阶中心矩
  抽样分布
  正态总体的常用统计量的分布
   样本均值的正态分布
   卡方分布
    定义
    密度函数
    图形
    卡方分布的可加性
    卡方分布的数学期望和方差
    卡方分布上的分位点
    卡方分布表
   t 分布
    定义
    密度函数
    图像
    t 分布分位点
   F 分布
    定义
    概率密度
    图形
    分位点
   常用统计量的分布
  一般总体样本均值的分布
   大数定律和中心极限定理回顾
   示例
   总结
   应用

在概率论中, 我们多研究的随机变量, 它的分布都是假设已知的. 如果你已经知道了随机变量X是的分布和参数, 你去推导它的期望、方差等数字特征, 去推导它其他一些性质, 去推导X的平方是什么分布, 或推导和另一个随机变量Y相加又是什么分布. 这些工作属于概率论范畴.

但在数理统计中, 我们研究的随机变量, 它的分布是未知的, 或者是某些参数不知道, 人们通过对所研究的随机变量进行重复独立的观察, 得到许多观察值, 对这些数据进行分析, 从而对所研究的随机变量的分布做出种种推断. 比如, 实际工作中有个随机变量Z, 你不知道是什么分布, 你看到了一些试验值, 觉得Z可能是正态分布, 于是你假设Z是正态分布, 你用试验数据, 推断出它的均值可能是1, 方差可能是4, 然后做假设检验, 看看这一结论在多大程度上可靠, 如果认为可靠, 用这个结论来做分析, 或者预测将要进行的试验结果. 这叫统计.

概率论是统计推断的基础, 在给定数据生成过程下观测、研究数据的性质, 是推理; 而统计推断则根据观测的数据, 反向思考其数据生成过程. 预测、分类、聚类、估计等, 都是统计推断的特殊形式, 强调对于数据生成过程的研究, 是归纳.

总体, 是指由许多有某种共同性质的事物组成的集合, 会在此集合中选出样本进行统计推断, 选取样本的方式可能会用乱数或是其他抽样方式.

例如要针对所有乌鸦的共有特性进行研究, 总体是目前存在、以前曾经存在或是未来可能存在的所有乌鸦. **但是, 因为时间的限制、地域可取得性的限制、以及研究者的有限资源等, 不可能观测总体中的每一个, 因此研究者会从总体中产生样本, 再由样本的特性去了解总体的特性. **

产生样本的目的之一就是为了要知道总体的特性, 包括

  • 总体均值: math
  • 总体标准差: math

研究中, 从总体中抽取 (观察或调查) 一部分的个体称为样本.

样本容量是指一个样本中所包含的单位数, 一般用n表示, 它是抽样推断中非常重要的概念. 样本容量的大小与推断估计的准确性有着直接的联系, 即在总体既定的情况下, 样本容量越大其统计估计量的代表性误差就越小, 反之,样本容量越小其估计误差也就越大.

根据样本构造的不含未知参数的函数为统计量, 样本均值是一个统计量. 我们可以用样本均值描述一个样本, 多个样本则会有多个样本均值.

  1. 几乎 50% 的数据在 IQR 间.
  2. IQR 受到数据集中每一个值的影响.
  3. IQR 不受异常值的影响.
  4. 均值不一定在IQR中.

math

math

当数据中出现异常值时, 均值无法描述分布中心;

众数也很难描述分布中心;

中位数不会考虑到所有的数据, 对异常值的鲁棒性更好. 在处理高偏斜分布时, 中位数通常能够最好地反映出集中趋势.

正斜分布靠左: math

负斜分布靠右: math

即使偏离了基准也不会受太大的影响.

找出任意两个值之间差的平均值: 数值过多

找出每个值与最大值或最小值之间差的平均值: 容易受异常值干扰

找出每个值与数据集均值之间差的平均值: 适合

离均差: math

平均偏差: math

平均绝对偏差: math

**(总体) 方差 (平均平方偏差) **: math

(总体) 标准差: math

比如在高斯分布 (正态分布) 中, 我们抽取一部分的样本, 用样本的方差来估计总体的方差. 由于样本主要是落在 math 中心值附近, 那么样本方差一定小于总体的方差 (因为高斯分布的边沿抽取的数据很少) . 为了能弥补这方面的缺陷, 那么我们把公式的 math 改为 math ,以此来提高方差的数值. 这种方法叫做贝塞尔校正系数.

当我们用小样本数据的标准差去估计总体的标准差的时候采用 math , 但是这个小样本数据的实际标准差还是用 math 的那个公式 的, 不要混淆了数据的实际标准差.

对于一个随机变量 math 进行 math 次抽样, 获得样本 math , 那么样本均值: math

有偏的样本方差为:

math

无偏的样本方差为:

math

为了证明 math 的无偏性, 我们拿出样本方差中的一部分来进行单独分析,

math

同理, 我们有

math

对上式两侧取期望, 我们有

math

因为 math , 于是我们有 math

因此

math

最后, 我们有

math

可见 math 是对 math 的无偏估计.

数值分布在 math 中的概率为 0.6827.

数值分布在 math 中的概率为 0.9545.

数值分布在 math 中的概率为 0.9973.

样本均值的频数直方图的数字不能直接看出比例排名, 所以引入频率直方图, 但直方图固有弊端在于会缺少部分信息, 所以需要缩小组距以增加信息, 但过小又没有了直方图意义, 所以引入概率分布图——标准正态分布.

math

无论值是多少, 我们都可以将其转换为与均值的标准差. 通过将正态分布中的值转换为 math , 就可以知道小于或大于该值得百分比.

例如某个值与平均值相差 1 个标准偏差 math , 则无论是哪种正态分布, 我们都知道大约 80% 的值 < 该值.

我们可以将任何正态分布转化为标准正态分布, 通过 math 值进行分析, 再按照任何方式扩展.

👉 链接

根据样本构造的不含未知参数的函数为统计量.

math

math

math

math

math

在使用统计量进行统计推断时, 需要知道统计量的分布, 比如样本均值的分布.

统计量的分布, 叫做抽样分布. 总体分布函数已知时, 样本分布是确定的, 但是:

  1. 通常, 我们是不知道总体分布的;
  2. 要求出统计量的精确分布是困难的.

虽然总体不知道时, 我们很难确定, 解决这种问题需要学习非参数统计. 然而, 有两种情况是比较好研究的:

  1. 对于正太总体分布, 其常用的统计量的分布是可以推断出来的.
  2. 对于一般总体分布, 我们可以由大数定律和中心极限定理得到其样本均值统计量的期望、分布和方差等.

假设总体 math .

我们可能会用到各种各样的统计量, 但归根结底是这些统计量满足四种典型的分布, 即 math (即正态分布) 、 mathmathmath 分布**, **每一个分布对应一种检验方法, 即 math 检验、检 math 验、 math 检验和 math 检验.

这些统计量大多都是一个样本或多个样本的样本均值 math 、样本方差 math 、总体均值 math 和总体方差 math 这些元素组成的, 比如 math 等, 但我们在选择时, 一定要只有被检验一个参数不知道, 所以, 如果我们想用第一个统计量, 那么除了 math , n这俩一定知道的参数之外, 如果我们要检验 math , 那么就必须知道总体标准差 math . 换句话说, 如果我们知道总体标准差 math , 那么我们就可以选择 math 这个统计量, 并根据其满足的标准正态分布规律对总体均值 math 进行假设检验 (或求置信区间) .

但是实际情况中, 总体标准差 math 我们大多不知道, 这个时候就不能使用 math 这个统计量了, 而由于我们能求出样本标准差 math , 那么就可以选择 math 这个统计量, 这个统计量需要知道的关于总体的信息 (参数) 更少, 但也服从 math 分布. 也就是只需要知道总体满足正态分布即可, 而不需要知道其总体方差 math , 就可以对总体均值 math 进行检验.

我们了解并学习这 4 种分布, 是因为这 4 种分布, 其分布函数和密度函数都能很好地进行量化, 正态分布就是最好的例子, 其他三种只是学习之前我们不常接触而已.

以下是对这四种分布的详细的介绍.

样本均值是最常用的统计量之一, 一般用于 math -检验, 用以检验总体均值.

统计量: math , 或 math

统计量分布: math , 或 math .

math , 则称统计量

math

服从自由度为 mathmath 分布, 记为 math , 自由度指上式右端包含的独立变量的个数.

math , 其中 math ;

math 时, math . 这里 math 代表Gamma函数.

推导见书P139

math , 并且 math 相互独立, 则有 math

math , 则 math .

对于给定的 math , 满足条件:

math

卡方分布表

费希尔曾证明, 当 math 充分大时, 近似地有 math .

利用前式可以求得当 math 时卡方分布上 math 分位点的近似值.

math , math , 且 math 相互独立, 则称随机变量(统计量)

math

服从自由度为n的t分布, 即为 math , math 分布又称学生氏(student)分布.

math

math 的图形关于 math 对称, 当 math 充分大时, 其图形类似于标准正态变量概率密度的图形. 但对于较小 math , math 分布与 math 分布相差较大.

对于给定的 math , 满足条件:

math

的点 math 就是 math 分布上的 math 分位点.

math

且当 math 时, 对于常用的 math 的值, 就用正态近似: math

math , 且 math 相互独立, 则称随机变量 math 服从自由度为 mathmath 分布, 记为 math .

math

其他为 0.

由定义可知, 若 math , 则 math

还有性质: math

对于给定的 math , 满足条件:

math

的点 math 就是 math 分布的 math 分位点.

类似地有卡方分布, math 分布, math 分布的下分位点.

  1. math
  2. math
  3. mathmath 相互独立
  4. math
  5. math
  6. math 时, math , 其中 math

在概率论中, 我们已经了解了大数定律中心极限定理 (详见前面的章节) :

大数定律讲的是样本均值收敛到总体均值 (就是期望) , 像这个图一样:

而中心极限定理告诉我们, 当样本量足够大时, 样本均值的分布慢慢变成正态分布, 就像这个图:

math 代表掷骰子点数的随机变量, math , 我们做一次试验时掷 2 次骰子, 即样本容量为 2, 做一次实验的话是一个样本, 2 个数字的均值是一个统计量, 叫样本均值.

对于这个实验, 我们知道总体分布或分布律, 为比如一个样本 math , 样本均值=2.5, 也就是观察值=2.5. 我们可以发现, 只做一次试验, 样本统计量的观察值是不等于总体 math 的均值 math 的.

但是, 只要我们试验的次数足够多, 比如又做了 100 次试验, 得到 100 个样本: math 样本均值的观察值依次为: 5, 2, 1.5, … 大数定律说的就是这些样本均值依概率收敛于总体期望, 即 math , 用依概率收敛的符号表示即 math .

中心极限定理是说, 当样本量足够大时, 这些样本均值的观察值是满足正态分布的.

随机变量 math . 则独立同分布情况下, 若样本量很大, 由中心极限定理, 样本均值 math 近似地服从参数为 math 的正态分布.

样本容量如果增大 math 倍, 其标准差会缩小为 math , 分布也会变窄.

  1. 对于一个随机变量 math . 若设定样本容量为 math , 我们可以得到样本均值 math 的满足参数为 math 的正态分布, 换个说法, math .
  2. 在分布确定、有了抽样分布的基础上, 当我们实际得到一个样本, 我们想检验这个样本是否正常.
  3. 既然 math , mathmath 均已知, 那么 math 是一个统计量, 即 math , 由于单位正态分布天然的计算和观察优势, 我们可以利用 math 得到出现此样本的概率.
  4. 比如, 我们得到 math 的概率只有 0.01, 那么我们可以认为这是不正常的. 因为小概率事件在一次试验中是很难发生的, 但也确实有可能发生, 比如这里发生的几率就是 0.01.
  5. 所以我们如果假定, 一次试验当原假设为真时, 我们不接受它的概率为 0.05, 也就是说弃真错误 math , 我们就会抛弃这个样本, 觉得它是假的, 也就是说我们认为这个样本不正常. 另一种说法是, 我们有 0.95 的把握认为这个样本是不正常的.
  6. 这就是假设检验的基本思想, 具体会在之后的章节提到.