在数据处理的过程中,当我们将整个数据集纳入统计范畴时,由于每个数据点都被充分利用,因此计算出的标准差和方差能够精确地反映出整个数据集的特征。当我们从整体中抽取出部分样本时,这些样本内的数据会在一定程度上集中于特定的范围之内。基于这些样本计算出的标准差和方差并不能完全准确地反映出整体数据的特征,其结果往往较之整体数据会偏小。
以高斯分布为例,当从该分布中抽取样本时,数据大多会集中在分布的中心区域,而边缘值的数量相对较少。这也就意味着,通过样本计算得到的方差和标准差通常会小于整体数据的值。为了修正这一偏差,在计算样本的方差和标准差时,我们采用n-1来替代n。
这样的处理方式会使得公式中的分母变小,从而得到的结果会变大,这有助于我们更准确地通过样本数据来预测总体情况。
若对一随机变量X进行n次抽样以获得样本,则该样本的均值、有偏样本方差及无偏样本方差等统计量均有其特定的计算公式。
对于有偏样本方差,其公式为:
而无偏样本方差的计算公式则为:
我们进一步探讨相关概念时,需要推导样本平均值平方的期望值,以及平均值的期望值和平均值方差的表达式。
期望值运算符具有线性特性,这使得我们在处理复杂表达式时能够简化计算。
基于这一特性,我们可以得出相关结论:
此前我们已经得知,通过除以n-1可以得到无偏估计。