提及“被平均”与“拖后腿”这两句调侃,想必大家都不陌生,尤其在当行语汇中常被提及。既然我们提到了均数作为代表总体的指标,那么这种直觉从何而来?是否有所依据?其实,这种直觉并非毫无道理。
现在,我们进入到一个值得探讨的问题:为何数据仅“围绕平均数波动”并不意味着每个数据的值都恰好等于这个平均数。这点可能不需要过多解释,但当我们提及离均差时,你可能会有新的认识。离均差,顾名思义,反映了每个数据与均数之间的差距。计算起来很简单,只需进行相应的减法运算。
对于单个数据的离均差理解起来很容易,但如果要探讨全部数据的离均差总和,问题就变得复杂了。你可能会想到将所有离均差加总起来。问题在于这些差值有正有负。若直接加总,结果将永远为零,这就失去了比较不同总体(如上海与北京的平均薪资)的意义。我们需要对数据进行一些数学上的处理。
在这里,我们会对离均差进行平方后再加总。这样做既便于计算,又不会影响数据的单调性。换句话说,即使数值大小发生变化,其平方后的比较依然有效。于是,我们得到了相应的计算公式。
接着出现的问题是,不同总体所包含的数据量是不一样的。比如,北京和上海的在职人数不同。如果人数多的总体在数据上具有优势,这显然是不公平的。为了更准确地比较,我们需要对数据进行进一步的处理。
在这里,我们会用到方差的定义公式。通过考察每个数据与均数之间的差距,我们可以了解“被研究的总体”中有多少人被“平均”了,也就是一个数据集的离散程度如何。
虽然平方在统计中是一个重要的数学处理方式,但在现实生活中,我们通常更关心数据的实际意义。比如,我们不能先计算薪水的平方再去花费。在统计意义上,我们通常会对方差求取平方根,即标准差(sigma)。
或许有人对过去的精益管理方法6西格玛还有印象。在这里,标准差就是那个西格玛所代表的数值。在精益管理的六西格玛中,我们利用了正态分布的双侧检验来确保质量。关于这一点,我们将在未来的讨论中进一步展开。
关于6σ的分析,我们将继续深入探讨其应用与意义。
关注采客,让我们在下一篇文章中继续讨论参数估计的相关内容。如需更多相关信息或支持服务,请随时留言联系我们~