离散程度是指 离散程度的四个指标

2025-01-0501:01:36生活经验0

目录:

1 位置数据概览

2 数据分散程度探究

3 数据分布形状理解

核心统计指标解析

任何流程的度量结果均会形成一则数据集。如何把握这个数据集的状态?比如你在市场中购入了一批河虾,你可能会这样描述:“这些河虾的平均每斤数量为50只,虽然个体大小不一,但整体还算均匀。”这段话中就包含了位置状况、离散程度和分布形状三个基本概念的核心信息。

位置状况

我们最关注的数据特征之一就是位置状况,如零件的平均长度、焊锡膏的平均质量、员工的平均工资等。用来度量位置状况的指标主要有:

  • 平均值——描述数据的中心趋势,它通过对所有数值进行加总后除以数量得出,对极端值较为敏感,更常用于正态数据分布。

还有

  • 中位数——在数字排序后位于中间位置的数值,或在数字为偶数时作为两个中心点数值的平均值,用于描述数据的中心趋势,对极端值具有稳定性,更适用于非正态数据。

虽然众数也是数据现频率最高的数值,但其代表性较差,因此使用较少。

离散程度

仅凭位置状况指标无法全面描述数据,例如“一社区平均每户月收入3000元”并不能完全反映该社区的收入状况,还需考虑各户收入之间的差异波动。这就是离散程度的考量,其度量指标主要有:

  • 方差——用于描述数据的散布情况,各点与平均值的均方差越大,代表数据越分散;越小,则数据越集中,但其单位为原始数据单位的平方,不够直观,但具有可加性。

此外还有

  • 标准差——方差的平方根,与原始数据单位一致,更常用于描述数据的散布情况。
  • 极差——一组数据中的最大值与最低值之差,也称为全距,其使用仅取决于一组数据中的两个极端值,通常在小样本量(不超过6)的情况下使用。

分布形状

若能结合反映数据分布形状的指标与前两者,将能更全面地揭示数据的特性:

  • 偏度——用于度量分布的不对称性,正偏度表示分布向右尾部延伸,而负偏度则表示分布向左尾部延伸。
  • 峰度——用于度量分布的平坦性,正峰度表示分布比正态分布顶峰更陡峭,而负峰度则表示分布比正态分布顶峰更平缓。

如您有需要深入交流、探讨、精进相关内容的需求,请联系王老师 (微信)