目录:
1 位置数据概览
2 数据分散程度探究
3 数据分布形状理解
核心统计指标解析
任何流程的度量结果均会形成一则数据集。如何把握这个数据集的状态?比如你在市场中购入了一批河虾,你可能会这样描述:“这些河虾的平均每斤数量为50只,虽然个体大小不一,但整体还算均匀。”这段话中就包含了位置状况、离散程度和分布形状三个基本概念的核心信息。
位置状况
我们最关注的数据特征之一就是位置状况,如零件的平均长度、焊锡膏的平均质量、员工的平均工资等。用来度量位置状况的指标主要有:
- 平均值——描述数据的中心趋势,它通过对所有数值进行加总后除以数量得出,对极端值较为敏感,更常用于正态数据分布。
还有
- 中位数——在数字排序后位于中间位置的数值,或在数字为偶数时作为两个中心点数值的平均值,用于描述数据的中心趋势,对极端值具有稳定性,更适用于非正态数据。
虽然众数也是数据现频率最高的数值,但其代表性较差,因此使用较少。
离散程度
仅凭位置状况指标无法全面描述数据,例如“一社区平均每户月收入3000元”并不能完全反映该社区的收入状况,还需考虑各户收入之间的差异波动。这就是离散程度的考量,其度量指标主要有:
- 方差——用于描述数据的散布情况,各点与平均值的均方差越大,代表数据越分散;越小,则数据越集中,但其单位为原始数据单位的平方,不够直观,但具有可加性。
此外还有
- 标准差——方差的平方根,与原始数据单位一致,更常用于描述数据的散布情况。
- 极差——一组数据中的最大值与最低值之差,也称为全距,其使用仅取决于一组数据中的两个极端值,通常在小样本量(不超过6)的情况下使用。
分布形状
若能结合反映数据分布形状的指标与前两者,将能更全面地揭示数据的特性:
- 偏度——用于度量分布的不对称性,正偏度表示分布向右尾部延伸,而负偏度则表示分布向左尾部延伸。
- 峰度——用于度量分布的平坦性,正峰度表示分布比正态分布顶峰更陡峭,而负峰度则表示分布比正态分布顶峰更平缓。
如您有需要深入交流、探讨、精进相关内容的需求,请联系王老师 (微信)