导言:在现实世界中,随机性并非我们通常所认为的那样均匀分布。
对于程序员而言,随机函数是编程中常用的工具。这种函数能够在特定范围内生成随机数,且在很多编程语言中都是预置的,便于调用。例如,我们想要从1到100之间获取一个随机整数,只需事先定义范围,然后调用随机函数,便能得到该范围内等概率的数值,即每个数出现的概率都是相等的。
经常使用随机函数的程序员可能会误以为“随机”即代表均匀分布的数据和等概率事件。这是一个需要纠正的误区。因为,在现实生活中,许多随机现象并不遵循均匀分布。
以抛为例,尽管理论上正面和反面朝上的概率各为一半,但在实际抛掷过程中,若连续抛掷多次,你会发现正面朝上的次数并不严格地遵循50%的概率,而是在一定范围内波动。这是因为,自然界中的大多数“随机”现象实际上遵循正态分布(也被称为高斯分布)。
正态分布是一种常见的概率分布,描述了一组数据在正常状态下的分布情况。这种分布只需要两个参数来描述:一是平均值,它代表了数据集的中心位置;二是标准差,它反映了数据的离散程度。
如果一组数据服从正态分布,根据其特性,大部分数据会集中在平均值附近,且约有68%的数据会落在平均值正负1个标准差的范围内,95%的数据会落在平均值正负2个标准差的范围内,而99.7%的数据则会落在平均值正负3个标准差的范围内。这种分布在数学中有着广泛的应用,适用于多种场景下的推导和估计。
概括地说,正态分布揭示了“一般的很多,极端的很少”的现象。这种现象在生活中随处可见。例如,大多数人的身高、收入等都遵循一定的区间范围,而过于高大或矮小、特别富有或贫穷的人则相对较少。
人们常说的二八法则(或帕累托法则)实际上是对正态分布现象的一种描述。它告诉我们,世界上80%的财富掌握在20%的人手中;只要掌握字典中20%的文字就能理解文章的大部分内容;20%的超大城市中居住了大部分人口等。
正态分布在其他领域也有广泛的应用。例如,在调查和商品抽样中,我们通过抽样样本对总体进行估计。这种估计的数学原理是中心极限定理。该定理从理论上证明了,只要抽样次数足够多,样本的平均值就近似服从正态分布。
换句话说,尽管每个个体或商品都会受到多种随机因素的影响,但当我们把这些因素综合起来看整体时,其统计规律往往服从正态分布。这正是真实世界中的“随机”现象。