皮尔森系数多少为显著相关

2025-04-1701:15:21常识分享0

介绍两种最常用的相关系数:皮尔逊相关系数和斯皮尔曼等级相关系数。它们用于衡量两个变量之间的相关性大小。在实际建模过程中,根据不同的数据特性,我们要选择合适的相关系数进行计算和分析。

总体是指所考察对象的全部个体。例如,我国10年一次的人口普查数据就是总体数据。我们通过计算总体的一些统计特征(如均值、方差等)来了解总体的特性。

样本是从总体中抽取的一部分个体,是总体的一个子集。我们通过计算样本的统计量来估计总体的统计量。例如,使用样本均值和样本标准差来估计总体的均值和标准差。

回顾概率论与数理统计中的数理统计部分,如果两组数据是总体数据(如普查结果),我们可以计算总体均值和总体协方差。

直观理解协方差:如果X和Y的变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值。在这两种情况下,乘积为正。如果X和Y的变化方向一直保持相同,则协方差为正;同理,如果X和Y的变化方向一直相反,则协方差为负。

假设我们已经得到了两组数据(例如普查结果),我们可以计算总体皮尔逊相关系数。它是在总体协方差的基础上消去量纲的影响得到的。我们知道标准化数据是用来消除量纲影响的,因此皮尔逊相关系数可以看作是剔除两个变量量纲影响后的协方差。

我们知道,在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数很大,也不能说明两者相关。一定要画出散点图来看才行。这是因为非线性相关也会导致线性相关系数很大,离群点对相关系数的影响很大。如果两个变量的相关系数很大,也可能受到异常值的影响。

事实上,比起相关系数的大小,我们更关注的是显著性(假设检验)。在计算系数之前,我们需要做一些描述性统计。我们可以借助假设检验来对相关系数进行显著性检验。假设检验的步骤包括:提出原假设和备择假设,构造统计量,将检验值带入统计量中得到特定的值,根据置信水平查表找到临界值,并画出检验统计量的接受域和拒绝域。常见的置信水平有90%,95%和99%,其中95%是最常用的。