世间万物之间存在着千丝万缕的关系,这种关系在数据分析的领域中,可以被划分为确定和非确定。
非确定指的是两个变量在宏观层面上存在某种联系,但这种联系并不能被具体表达为函数关系。这种既是必然又是未知的关系被称为相关关系。相关关系可以进一步细分为平行关系和依存关系。
当两个连续的随机变量之间展现出线性联系时,这种联系被称作线性相关,也常被简单地称为简单相关。这种联系的强度则通过相关系数来描述。其中,Pearson相关性分析是分析两变量间线性相关的常用方法。
1. Pearson相关性分析的前提条件如下:
(1)两变量均为连续型变量。
(3)两变量之间应表现出线。
(4)两变量不应存在明显的异常值。
(5)两变量的分布应接近双变量正态分布或可被视为近似正态分布。
2. 关于Pearson积矩相关系数
Pearson相关系数,也被称为积差相关系数。它定义为两个变量之间的协方差与两变量标准差的乘积之商,这也可以被理解为归一化的协方差。
总体相关系数用ρ表示,而样本的相关系数则用r表示。
从总体和样本相关系数的计算公式中可以看出:
(1)分母为两变量标准差的乘积,其值始终为正。
(2)分子则为两变量的协方差,代表了两变量的观测值对均值的偏离构成的向量的内积。
对于两变量的离均差,若同为正数或同为负数,表明两变量有同时增加或减少的趋势,乘积为正,即两变量正相关;若一正一负,则表明一个增加而另一个减少,乘积为负,即两变量负相关。
特别地,若两变量的部分取值呈现相反方向的变化,其离均差乘积有正有负,总和接近于0,此时两变量表现为无序变化,即两者之间无明显的线。
根据柯西-施瓦尔兹不等式(Cauchy–Schwarz inequality),相关系数的取值范围为-1至1之间。值越接近-1或1,表明两变量间的线性相关程度越强;而越接近于0,则表明两变量的线性相关程度越弱。
由于Pearson相关系数的分子协方差除以了分母的相同量纲,因此它没有单位。它还具有对称性、位移不变性和尺度不变性。
3. Pearson相关系数的假设检验
当我们分析的数据是来自总体的样本时,所得到的r只是ρ的一个估计值,存在一定的抽样误差。需要进行总体相关系数ρ是否为0的假设检验。
H0:ρ=0;H1:ρ≠0;α=0.05
来自总体均值为0的所有样本的相关系数呈现对称分布。可以通过双侧t检验来进行r的显著性检验。
通过直接查阅t分布表即可获得P值。
值得注意的是,相关系数的显著性与样本量密切相关。样本量小的时候,r的绝对值容易接近于1;而样本量大的时候,r的绝对值容易偏小。这可能给人一种误导性的感觉。在分析时需谨慎解读结果。
4. Pearson相关系数的区间估计
在实际的分析中,我们常需要知道总体相关系数在一个特定概率下的范围,即ρ的置信区间。
由于ρ的值范围在-1至1之间且不服从正态分布,因此在估计置信区间前需要进行转换处理。