回归分析的基石与评价指标
回归分析为众多机器学习算法提供了坚实的数学基础。在此,我们将深入探讨10个核心的回归问题及5个常用的回归问题评价指标。
一、线性回归的四大假设
1. 线:自变量(x)和因变量(y)之间应存在线,意味着x值的变化会在相同方向上影响y值的变化。
2. 独立性:特征之间应相互独立,即特征间最小化多重共线性。
3. 正态性:残差应遵循正态分布。
4. 同方差性:对于所有值,回归线周围的数据点应有恒定的方差。
二、残差与残差图
残差:指预测值与实际观测值之间的误差,通过从观察值中减去预测值来计算。它衡量了数据点与回归线的距离。
残差图:评估回归模型的好方法,图中垂直轴显示所有残差,而x轴显示特征。若数据点随机散布在无模式的线上,则线性回归模型适合数据。
三、非线性回归与识别
非线性回归:当变量之间不存在线时,假设为非线。非线性线(如曲线)应能够正确分离和拟合数据。
找出数据是否为线性或非线性的方法包括:残差图、散点图、尝试线性模型并通过准确率进行评估。
四、多重共线性
当某些特征彼此高度相关时,会发生多重共线性。相关性表示一个变量如何受另一个变量变化影响的度量。为避免模型性能下降,训练前应尽量消除多重共线性。
五、异常值与模型拟合
线性回归模型试图找到一条减少残差的最佳拟合线。若数据包含异常值,则最佳拟合线会略向异常值偏移,增加错误率并得到高MSE的模型。
六、回归模型的性能度量
1. 均方误差(MSE):实际值与预测值之间平方差的和除以观测次数。MSE惩罚大错误,并作为回归模型性能的指标。
2. 平均绝对误差(MAE):实际值与预测值之间差的绝对值的平均。MAE简单易懂,并受异常值影响较小。
3. 均方根误差(RMSE):MSE的平方根,使单位与输出单位相同,但对异常值仍不稳定。
4. R²分数:一个介于0到1的值,解释了输出方差中被模型解释的部分。例如,R²为0.8表示模型能解释80%的工资变化。
七、其他评价指标及注意事项
方差膨胀因子(VIF):用于检测自变量间预测自变量的程度。若VIF值小,则最好从数据中删除该变量。
逐步回归:一种通过添加或移除预测变量来创建回归模型的方法,旨在找到最佳参数组合以最小化观测值与预测值之间的误差。
注意:R²和MAE、MSE等指标的选择应根据具体问题和上下文进行,不能仅凭数值判断模型优劣。
八、结尾分享
最后与大家分享一份数据分析图谱,其中囊括了数据分析的常见模型、理论分支、详细知识要点及实际分析场景案例。这份地图是数据人的必备工具,帮助我们快速查阅知识点和解决实际问题。