简单随机抽样
(1) 定义:在总体中,如果每个个体都有相同的机会被选中,而从中随机选取一定数量的个体作为样本,这种抽样方式被称为简单随机抽样。所得到的样本被称作简单随机样本。
(2) 常见方法:常见的实现方法有抽签法、随机数法等。
分层抽样
(1) 定义:在分层抽样中,首先将总体划分为若干个层次。然后,按照特定的标准从每一层中独立地抽取样本,并将各层抽取的样本合并,形成最终的样本集。此方法通常用于总体结构具有明显分层特征的情况。
(2) 应用场景:当总体内部具有较为明显的不同或层次时,通常选择分层抽样。
频率分布直方图
(1) 纵轴表示频率或组距的大小,亦即矩形的高度等于该组的频率。
(2) 面积:每个小矩形的面积等于组距与频率的乘积,即面积=组距×频率,表示该组的频率。
(3) 所有小矩形的面积之和等于总体的总频率。
频率分布表的绘制步骤
第一步:首先计算极差,然后确定组数和组距,组距的计算方式为:组数(极差)。
第二步:分组时,通常采用左闭右开的区间,最后一组为闭区间。
第三步:统计各组的频数,计算频率,并形成频率分布表。
条形图、折线图与扇形图
(1) 条形图:通过在直角坐标系中,使用横轴表示不同数据类别,纵轴表示数量,绘制出等宽的矩形条,条形的高度表示每个类别的频数或频率。多个条形按一定顺序排列,形成条形图,用于数据分析和展示。
(2) 折线图:建立直角坐标系,横轴表示样本值,纵轴表示相应的数量,通过连接各数据点,形成折线,用以反映数据的变化趋势。
(3) 扇形图:使用圆形表示总体,通过不同的扇形区块表示总体的各个部分,用于展示各部分的比例。
中位数、众数、平均数
(1) 中位数:将一组数据按大小排列,位于数据中心位置的值(若个数为偶数,则取中间两个数的平均值)称为中位数。
(2) 众数:在一组数据中,出现频次最多的值即为众数。
(3) 平均数:一组数据的算术平均值,即将所有数据加总后除以数据的个数。
样本的数字特征
频率分布直方图的常见结论: (1) 众数的估计值可通过直方图中最高矩形的中点的横坐标来近似确定。 (2) 平均数的估计值是各个小矩形的面积与底边中点的横坐标之积的和。 (3) 中位数的估计值是使得左侧和右侧矩形的面积之和相等的横坐标。
平均数与方差公式的推广: (1) 如果一组数据的平均数为X,则对于加上常数后的数据,新的平均数为X+常数。 (2) 如果一组数据的方差为S²,则对于加上常数后的数据,新的方差仍为S²。
抽样的应用及注意事项
(1) 在简单随机抽样中,如果采用抽签法,关键问题是抽签是否容易操作以及签的顺利混合。当总体和样本较小,使用抽签法比较合适。
(2) 使用随机数法时,若遇到三位或四位数,可以从随机数表中选择相应的数字,依次构成样本单位。对于超出总体范围或重复的号码需要舍弃。
分层抽样中的问题与解题思路
(1) 确定某层样本个体数量:根据该层在总体中的比例来计算。
(2) 已知某层样本数,求总体容量或反之:利用分层抽样的比例关系进行计算,列出比例方程。
(3) 分层抽样计算:通过抽样比例来构造方程并求解。公式为:抽样比例=总体容量/样本容量=各层样本数/各层个体数。
变量间的相关关系
(1) 变量之间的关系通常分为函数关系和相关关系。与函数关系不同,相关关系并不要求两者之间有明确的数学函数形式。
(2) 从散点图中观察,如果点大致分布在左下角到右上角的区域内,则表明两变量呈正相关。如果点分布在左上角到右下角,则表明两变量呈负相关。
两个变量的线性相关
(1) 如果散点图中的点大致沿某条直线分布,说明两个变量之间存在线性相关关系。该直线被称为回归直线。
(2) 回归方程为:ŷ = b + ax,其中b为截距,a为斜率。
(3) 通过最小二乘法,可以通过求解使得样本点到回归直线的平方距离和最小化的方式,确定回归直线。
(4) 相关系数:如果相关系数大于0,说明两个变量正相关;如果小于0,则说明负相关。相关系数的绝对值越接近1,说明两变量的线越强,越接近0,则表明线性相关性很弱。
独立性检验
(1) 2×2列联表:假设有两个变量,其取值分别为{1, 2}和{1, 2},则构成一个2×2的列联表。
(2) 独立性检验:独立性检验用于检验两个变量是否存在统计显著的关系,判断的是它们之间是否相关,而非它们是否无关。
回归分析与相关性分析
(1) 求解回归方程时,需要准确确定回归系数(a和b),并利用回归直线通过样本的中心点来确保回归方程的合理性。
(2) 通过计算卡方值,可以判断分类变量之间的关系是否显著,卡方值越大,说明两者之间的关系越强。
(3) 根据回归方程计算的ŷ值为预测值,并不代表真实的观察值。
相关性判断方法:
(1) 散点图法:通过观察散点图中的点是否围绕某一函数曲线或直线分布,来判断是否存在相关关系。
(2) 相关系数法:计算相关系数,绝对值越接近1,表明变量之间的线性相关性越强。