期末复习
第二章 数据与数据的获得
- 掌握基本概念
- 总体
- 个体
- 样本
- 特征
- 在研究总体的时候一般研究的是总体当中个体的特征,这些特征附着于具体的个体,描述个体的情况
- 数据
- 数据类型与数据测度
- 数据类型
- 数据类型存在多种分类方式
- 数据属性
- 名义级
- 序次级
- 刻度级
- 从低到高数据应用范围越来越广
- 数据尺度
- 数据类型
- 数据测度
- 客观型变量
- 主观型变量
- 测度项
- 量表设计
- 李克特刻度
- 主观型变量的测度需要对形成的问卷做信效度检验
第三章 数据处理与数据核查
- 编码系统
- 定义:编码系统是一套数据处理模式(规范化)
- 数据架构
- 处理流程
- 编码系统建立
- 数据检核和整备
- 数据检核
- 数据核查的目的:确保数据输入过程的正确性
- 方式
- 定时
- 定点
- 专人
- 过程检核
- 终点检核
- 常规检核
- 数据格式
- 重复数据录入
- 数据取值范围
- 描述统计的方式
- 逻辑检核
- 内容
- 格式错误
- 重复项
- 逻辑错误
- 遗漏值
- 异常值
- 统计值,图表
- 可以通过箱型图/直方图发现数据的分布及其异常值
- 数据整备
- 数据格式
- 重复录入
- 逻辑错误
- 遗漏值
- 异常值
- 偏离值
- 变量中偏离正态,不寻常的数值,即与大部分的数据表现差异较大的值
- 极端值
- 检验连续变量的偏离情况,箱线图是一个好方案
- 箱体长度1.5倍以上就是偏离值
- 如果距箱体3倍以上是极端值
- 如果偏离值是由于人工录入过程中出现的问题,则检核之后修正
- 如果偏离值是由于胡乱作答导致的,则删除并将其转换为遗漏值处理问题
- 描述统计与图示技术
- 描述统计
- 描述统计是一套用以整理,描述,解释数据的系统方法与统计技术
- 连续型变量
- 离散型变量
- 探索性数据分析
- 对已有数据在尽可能少的先验假设下进行探索,通过计算统计量,绘图,制表等方式探索数据的规律
- 分组箱线图
- 分组条图
- 散点图
- 图示技术
- 分布
- 名义/顺序
- 连续
- 直方图
- 先分组,再确定频率,再根据频率画图,可以得到数据的分布,进而发现偏斜等信息
- 箱线图
- P-P/Q-Q
- 对比
第四章 影响因素发现与数值预测
- 估计
- 总体分布与样本分布
- 在相同条件下,对总体做n次独立重复观察/试验,可以得到n个观察值,称这n个观察值为来自总体的简单随机样本
- 性质
- 简单随机样本与总体之间具有相同的分布
- 构成样本的个体各自独立
- 统计量与统计量的分布
- 统计量
- 未含未知参数的样本的参数
- 是基于样本的随机变量,因为在样本出现之前是未知的,样本具有分布
- 两个重要的统计量
- 统计量的分布
- 由于统计量是与样本相关的随机变量,因此统计量的分布也被称为抽样分布
- 统计学的三大分布:三个来源于正态分布的抽样分布
- 参数估计有关问题
- 有时我们知道总体的大致分布但是不知道具体的参数,这个时候需要进行参数估计
- 点估计
- 用样本的某一个函数值来估计总体分布的未知参数,虽然在每一次估计中,其值与真实参数有差异,但是在大量抽样的基础上点估计的期望是无偏的
- 区间估计
- 有时可以通过计算某次估计值与真实值的偏差作为对总体参数的估计
- 依据估计量的分布,在一定概率下,给出真实值可能的范围
- 提供样本点估计与真实值偏差相关的信息
- 假设检验中的基本概念
- 在检验中我们通常设法使弃真(以真为假)的概率足够小
- 犯第一类错误(弃真)的概率足够小时,我们只能拒绝原假设
- 假设检验
- 参数检验
- 正态分布统计量选用
- 前提:X服从正态分布
- 已知方差,估计均值
- 未知方差,估计均值
- 单样本t检验
- 变量的均值是否与指定的值没有显著差异
- 条件
- H0:u=u0
- 独立样本t检验
- 两个类别的分类变量-连续变量
- 两个分布的均值是否有显著差异
- 前提条件
- 两个样本独立
- 两个样本正态分布
- 独立抽样,两组样本量可以不同
- 不同检验
- 未知均值,检验方差是否相等
- 已知方差相等,检验均值是否相等
- 已知方差不等,检验均值是否相等
- 顺序
- 先检验方差是否齐次
- 根据方差是否齐次选择不同的统计量
- 两配对样本t检验
- 配对样本前后是否有显著变化
- 条件
- 转换为单样本t检验,假设为H0:u=0
- 非参数检验
- 未知总体分布的情况下,进行非参数检验
- 卡方适合度检验/卡方拟合优度检验
- 检验分类变量的总体分布是否与某个理论/经验分布一致
- 某分类变量的实际观察频数分布是否与某经验/理论分布相一致
- H0:分布一致
- 统计量
- 卡方独立性检验
- 检验两个分类变量是否相关
- H0:不相关,独立
- 单元格期望频次不能太小,否则会高估统计检验值
- 卡方独立性检验可以检验是否独立,关联度如何测量
- risk assesment风险估计,or几率比接近1表明方案无差异,远离1说明差异大
- 两独立样本非参数检验
- 利用秩/秩和的方式进行检验
- 顺序统计量
- 不关注总体分布,只关于观察值的顺序与性质,顺序统计量基于观察值的次序关系进行分析
- 秩与秩统计量
- 将观察值的大小从小到大排序,编号就是它的秩
- 根据每个观察值的秩,获得相应的秩统计量
- 结和结统计量
- 如果观察值相等,排序会出现并列现象,这种被称为数据的结
- 不知道数据具体分布的时候使用,效力不如参数检验
- 两总体分布未知,检验分布是否具有显著差异
- H0:两总体分布一致
- 基于平均秩进行判断
- U检验
- 1-两样本融合排序
- 2-分别计算秩和
- 构建U统计量
- 标准化或查表得到p值
- 给出最终结果
- 小样本用U统计量检验,大样本将U统计量标准化为Z统计量用正态分布检验
- 类别为2的分类变量与连续变量之间是否有相关
- 多独立样本非参数检验
- 具备多个取值的分类变量与连续变量之间是否存在相关关系
- H0:分类变量与连续变量不相关
- KWh检验
- 只要有一个不同就会检验出不同
- 两配对样本非参数检验
- 前提
- 结需去除
- 检验两配对样本的非参数检验
- sign符号检验/wilcoxon符号秩检验
- sign符号检验
- wilcoxon符号秩检验
- 小样本用W统计量
- 大样本将w统计量标化为Z统计量检验
- 多配对样本的非参数检验
- 检验平均秩是否相同
- H0:无显著差异
- friedman
- 检验评审员意见是否一致
- kendall
- H0:意见不一致,无显著差异
- kendall w在0-1之间,靠近1一致性强
- 评分
- kappa
- yes/no
- kappa可剔除机遇一致性
- -1到1之间,等于0等于机遇一致性,大于0,越靠近1说明一致性越高
- 只要有一个不同就会检验出不同
- 非参数检验优势
- 方差分析
- 前提
- 单因素方差分析
- 参数检验
- 前提
- 变量类型
- 具备多个类别的一个分类变量与连续变量是否存在关系
- 检验在控制变量不同的水平下,均值是否相同
- 将观测变量的离差平方分解为组间离差平方和组内离差平方,F统计量值越大,说明观测值的差异更多是由组间的差异导致的,越小说明是由随机因素导致的
- 流程
- 探索性数据分析
- 条件检验
- 单因素方差分析
- 如果拒绝原假设
- 多重对比分析
- 事后检验两两比较
- 只要由一个不同就会拒绝,所以需要事后检验两两比较确定是哪里不同
- 方差齐次
- 14种指标
- LSD:t统计量,敏感度高
- Tukey:q统计量,适用于各个水平观测数量相同
- Scheffe:S统计量,相比较tukey没有那么敏感
- SNK:适用于组间相似性形成子集,不同水平观测个体数相等
- 方差不齐次
- 多因素方差分析
- 多个变量如何影响连续变量及其交互效应
- 前提
- 假设
- H0:各控制变量不同水平下,均值无显著差异
- 将总体的离差分解为随机误差导致的和控制变量的独立作用/交互作用导致的,构造的是F统计量
- 交互效应,A的效应在B的不同水平下存在显著差异
- 过程
- 固定效应
- 不同水平包含所有可能,不具备随机性
- 先做单纯主效应分析,再检验交互效应
- 随机效应
- 不同水平的具体选取存在随机性,无法涵盖所有的可能性
- 先检验交互效应,再检验单纯主效应
- 具体流程
- 确定控制变量与观测变量
- 探索性数据分析
- 条件检验
- 交互效应检测
- 协方差
- 将影响观测变量的干扰因素作为协变量,再准确分析目标控制变量对观测变量的影响
- 前提
- 协变量为尺度型变量
- 控制变量各组正态分布
- 方差齐次
- X的不同水平下,协变量回归观测变量Y要满足回归分析的同质性要求,即在X不同水平下,各组回归线平行(X与Z不存在交互作用)
- 观测变量Y与协变量Z有显著的线性关系
- 检验
- 回归分析
- 相关分析
- 相关系数评估的是一种线性的关系,通过图形和数值反映相关性的强弱
- 连续-连续
- 正态分布前提下,使用person相关
- 适用于线性相关,非线性相关无法度量
- 是否为线性相关可以观察散点图
- 会被极端值影响,需要去除
- 未知分布,使用spearman相关系数
- 序次-序次
- spearman相关
- kendall
- gamma
- somer‘s d系数
- 有序变量的相关性一般被称为一致性
- 根据一致对的数目进行分析
- 分类-分类
- person卡方统计量
- 列联系数
- phi-cramer's V
- lamda系数
- 不确定系数
- 偏相关
- 在诸多相关关系当中,剔除一个或者多个因素的影响之后,只分析两个目标变量之间的关系
- 做偏相关系数显著异于0的t检验
- 什么时候用相关性分析
- 线性相关
- 变量之间没有主次
- 自变量与因变量关系,相关分析作为基础
- 相关分析注意要做显著性的分析
- 一元线性回归
- 前提
- 模型
- 可以被解释的部分:y=ax+b
- 无法被解释的随机误差部分e
- 过程
- 确定自变量与因变量
- 相关性分析
- 确定模型
- 模型参数估计
- 模型检验
- 模型拟合优度检验
- R^2
- 对于一元回归,R^2就是简单相关系数的平方
- SSA/SST
- 模型整体显著度检验
- 回归系数显著度检验
- 检验每个自变量是否对因变量的变化具备显著影响
- 系数显著异于0的t检验
- 模型应用
- 多元线性回归
- 前提
- X与Y线性
- 正交假定
- 每一个e独立同分布,不存在自相关
- e均值为0
- e正态分布
- 流程
- 模型拟合优度检验
- 模型整体显著度检验
- 回归系数显著度检验
- 采用标准化模型解释每个变量的重要性
- 使用未标准化的模型预测值进行定量分析
- 多重共线性检验
- 影响
- 偏回归系数估计困难
- 偏回归方差随着共线性增大而增大,偏回归系数估计不稳定
- 严重时,模型不符合逻辑
- 现象
- 整体经过检验,回归系数不通过检验
- 理论显著但是数据不显著
- 难以解释
- 指标
- 容忍度
- 方差膨胀因子
- 条件指数
- 最大特征根与当前特征根比值的算数平方根
- 大于30,共线性严重
- 方差比值
- 某特征根对多个变量的方差比均较大,说明这几个变量之间存在相关性
- 特征根对多个自变量有较高比例的解释
- 处理
- 逐步回归
- 向前回归
- 择优进入
- 相关系数最大且通过检验
- 偏相关系数最大且经过检验
- 重复,直到没有可以加入的
- 向后回归
- 末位淘汰
- 同时回归建模
- 显著性不通过的中剔除t最小的
- 重复,直到都通过
- 逐步回归
- 主成分分析
- 岭回归
- 回归诊断
- 自变量全部进入的方法称为同时回归建模法
- 预测模型与解释模型
- 预测模型更倾向预测精度,对多重共线性有一定的容忍程度,可以直接利用逐步回归,奥卡姆剃刀原则
- 解释模型需要了解自变量对因变量的影响力,讨论变量之间的关系,基于回归对因变量进行解释,因此主要是用同时回归,再根据实际情况剔除变量
- 回归诊断
- 残差分析
- A0:X与Y线性相关
- A1:e正交
- A2:e独立同分布
- 独立
- DW检验
- 如果有自相关,会使OLS非最优,t偏大,容易拒绝,使得一些不应该保留的变量保留下来
- 方差相同
- 异方差检验
- 如果方差不同,OLS非最优,t偏大,H0容易被拒绝
- A3:正态分布
- 异常值检测
- 离群点
- 判别
- 标准化残差大于3
- 学生化残差大于3
- 利用残差图但是阈值难以确定
- 对拟合无影响,对解释有影响
- 高杠杆点
- 杠杆值为平均杠杆值的2-3倍
- 库克距离2k/n
- 对拟合与解释都有影响
- 虚拟变量
- 如果想要将分类变量加入多元回归方程中,核心是基于一个类型,构建其他的虚拟变量
- 哑变量等于分类数-1
- 但是需要注意的事,多个虚拟变量难以进行标准模型的解释分析
- 逻辑回归
- 因变量是分类变量时的常用建模方式
- 原始的多元线性回归存在问题
- logit变换
- 结果分析
- 检验
- 拟合优度检验
- R^2
- nege R^2
- hosmer检验
- 预测精度
- 模型显著度检验
- 回归系数显著度
第五章 信息浓缩
- 因子分析
- 变量多问题
- 因子分析概念
- 因子数量少于变量
- 因子之间相互独立
- 因子包含了变量的绝大部分信息
- 因子具有命名解释性
- 因子分析就是研究如何在最少信息损失的前提下,将多个变量浓缩成较少数量的因子,并使因子具有一定的命名可解释性,变量可以转化为因子的线性组合
- 因子载荷与载荷矩阵
- 因子载荷aij为xi与Fj的相关系数
- 共同度为aij^2和表示全体因子对xi的解释度
- 特殊因素的方差:各变量特殊因素的方差1-共同度
- 特征值,因子这一列的平方和
- 方差贡献率=特征值/原始变量个数:指因子对原始变量的共享
- 方差贡献率是衡量因子相对重要性的指标,贡献率越高,因子包含的原始变量越多,越重要
- 步骤
- 前提检验
- 自变量之间存在明显的相关性
- 相关系数矩阵
- 巴特利球度检验
- KMO
- 将相关系数矩阵中所有元素都加入了平方和的计算中
- 越接近1,表明相关性越大
- 因子提取
- 基于主成分模型进行因子提取
- 原始变量标准化处理
- 计算变量的简单相关系数矩阵R
- 求R的特征根及单位特征向量
- 利用特征根和特征向量计算因子载荷矩阵
- 关于选择因子的个数
- 特征值大于1的加入
- 碎石图
- 根据因子累积方差贡献率
- 累积方差贡献率大于0.85
- 因子旋转
- 因子旋转之后可以帮助因子获得更多的可解释性
- 通过正交/斜交旋转使得提取的因子具有可解释性
- 使变量在较少的因子上有较高的载荷
- 不改变变量的共同度
- 因子得分
- 基于载荷矩阵数据在因子层面上的得分,进一步利用因子进行回归分析等
- 应用
- 聚类
- k-means自然聚类
- 步骤
- 选定k的个数
- 系统(或用户)指定初始种子
- 根据最近的方法聚成k类
- 将每个类别求均值获得新的初始点
- 重复步骤直到达到结束标准
- 不稳定算法,与k的选取和初始种子有关
- 可以在不同的主成分维度上查看聚类的结构
- 聚类分析
- 物以类聚
- 聚类的类并不是给定的,基于距离和相似度划分
- 聚类的数目和结构没有事先假定
- 层次聚类