第一章 统计学习及监督学习概论
一、统计学习
1.统计学习特点
基础概念:统计学是关于计算机基于数据构建概率统计模型,并且利用这个模型对数据进行预测与分析的一门学科。
特点:基于计算机,数据驱动,目的是对数据进行预测与分析,注重方法,交叉学科
2.统计学习的对象
统计学习关于数据的基本假设是同类数据具有一定的统计规律性
发现数据的分布规律
提取特征
抽象出数据的模型
发现数据中的知识
回到对数据的分析与预测中
数据类型多样
3.统计学习的目的
统计学习的目的是对数据进行预测和分析
统计学习是通过构建概率统计模型从而对数据进行预测与分析,可以分为,监督学习,无监督学习,强化学习等。
4.统计学习的方法
统计学习是利用给定的有限的用于学习的训练输出,假设数据是独立同分布的,在某个假设空间当中(假设空间中包含所有可能的模型集合),利用某种选择的策略,利用算法选择出最优的模型。
可以由三个部分组成:假设空间(模型),模型选择的准则(策略),模型学习的算法(算法)
步骤:
(1)得到训练集(独立同分布)
(2)确定假设空间
(3)确定选择准则(策略)
(4)撰写模型学习的算法(算法)
(5)通过学习选择最优模型
(6)利用学习到的模型对新数据进行预测或者分析
5.统计学习的研究
方法的研究,理论的研究和应用的研究
6.重要性
1-对计算机的发展重要
2-海量数据
3-信息科学的重要组成部分
二、机器学习分类
1.基本分类
监督学习(数据有标签)
1-输入空间,特征空间和输出空间
输入和输出的所有可能取值的集合分别称为输入空间与输出空间
每个具体的输入是一个实例,通常由特征向量表示,所有特征向量所存在的空间称为特征空间,特征空间的每个维度代表一个特征(有时对输入空间与特征空间不做区分,有时需要将输入空间映射到特征空间)
2-联合概率分布
监督学习的输入X与输出Y遵循联合概率分布
3-假设空间
所有可能模型的集合称为假设空间(模型可以为概率模型也可以为非概率模型-确定模型)
4-问题形式化
无监督学习(数据无标签)
从无标注数据中学习预测模型的机器学习问题
模型的输入与输出所有可能的取值分别被称为输入空间与输出空间,输入是X输入空间,Z是隐式结构空间
强化学习(状态,动作,转移概率,奖励函数,衰减函数)
无模型的方法:基于策略,基于价值
基于策略——直接学习策略函数
基于价值——直接学习价值函数,进而基于价值函数选择策略
有模型的方法——直接学习马尔科夫决策过程
more(半监督学习(少部分数据),主动学习(模型找到对训练最有帮助的数据要求标注))
2.按模型分类
概率模型与非概率模型
线性模型与非线性模型
参数化模型和非参数化模型
统计学习又可称为参数化模型和非参数化模型,参数化模型假设模型参数的维度固定,而非参数化的模型的参数维度不固定或者在训练过程中可能会不断增大
3.按算法分类
在线学习(一次进入一条数据,基于策略更新参数)
批量学习(一次性将所有的数据输入,学习模型后再测试)
4.按技巧分类
贝叶斯学习
贝叶斯与极大似然估计的差别
核方法
三、统计学习方法三要素
模型(假设空间)
——概率模型与非概率模型
策略
——损失函数与风险函数
损失函数是预测值与真实值之间的损失函数
风险函数/期望损失是基于联合分布的平均意义的损失,但是很难求解
——根据大数定理,样本趋于无穷时,可以用经验风险估计期望风险
经验风险最小化和结构风险最小化
结构风险最小化是为了防止过拟合提出的,加入了一个代表模型参数的正则化项
算法
解析解和数值解
四、模型评估与选择
训练误差与测试误差
过拟合和模型选择
当模型的复杂度太大时,模型将训练数据中的非共同特征学到,导致泛化能力差,过拟合
五、正则化与交叉验证
可以通过正则化的方式减少过拟合的现象
交叉验证——简单交叉验证(7:1:2),S折交叉验证(分成S个子集,其中S-1个训练集,1个验证集,可以得到S个训练数据,训练后找到平均效果最优的模型),留一交叉验证(S=N)
六、泛化能力
模型在新样本上的能力
但是用测试误差去估计泛化误差可能存在问题,泛化误差就是所学习模型的期望风险。
泛化误差上界
样本容量的函数,样本容量越大,越小
假设空间容量的函数,假设空间容量越大,越大
七、生成模型与判别模型
生成方法学习联合概率分布再求出条件概率分布
判别模型直接学习条件概率分布或者决策函数
八、监督学习的应用
分类
精度
准确率
召回率
F1
标注
回归