统计学习方法
统计学习三要素
模型
模型就是所要学习的条件概率分布或决策函数。 或 模型的假设空间包括所有可能的条件概率分布或决策函数。 或。 其中的取值空间称为参数空间。
策略
策略也即学习的准则。一般来说监督学习的策略即指经验风险或结构风险函数最优化。
经验风险
损失函数
0-1损失函数
平方损失函数
绝对损失函数
对数损失函数
风险函数
风险函数(risk function)又叫期望损失(expected loss),是理论模型关于联合分布的平均意义下的损失。
经验风险
风险函数和联合分布,用作为模型的后者求作为策略的前者,显然是病态的。故取训练数据集上的平均损失称为经验风险(empirical risk)。
当训练样本数量趋于无穷时,趋于。
结构风险
结构风险(structural risk)在经验风险的基础上添加正则化项(regularization,也叫罚项(penalty term))。
-------------
经验风险最小化
在找到一个使得最小。
p.s. 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
结构风险最小化
为防止经验风险最小化有可能带来的过拟合,添加代表模型复杂度的罚项。
算法
最优化算法
模型评估与模型选择
误差
训练误差
训练误差(training error)是学习到的模型关于训练数据集的平均损失。
测试误差
测试误差(test error)是学习到的模型关于测试数据集的平均损失。
当损失函数是0-1损失时,测试误差即为测试数据集上的误差率。
正则化
正则化方法就是在经验风险函数上添加正则化项。正则化项(regularizer)一般是模型复杂度的单调递增函数。如可以是模型参数向量的范数。
* 奥卡姆剃刀(Occam's razor)原理:在所有可能选择的模型中,能够很好解释已知数据并且十分简单才是最好的模型。
交叉验证
将数据集随机分为训练集、验证集(validation set)和测试集,分别用于模型的训练、选择和评估。
1. 简单交叉验证
分两部分:训练集和测试集
2. 折交叉验证
等分部分:份做训练集,1份做测试集。重复进行。
3. 留一交叉验证
折交叉验证的特例。
泛化能力
泛化误差
泛化误差(generalization error)学到的模型对未知数据预测的误差。
泛化误差就是学习到的模型的期望风险。
泛化误差上界
样本容量增加,泛化误差上界趋近于0
假设空间容量增加,泛化误差上界增大
监督学习分类
按学习方法分类
生成方法->生成模型
由数据学习联合概率分布后,求出概率分布。
包括:朴素贝叶斯法、隐马尔科夫模型
判别方法->判别模型
由数据直接学习决策函数或者条件概率分布。
包括:k近邻法、感知机、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法、条件随机场。
区别:
生成方法:
可还原出学习收敛速度快,当N增大时,更快收敛于真实模型
当存在隐变量时,仍可以使用
判别方法
直接学习或,往往学习的准确率更高
可对数据进行抽象、特征定义以简化学习问题
按
分类问题
评价指标
精确率(precision)
召回率(recall)
标注问题
回归问题
【统计学习方法】相关文章:
初中数学统计学习方法10-06
探讨统计学的学习方法10-08
学习方法10-26
经典的学习方法10-26
高一学习方法指导与学习方法12-07
统计局统计述职报告06-25
统计局统计述职报告10-26
《统计》教案10-08
学习方法作文02-06
学习方法的作文06-01