机器学习简介1:基本概念
input space、feature space 、output space(通常远小于feat space)
hypothesis space。
机器学习方法三要素:模型、策略、算法
模型:【确定数据的范围】输入空间到输出空间的映射关系。模型学习的过程就是从假设空间中搜索符合训练数据的假设。
策略:【确定学习规则】从假设空间的众多假设中,选择到最优模型的学习标准或规则。
- 损失函数:0-1、平方、绝对、对数损失函数
- 风险函数:经验风险,期望风险,结构风险。
- 基本策略:经验风险最小,结构风险最小。
算法:【按规则在范围内学习】学习模型的求解方法通常是最优化问题。
损失函数适用场景:
- 0-1: 理想状况模型
- log: 逻辑回归、交叉熵
+:Squared:线性回归
+:Exponential:AdaBoosting
+:Hinge:SVM、soft margin
在样本数据过少时,仅关注经验风险,很容易导致过拟合。
结构风险(structural risk):在经验风险的基础上增加一个正则化项(regularizer)或惩罚项(penalty term)
L范数
L0:非0元素的个数,期望大部分参数为0
L1(Lasso):会让参数稀疏
L2(Ridge):各元素的平方和求平方根,会让每个参数很小,接近0