贝叶斯误差
Wiki定义:贝叶斯误差(bayes error rate)是指在现有特征集上,任意可以基于特征输入进行随机输出的分类器所能达到最小误差。也可以叫做最小误差。
先直接回答题主的疑问:“书上说是从预先知道的分布预测而出现的c误差,既然已经预先知道分布了,那么为什么还有误差呢?”
回答:分布是真实的,但预测的输出只能是一个值,所以会有误差。例如,假设真实世界中90%长头发的人为女性,10%为男性(这是已知的真实分布);此时已知一个人头发长,预测该同学性别。由于只能预测男/女。此时即使你知道真实分布,预测为女,也会有10%的误差。这就是贝叶斯误差。
===========================
下面详细说一下我的理解,贝叶斯误差的定义有两个关键点:
1)给定特征集后的最小误差:即可以认为我们的训练集无限大且已经按真实分布穷举了所有可能的特征组合后,任何分类器所能达到的误差下限。产生贝叶斯误差的本质原因是特征集不足以推理出准确预测值,否则贝叶斯误差为0.
作者:苏冉旭
链接:https://www.zhihu.com/question/263546637/answer/504918763
来源:知乎
![]()
比方说做一个2分类的任务,样本特征是1维的,分布如上图,你已经知道了分布,但是由于这两类不是完全可以分得开的,因此无论用哪个分类面,都会有错。那么这个最小的错误率(c在分布相交的地方)就是Bayes Error Rate。