计算机视觉的半监督模型:Noisy student, π-Model和Temporal Ensembling
今天我将讨论一些在过去十年中出现的主要的半监督学习模型。首先让我们谈谈什么是半监督学习以及我们为什么对它感兴趣!
假设我们有一个大的标记图像数据集。我们想使用这些数据来构建一个模型,进行图像分类的任务,解决这个问题的标准方法是构建卷积神经网络 (CNN)。CNN 已被证明在使用大型数据集进行训练时可以提供最先进的结果。
下面就是一个非常重要的问题,如果我们没有大型标记数据集怎么办?例如我们工作中的分类与现在的预训练的数据集例如imagenet没有交集,或者说我们处理的具体的领域没有大量公共标记数据。这样,我们标记数据通常就需是手工完成的——但这个过程很昂贵,而且也很耗时。
这就是半监督的优势,我们正在构建一个生成标签作为输出的模型,但是如果我们不需要人工手动标记所有数据,而是只需要标记其中的一小部分,然后将其留给模型来确定其余的标签应该是什么,这样可以吗?事实证明,这个想法非常有效,并且多年来已经开发了许多类似的方案。我们今天要讨论的方案是Noisy student, π-Model,和Temporal Ensembling
Noisy Student Model
Noisy Student是2019 年由 Xie 等人提出的 。该模型的工作原理如下:
首先,在手动标记的图像子集上训练“教师”模型。论文中描述的教师模型使用了 EfficientNet 架构。教师模型经过最小化交叉熵损失进行训练,并用于为每个未标记的图像推断“伪标签”。这些伪标签可以是软标签或硬标签的形式保存。(软标签表示为连续分布,而硬标签是独热编码)。
接下来,使用手动标记和伪标记数据训练“学生”模型。通过数据增强(特别是 RandAugment)用于向输入添加噪声;dropout 和stochastic depth用于向模。
完整文章:
https://www.overfit.cn/post/c292cf69a9194b859c0d0b51be96ce88