Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]

研究内容：弱监督时域动作定位

结果：Thumos14 mAP0.5 = 27.0

ActivityNet1.3 mAP0.5 = 34.5

从结果可以看出弱监督这种瞎猜的方式可以PK掉早些时候的一些全监督方法

Code: GitHub P.S.我在机器上复现始终差一点点

Motivation: 发现之前的工作没有考虑到背景类别，会将背景帧误分为动作类别，造成大量FP。本文提出了背景抑制网络BaSNet，引入了额外的背景类，两支镜像网络(一支为base网络，一支为用attention抑制背景的suppression网络)，实验表明这样设计可以有效抑制背景的影响，从而提高定位的准确性。

Idea来源: attention模块参考自STPN[2] (CVPR2018) 将fc换成时域卷积，并且与STPN的attention输入为单个clip特征不同本文的attention的输入为视频特征，STPN的作者今年有一篇ICCV2019的工作[3]也是围绕背景建模，在STPN的基础上引入了(1-λ)作为背景类的权重，细节暂且不表

关于背景建模出现在弱监督时域动作定位领域最早的一篇是"Completeness modeling and context separation for weakly supervised temporal action localization"(CVPR2019)[6]

这篇文章的主要卖点不是背景这里，但背景类的引入启发了后续的3个工作，本文和上面提到的STPN的强化版，还有特别优秀的LPAT[4](Shou Zheng团队的工作)

方法:

过去的工作类似base branch没有背景类。作者想引入背景类，如果单纯的直接引入背景类，数据集的设定使得无法找到完全没有背景的负样本用于训练，即每个视频groundtruth背景类别均为1(全是正样本)，最后会导致背景类的异常高响应，定位结果很差。

为了构造背景类的负样本，在另一支网络中引入attention模块(filtering module)抑制背景的响应。整个网络结构使用共享权重的conv模块分别处理两个分支，这两个分支唯一的不同点就是输入(supp分支的输入经过attention处理)和background label(base的背景类为1，supp的背景类为0) 这两点不同。这样做的目标是更好的训练filtering module使其学到前景信息，从而有效过滤并抑制背景的响应。

MIL分类的 top-k mean 想法源自WTALC[5]的方法

最后的location模块在测试阶段选取supp分支的输出，后续操作仍然采用多阈值分割后NMS的方式，proposal的confidence score本文借用CMCS[6]的方法：计算proposal区域和边界区域的均值得分之差

效果图：

参考文献

[1] Background Suppression Network for Weakly-supervised Temporal Action Localization (AAAI2020)

[2] (STPN) Weakly Supervised Action Localization by Sparse Temporal Pooling Network (CVPR 2018)

[3] Weakly-supervised Action Localization with Background Modeling (ICCV 2019)

[4] LPAT: Learning to Predict Adaptive Threshold for Weakly-supervised Temporal Action Localization (arxiv 2019)

[5] W-TALC: Weakly-supervised Temporal Activity Localization and Classification (ECCV 2018)

[6] (CMCS) Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization (CVPR 2019)

videodetection

Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]

相关

标签