Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]


研究内容:弱监督时域动作定位

结果:Thumos14 mAP0.5 = 27.0

         ActivityNet1.3 mAP0.5 = 34.5

         从结果可以看出弱监督这种瞎猜的方式可以PK掉早些时候的一些全监督方法

Code: GitHub P.S.我在机器上复现始终差一点点

Motivation: 发现之前的工作没有考虑到背景类别,会将背景帧误分为动作类别,造成大量FP。本文提出了背景抑制网络BaSNet,引入了额外的背景类,两支镜像网络(一支为base网络,一支为用attention抑制背景的suppression网络),实验表明这样设计可以有效抑制背景的影响,从而提高定位的准确性。

Idea来源: attention模块参考自STPN[2] (CVPR2018) 将fc换成时域卷积,并且与STPN的attention输入为单个clip特征不同本文的attention的输入为视频特征,STPN的作者今年有一篇ICCV2019的工作[3]也是围绕背景建模,在STPN的基础上引入了(1-λ)作为背景类的权重,细节暂且不表

关于背景建模出现在弱监督时域动作定位领域最早的一篇是"Completeness modeling and context separation for weakly supervised temporal action localization"(CVPR2019)[6]

这篇文章的主要卖点不是背景这里,但背景类的引入启发了后续的3个工作,本文和上面提到的STPN的强化版,还有特别优秀的LPAT[4](Shou Zheng团队的工作)

方法

过去的工作类似base branch没有背景类。作者想引入背景类,如果单纯的直接引入背景类,数据集的设定使得无法找到完全没有背景的负样本用于训练,即每个视频groundtruth背景类别均为1(全是正样本),最后会导致背景类的异常高响应,定位结果很差。

为了构造背景类的负样本,在另一支网络中引入attention模块(filtering module)抑制背景的响应。整个网络结构使用共享权重的conv模块分别处理两个分支,这两个分支唯一的不同点就是输入(supp分支的输入经过attention处理)和background label(base的背景类为1,supp的背景类为0) 这两点不同。这样做的目标是更好的训练filtering module使其学到前景信息,从而有效过滤并抑制背景的响应。

MIL分类的 top-k mean 想法源自WTALC[5]的方法

最后的location模块在测试阶段选取supp分支的输出,后续操作仍然采用多阈值分割后NMS的方式,proposal的confidence score本文借用CMCS[6]的方法:计算proposal区域和边界区域的均值得分之差

效果图: 

参考文献

[1] Background Suppression Network for Weakly-supervised Temporal Action Localization (AAAI2020)

[2] (STPN) Weakly Supervised Action Localization by Sparse Temporal Pooling Network (CVPR 2018)

[3] Weakly-supervised Action Localization with Background Modeling (ICCV 2019)

[4] LPAT: Learning to Predict Adaptive Threshold for Weakly-supervised Temporal Action Localization (arxiv 2019)

[5] W-TALC: Weakly-supervised Temporal Activity Localization and Classification (ECCV 2018)

[6] (CMCS) Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization (CVPR 2019)

相关