DDD20 End-to-End Event Camera Driving Dataset: Fusing Frames and Events with Deep Learning for Impro
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Accepted in The 23rd IEEE International Conference on Intelligent Transportation Systems (Special Session: Beyond Traditional Sensing for Intelligent Transportation)
Abstract
神经形态事件相机对于困难照明条件下的动态视觉问题很有用。为了研究在汽车驾驶应用中使用事件摄像头,本文报告了一个名为DDD20的新端到端驾驶数据集。该数据集是使用DAVIS相机捕获的,该相机同时流式传输动态视觉传感器(DVS)亮度变化事件和有源像素传感器(APS)强度帧。DDD20是迄今为止最长的事件摄像头端到端驾驶数据集,包含51小时的DAVIS事件+帧摄像头和在各种光照条件下从4000公里的高速公路和城市驾驶中收集的车辆人为控制数据。使用DDD20,我们报告了使用深度学习方法融合亮度变化事件和强度帧数据来预测瞬时人类方向盘角度的第一项研究。在所有白天和黑夜条件下,融合DVS+APS帧(0.88)对Resnet-32人类转向预测的解释方差明显优于单独使用DVS (0.67)或APS (0.77)数据。
I. INTRODUCTION
现代深度学习方法推动了自动驾驶[1][2][3][4][5]的最新进展,其中驾驶控制器通常在广泛的真实世界记录和模拟环境数据集上进行训练[6][7][8][9][10]。这些数据集的可用性以及深度学习的进步使得计算机视觉技术得到了改进,这些技术对于自动驾驶的成功至关重要,例如语义分割[11]、目标检测、跟踪[12]和运动估计[13]。
自动驾驶汽车必须在广泛的照明条件下运行,因此使用的视觉传感器必须提供高动态范围和高灵敏度,从而缩短曝光时间以最大限度地减少运动模糊。动态视觉传感器(DVS)[14]等事件相机可以在传统相机难以处理的条件下提供优势。与常规采样、基于帧的相机相比,事件相机产生一个异步时间戳地址事件流,这些事件由单个像素的局部亮度(对数强度)变化触发。图1(a)显示了DVS像素响应的原理。DVS以相同的方式响应与绝对强度无关的相等对比度变化(通常由场景反射率变化引起)。本地瞬时增益控制可实现比传统相机更宽的动态范围(120dB vs. 60dB),以处理不受控制的照明条件。这些事件以亚毫秒级延迟在片外传输。每个事件都包括像素坐标、亮度变化的符号和微秒时间戳。DVS事件的异步特性降低了系统的延迟和带宽要求,使机器人能够在低平均CPU负载下实现毫秒级响应时间。汽车摄像头需要特殊的像素架构,以最大限度地减少脉宽调制LED光源(如汽车尾灯和交通标志光源)的帧间混叠。DVS事件的高时间分辨率能够实现基于CNN [15]和基于亚毫秒硬件[16]的准确光流估计以及闪烁光源检测和跟踪[17]。
图1(b)显示了下一代事件相机的输出,称为动态和主动像素视觉传感器(DAVIS)[18]。DAVIS同时输出DVS事件(图1(b)中的点螺旋云)和标准全局快门有源像素传感器(APS)强度帧(图1(b)中的背景图像)。共享同一光电二极管的DVS和APS像素电路。来自APS流的采样模拟灰度值与来自DVS的异步、高动态范围亮度变化事件的组合可以使DAVIS非常适合驱动应用:当APS流曝光过度或曝光不足时,或者特征模糊或混叠,DVS事件可以提供缺失的信息。
A. Related work
[19]表明融合的DAVIS帧+事件数据可以驱动CNN引导捕食机器人跟随猎物机器人。它激发了我们研究DAVIS相机可以为自动驾驶带来的好处。为了避免像[19]中那样昂贵的数据标记,我们遵循了可追溯到ALVINN [20][21]以及最近的comma.ai和NVIDIA [1][9]的开创性端到端(E2E)研究,其中网络根据道路的外观直接预测人类的瞬时方向盘角度。
我们的第一个数据集称为DDD17,包含12小时的E2E标记驾驶数据[22][23]使用该数据集将人类转向与使用APS帧、APS帧差异和DVS帧的预测进行比较。他们表明,DVS帧比APS帧提供了更好的转向预测(与我们在第III-B节中的发现相反),并且比APS帧差异更好的预测,但是,他们没有评估融合DVS和APS数据的好处。[23]还发现ResNet CNN架构非常适合转向预测问题,并且50毫秒的DVS"帧"持续时间产生了最佳预测。
DDD17在道路类型、天气和日光条件方面受到限制。从那时起,MVSEC [24]、DET [25]、Event Camera Driving Sequences [26]和GET1 [27]数据集相继发布。这些数据集包含具有各种标签类型的有用驾驶数据,但没有一个是带有人类驾驶标签的E2E。
B. DDD20
为了进行更广泛的E2E研究,我们用额外的39小时数据扩展了12小时DDD17,从而提供了新的DDD20数据集。它总共有1.3 TB的数据,从346×260像素的DAVIS346摄像头收集了51小时的记录,以及方向盘角度等汽车参数。DDD20记录了在恶劣的阳光强光条件下的乡村公路驾驶、洛杉矶和圣地亚哥市区的白天和夜间驾驶,以及在daylight、evening和night时山区公路同一路段的多次重复驾驶(沿着Colorado Lizard Head Pass高速公路和California Angel Crest高速公路)。第二部分包含数据集的详细信息。
图2显示了来自DDD20的APS和DVS流如何相互补充的示例。对于用红色勾勒的帧对,停止的汽车在DVS帧中是不可见的,但其他车道上的汽车由于它们的运动而在DVS帧中弹出。对于某些场景(例如左中),由于汽车沿道路直线行驶,因此道路边缘在DVS帧中不可见。在其他情况下(例如顶部中间),即将到来的弯道在DVS帧中可见,因为汽车正在接近弯道。在许多场景中,APS帧曝光不足、曝光过度或运动模糊,但在DVS帧中,由于其出色的动态范围和更快的响应,物体仍然可见。一个经过适当训练的网络应该利用这种互补的APS和DVS信息。我们在第III节中使用网络进行转向预测来证明这一点。
DDD20包括E2E车辆控制和诊断数据,以便研究DAVIS相机与标准灰度图像传感器相比的有效性。它不包含完整ADAS解决方案所需的激光雷达、雷达和其他传感器。
本文的主要贡献是:
1)DDD20数据集,以及用于数据集收集的方法和软件。(第II节)。
2)使用DDD20进行APS和DVS数据融合以进行转向预测的首次研究(第III节)。与[23]相比,我们发现APS帧比单独的DVS帧产生更好的转向预测结果。此外,我们表明,融合APS和DVS数据可以显著改善预测,而这两种方式本身都比这两种方式都好。
II. METHODS
"DAVIS Driving Dataset 2020" (DDD20)数据集将在http://sensors.ini.uzh.ch/databases.html发布。本节介绍DAVIS相机以及我们如何收集数据集。
A. DAVIS camera setup
B. Vehicle control and diagnostic data collection
C. Recording and viewing software
D. Recorded DDD20 data
III. EXPERIMENTS
本节报告使用DDD20进行的实验,以解决将APS和DVS融合在一起是否比任何一种单一模式都能提供更好的转向预测的问题。
A. Experiment configurations
1) Data selection: 我们从DDD20中选择了30条记录,涵盖了一系列道路类型和照明条件,包括15 night和15 day的记录(使用的记录在DDD20网站上报告)。我们手动修剪了汽车驶上或驶离道路的末端。对于每个记录,我们选择前70%的数据作为训练数据的一部分,最后30%作为测试数据的一部分。然后,我们准备了三个数据集:Night、Day和All。这些数据集让我们可以研究网络在白天和夜间照明条件下选择不同的传感器输入(DVS+APS、仅DVS和仅APS)的预测精度。
2) Preprocessing inputs for training: [23]表明,使用我们原始的DDD17数据集[22],50 ms的DVS帧持续时间为DVS转向预测提供了最佳效果。因此,我们使用累积50 ms的有符号ON/OFF DVS事件计数的2D直方图的DVS帧来近似匹配平均APS帧速率。有了这个积分时间,运动模糊对于普通乘用车动力学来说是可以接受的。然后将DVS直方图裁剪为其标准差的三倍。对于APS-only预测,我们以原始采样率使用APS帧。当APS帧速率低于20 Hz时,我们复制了APS帧。生成的DVS帧和相应的APS灰度帧都重新缩放到范围[0, 1]遵循[19]中建立的程序。
低于15 km/h的速度被取消,因为它们通常会在汽车驶出停车位或在十字路口转弯时发出信号。当汽车停下来时,司机有时会玩一会儿车轮,然后让它以随机的角度停下来。这个简单的排除对我们当前的转向预测很有效,因为每个预测都是基于瞬时DVS+APS帧,并且不可能知道驾驶员的意图,例如他们何时退出空间或决定做出一个在拐角处转弯。
转向角的分布是不平衡的,因为直线行驶在记录中占主导地位。因此,我们随机修剪了70%的转向角在±5度之间的帧。我们还过滤掉了转向角大于所有转向标准差三倍的帧,因为这些帧通常代表异常值,例如驶离道路。修剪会从原始训练数据集中留下大约50%的帧。在测试数据集中,我们只过滤掉了超大转向角和低速帧异常值。
为了减少计算量,原始的APS和DVS帧从346×260到172×128像素进行了二次采样,我们仍然可以清楚地看到前方的道路。我们使用系统时钟时间戳对齐相机和汽车输入。
3) Baseline network: 基于[23],我们选择了32层残差网络(ResNet-32)作为基线网络来研究转向角预测。卷积层的配置与[29]中的配置相同。输出层是一个线性层,具有一个用于预测转向角的输出。图5显示了架构。在仅DVS和仅APS的情况下,网络使用单通道输入进行训练。该网络有470k参数,大约有400M连接。
4) Training details: 权重参数在[29]之后通过从高斯分布中采样进行初始化,其中nin是输入神经元的数量。我们的数据集足够大,因此我们不需要像[23]中那样在不同的数据集上进行预训练。偏差被初始化为零。使用Adam优化器[30 以10-4的权重衰减训练模型,初始学习率为10-3。使用128个样本的小批量和均方误差(MSE)损失对网络进行了200个epoch的训练。使用一个NVIDIA K80 GPU在准备好的数据集上运行一次的训练时间大约需要24小时。
B. Prediction of steering wheel angle
IV. CONCLUSIONS
DDD20是第一个开放的E2E驾驶数据集,其中包含来自安装在行驶超过4000公里的车辆上的DAVIS事件摄像机的超过50小时的记录。该数据集将原始DDD17数据集的大小增加了大约4倍。在行驶时间和距离方面,DDD20与[1]中使用的72小时NVIDIA数据集和百度数据集[10]中使用的10000公里数据集相当。(BDD100k数据集[31]要大得多(1100h),但不是E2E。)
我们展示了融合APS和DVS传感器输入的端到端转向预测的第一个结果。我们的结果表明,融合的DVS和APS信息最好地解释了所有驾驶条件下的转向变化。在没有时间上下文的情况下,DVS对驾驶中常见的非移动特征视而不见,但为改进APS预测提供了有价值的信息。
未来的工作可以利用DVS事件的精细时序,例如,预处理光流的输入,计算DVS帧间的推断,并将时间上下文合并到预测中。这种时间上下文可以更好地预测使用单帧难以做出的油门和制动决策。