3D视觉算法初学概述
- 【3D视觉】PointNet和PointNet++):
- 输入为一帧的全部点云数据的集合,表示为一个 nx3 的 2d tensor,其中 n 代表点云数量,3 对应 xyz 坐标。
- 输入数据先通过和一个
T-Net
学习到的转换矩阵相乘来对齐,保证了模型的对特定空间转换的不变性。 - 通过多次 mlp 对各点云数据进行特征提取后,再用一个 T-Net 对特征进行对齐。
- 在特征的各个维度上执行 maxpooling 操作来得到最终的全局特征。
- 对分类任务,将全局特征通过 mlp 来预测最后的分类分数。
- 对分割任务,将全局特征和之前学习到的各点云的局部特征进行串联,再通过 mlp 得到每个数据点的分类结果。
分割任务针对于每一个点做分类,在下面的图中,把全局的特征复制成
n
份然后与之前的64
维特征进行拼接,然后接着做一个mlp
,最后的输出nxm
就是每一个点的分类结果。四,参考资料
- 细嚼慢咽读论文:PointNet论文及代码详细解析
- 3D点云基础知识
- 【3D视觉】PointNet和PointNet++
- 点云+深度学习的开山之作–Pointnet