3D视觉算法初学概述


  • 【3D视觉】PointNet和PointNet++):

    1. 输入为一帧的全部点云数据的集合,表示为一个 nx3 的 2d tensor,其中 n 代表点云数量,3 对应 xyz 坐标。
    2. 输入数据先通过和一个 T-Net学习到的转换矩阵相乘来对齐,保证了模型的对特定空间转换的不变性。
    3. 通过多次 mlp 对各点云数据进行特征提取后,再用一个 T-Net 对特征进行对齐。
    4. 在特征的各个维度上执行 maxpooling 操作来得到最终的全局特征
    5. 对分类任务,将全局特征通过 mlp 来预测最后的分类分数。
    6. 对分割任务,将全局特征和之前学习到的各点云的局部特征进行串联,再通过 mlp 得到每个数据点的分类结果。

    分割任务针对于每一个点做分类,在下面的图中,把全局的特征复制成 n 份然后与之前的 64 维特征进行拼接,然后接着做一个 mlp,最后的输出 nxm 就是每一个点的分类结果。

    四,参考资料

    1. 细嚼慢咽读论文:PointNet论文及代码详细解析
    2. 3D点云基础知识
    3. 【3D视觉】PointNet和PointNet++
    4. 点云+深度学习的开山之作–Pointnet