3D视觉算法初学概述

【3D视觉】PointNet和PointNet++）：
1. 输入为一帧的全部点云数据的集合，表示为一个 nx3 的 2d tensor，其中 n 代表点云数量，3 对应 xyz 坐标。
2. 输入数据先通过和一个 T-Net学习到的转换矩阵相乘来对齐，保证了模型的对特定空间转换的不变性。
3. 通过多次 mlp 对各点云数据进行特征提取后，再用一个 T-Net 对特征进行对齐。
4. 在特征的各个维度上执行 maxpooling 操作来得到最终的全局特征。
5. 对分类任务，将全局特征通过 mlp 来预测最后的分类分数。
6. 对分割任务，将全局特征和之前学习到的各点云的局部特征进行串联，再通过 mlp 得到每个数据点的分类结果。
分割任务针对于每一个点做分类，在下面的图中，把全局的特征复制成 n 份然后与之前的 64 维特征进行拼接，然后接着做一个 mlp，最后的输出 nxm 就是每一个点的分类结果。

四，参考资料
1. 细嚼慢咽读论文：PointNet论文及代码详细解析
2. 3D点云基础知识
3. 【3D视觉】PointNet和PointNet++
4. 点云+深度学习的开山之作–Pointnet

计算机视觉点云视觉里程计 3D人脸重建 PointNet网络建图

相关

双一流博士整理的计算机视觉学习路线（深度学习+传统图像处理）

点云下采样2

centos8安装pcl点云库

计算机视觉-生成模型

贪心学院计算机视觉CV训练营

大厂技术实现 | 图像检索及其在淘宝的应用 @计算机视觉系列

bzoj5017 [Snoi2017]炸弹 (线段树优化建图+)tarjan 缩点+拓扑排序

【luogu P5025】炸弹（线段树优化建图）（Tarjan）

ROS学习笔记（5）——建图学习

基于 Nebula Graph 构建图学习能力

计算机视觉的半监督模型：Noisy student, π-Model和Temporal Ensembling

如何创建Azure Face API和计算机视觉Computer Vision API

标签