学习笔记20220122 点云基础、协和差、PCA(我一直觉得记录的东西放在首页很麻烦但现在看来比较容易找所以以后写的东西都要放在首页)


 点云基础 https://blog.csdn.net/zihao_c/article/details/108808481

点云基础(不太基础,大概了解了一些,很多东西还未深入,用到的时候在学):https://blog.csdn.net/laziji/article/details/103826781

方差和协方差的定义:

 针对一维样本,求出的协方差,就是方差(方差是协方差的一种特殊情况),意义和方差也一样,都是反应集合中元素离散度的;

 针对二维样本,求出的协方差反映的就是两个维度的相关性,正相关性或者负相关性;

 针对三维样本,求出的协方差反应总体各个维度之间的关系。所以二维以上计算协方差用的都是协方差矩阵。

 因为是三维,所以最后的协方差矩阵是3X3的,每一个矩阵元素代表第i和第j个维度的协方差,因此我们说协方差矩阵对角线上就是每一个维度的方差,而其余元素为协方差。

 

 最后除以的是n,而不是n-1,这是对总体的一种无偏估计(涉及到贝塞尔修正)

以上内容来自B站;https://www.bilibili.com/video/BV1Vt4y1U73D?from=search&seid=2270512532456145501&spm_id_from=333.337.0.0

PCA(主成分分析):

1 PCA目的/作用
主成分分析算法(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度,同时保留住较多的原数据点的特性。

PCA降维的目的,就是为了在尽量保证“信息量不丢失”的情况下,对原始特征进行降维,也就是尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到这些维度上,使降维后信息量损失最小。

2 求解步骤

去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值排序
保留前N个最大的特征值对应的特征向量
将原始特征转换到上面得到的N个特征向量构建的新空间中(最后两步,实现了特征压缩)

PCA优缺点
优点:
1、以方差衡量信息的无监督学习,不受样本标签限制。
2、由于协方差矩阵对称,因此k个特征向量之间两两正交,也就是各主成分之间正交,正交就肯定线性不相关,可消除原始数据成分间的相互影响
3. 可减少指标选择的工作量
4.用少数指标代替多数指标,利用PCA降维是最常用的算法
5. 计算方法简单,易于在计算机上实现。
缺点:
1、主成分解释其含义往往具有一定的模糊性,不如原始样本完整
2、贡献率小的主成分往往可能含有对样本差异的重要信息,也就是可能对于区分样本的类别(标签)更有用
3、特征值矩阵的正交向量空间是否唯一有待讨论
4、无监督学习

以上内容参考https://blog.csdn.net/lanyuelvyun/article/details/82384179

###MY Conception

大概就是说,我们将多维降维时,其实就是对低纬度的投影,那么我们应该尽量让低纬度更加宏观地看到我们的信息。降维打击的信息丢失是不可避免的,比如一个人,区分它是男人还是女人,我们肯定不能单纯的从顶部投影,在二维世界看着一个脑瓜蛋子是不能知道它是男是女的;我们应该从正面投影,这样可以通过头发、胸臀形状来判断是他还是她,所以应该尽可能多地把信息投影到低纬度。

与此同时,第二个缺点的理解也很直观。比如,一名程序员是大佬还是萌新?我们按照刚才的思路从正面投影,就不太好判断,因为秃顶的才是大佬,我们投影的时候遮住了脑瓜蛋子,所以很难区分,这就是对于区分样本的类别更有用但是贡献率很小的主成分信息。