相抵与相似


相抵与相似

写这篇小文章的原因是,之前自己学相似时候,各种概念在脑袋里绕来绕去绕不清楚。数学的定义倒是直白了,几何的含义一窍不通。现在倒是要讲给别人听了,自己想明白了但说不出来也不行,于是乎尝试用最简单的线性代数的语言,和高中水平的几何观点解释一下吧!定义和推导写得都不是很严谨,日后再修改补充。
再说两句题外话:今天有同学给我发了学院请的学长给大一做串讲的PPT,实话说,讲得并不好————避重就轻,思路混乱。去年更离谱,找了个大一的给大一的做串讲……实话说,相较于学院整体的工程化氛围,低年级的几门数学课还带有较为强烈的个人英雄主义色彩。不仅如此,同学们也大多沉浸在高中刷题的快感中无法自拔,学院自身也更注重编程等工程能力的训练,更何况基础课助教是面向全校招聘的,这就意味着助教水平的良莠不齐,这注定教学效果不会好到哪里去。谁会成为破局者吗?

等价即满足三个性质:

? (1)反身性:\(A\sim A\)

? (2)对称性:\(A \sim B \Longrightarrow B \sim A\)

? (3)传递性:\(A \sim B, B \sim C \Longrightarrow A \sim C\)

而矩阵的相抵、相似于合同都属于矩阵间的等价关系,其中相抵是最弱的等价关系。

从定义出发:

定义可逆矩阵\(P,Q\)
相抵:\(B=PAQ\)
相似:\(B=P^{-1}AP\)
相合:\(B=P^{T}AP\)

1.1 从基转换的角度 看待左乘、右乘矩阵

要解释右乘矩阵的具体含义,先明白基转换的表现形式:对于向量X:任给一组基,X在每个基向量上的投影分量可按序排成一组数。选取不同的基,投影分量随之改变,于是产生不同的一组数。这组数描述了X。

\(rank(A)=dim(R)\),即所给基的向量个数等于的X维数时,X就能被这组基唯一表示,也就是说,这组基下的X能被这一组数唯一描述,称这一组数为X的坐标。那么,对于这个不动的X,不同基下的坐标就是各种各样对它的描述,随着基的改变而改变,但向量本身不改变。因此,对于单个向量而言,基的转换就是研究不同基下,X的坐标之间的关系。

1.1.1过渡矩阵

\[\begin{align} &给定基(A)=\left\{\alpha_1,\alpha_2,\cdots,\alpha_n\right\},(B)=\left\{\beta_1,\beta_2,\cdots,\beta_n\right\}\\ &有关系式\left\{\begin{matrix} \beta_1=b_{11}\alpha_1+b_{12}\alpha_2+\cdots+b_{1n}\alpha_n\\ \beta_2=b_{21}\alpha_1+b_{22}\alpha_2+\cdots+b_{2n}\alpha_n\\\vdots\\ \beta_n=b_{n1}\alpha_1+b_{n2}\alpha_2+\cdots+b_{nn}\alpha_n \end{matrix}\right. ,即\left(\beta_1,\beta_2,\cdots,\beta_n\right)=\left(\alpha_1,\alpha_2,\cdots,\alpha_n\right) \left[\begin{matrix} b_{11}&b_{12}\cdots b_{1n}\\ b_{21}&b_{22}\cdots b_{2n}\\&\vdots\\ b_{n1}&b_{n2}\cdots b_{nn} \end{matrix}\right]\cdots\cdots\underline{\textbf{(1)式}}\\ &\textbf{X}=Ax=\left(\alpha_1,\alpha_2,\cdots,\alpha_n\right) \left[\begin{array} xx_1\\x_2\\\vdots\\x_n\end{array}\right] =x_1\alpha_1+x_2\alpha_2+\cdots+x_n\alpha_n\cdots\cdots\underline{\textbf{(2)式}}\\ &将(1)式代入(2)式可得:\textbf{X}=\left(\beta_1,\beta_2,\cdots,\beta_n\right) \left[\begin{matrix} b_{11}&b_{12}\cdots b_{1n}\\ b_{21}&b_{22}\cdots b_{2n}\\&\vdots\\ b_{n1}&b_{n2}\cdots b_{nn} \end{matrix}\right]^{-1} \left[\begin{array} xx_1\\x_2\\\vdots\\x_n\end{array}\right], 记P= \left[\begin{matrix} b_{11}&b_{12}\cdots b_{1n}\\ b_{21}&b_{22}\cdots b_{2n}\\&\vdots\\ b_{n1}&b_{n2}\cdots b_{nn} \end{matrix}\right], 有X=BP^{-1}x \\ &其中\left[\begin{matrix} b_{11}&b_{12}\cdots b_{1n}\\ b_{21}&b_{22}\cdots b_{2n}\\&\vdots\\ b_{n1}&b_{n2}\cdots b_{nn} \end{matrix}\right]^{-1} \left[\begin{array} xx_1\\x_2\\\vdots\\x_n\end{array}\right]= \left[\begin{array} yy_1\\y_2\\\vdots\\y_n\end{array}\right]=y,是一组新的坐标,有P^{-1}x=y,即x=Py,X=By \\ &从而可知:\textbf{X}这个向量就有了两种描述方式:\quad\textbf{X}=Ax= \left(\alpha_1,\alpha_2,\cdots,\alpha_n\right) \left[\begin{array} xx_1\\x_2\\\vdots\\x_n\end{array}\right]= \left(\beta_1,\beta_2,\cdots,\beta_n\right) \left[\begin{array} yy_1\\y_2\\\vdots\\y_n\end{array}\right]=By\\ &即\quad B=AP, 且y=P^{-1}x \end{align} \]

这里从过渡矩阵的角度给出了右乘矩阵 \(B=AP\) 的几何意义:基A向基B的转换。从列变换的角度看来:右乘矩阵P,是对于A的列向量的线性组合,是在原有基的基础上,构建一组新基。需要注意的是,矩阵A并不只有基底一种几何意义,它也能被看作为一个线性变换。

而对于向量\(X\)而言,其在\((A)\)基下的坐标\(x\),和\((B)\)基下的坐标\(y\)满足关系式:\(y= P^{-1} x\),这就是对于单个向量而言,基转换的公式。

需要注意的是,对于“原基”和“单个向量”的基转换公式是不同的。“基”或“线性变换”的坐标转换是右乘过渡矩阵P,而“单个向量”的基转换是左乘过渡矩阵的逆。再次放在一起对比:

\[B=AP,\ \ y=P^{-1}x(或x=Py) \]

其中向量\(y\)\(X\)在基\(B\)下的表现形式,\(x\)\(X\)在基\(A\)下的表现形式。即:

\[\textbf{X}=Ax=By \]

1.1.2 相似

按列分块的矩阵将右乘变为左乘

对于\(AX=b\)\(b\)是以\(X\)的各分量为系数的\(A\)的列的线性组合,即:

\[\begin{align} &设A=A_{n\times n},记X=\left(x_1,x_2,\cdots,x_n\right)\\ &则有AX=A\left(x_1,x_2,\cdots,x_n\right)=\left(Ax_1,Ax_2,\cdots,Ax_n\right)=b=Ib\\ &\qquad\Longrightarrow \textbf{AX=Ib} \end{align} \]

\(AX=b\),也就是\(AX=Ib\),其中\(I\)为单位矩阵。因此,可以看作\(A\)这组基下的\(X\),就是\(I\)这组基下的\(b\)向量。而\(b=AX\),完全等价于\(x=Py\)。这是对单个向量而言的(与上面1.1.1的内容完全等价,不过换了一种描述方法)。也就是说,等式两端都为矩阵乘以列向量的形式时,这两个列向量描述了不同基下的同一个向量,矩阵描述了基。(这里说的主要是可逆方阵,其余情况可以依次推广)

拿出很多\(X,m_1,m_2..m_n\),这些单个向量以列向量的形式拼成一个方阵\(M\)。他们变换后的向量分别为\(b_1,b_2...b_n\),写在一起就是\(AM=B\),在这个式子里,矩阵\(A\)是以一个线性变换的身份出现的,而不再是一组基。如果把施加变换的矩阵记为\(Q\),对象记为\(A\)\(B\),那么就可以写作\(B=QA\),这就是矩阵\(Q\)左乘的一种解释:\(Q\)\(A\)的每个列向量都施加了同样的线性变换,把\(A\)变成了\(B\)

\[\begin{align} &A=\left(\alpha_1,\alpha_2,\cdots,\alpha_n\right)\\ &B=QA=\left(Q\alpha_1,Q\alpha_2,\cdots,Q\alpha_n\right)=\left(b_1,b_2,\cdots,b_n\right) \end{align} \]

回到原来1.1.1的例子上去:

\[\\B=AP,\ \ y=P^{-1}x\\ \]

\(B\)\(y\)相对应,\(A\)\(x\)相对应。此时\(B=QA\)公式重出江湖,用\(P^{-1}\)来替代\(Q\),用\(AP\)来代替\(A\)。即:

\[\\B=QA=(P^{-1})(AP)=P^{-1}AP\\ \]

那么\(Q\)就不是简简单单一个线性变换了,它被赋予了几何意义:将矩阵\(AP\)中的每个列向量都转换成以\(P\)为基的。而\(AP\)中的每个列向量也有自己的几何意义:被用自然基衡量的,施加了过渡矩阵\(P\)的一个线性变换。那么相似矩阵的几何意义就可以被直观理解了。打个不太恰当的比方:我在60分及格的规定下考了60分,那么我刚刚及格。忽然发生了两件事:

  1. 我的分数变成了90(对象变了)。
  2. 90分变成了及格线(基也变了)。

那么我还是刚刚及格,这个性质丝毫没有发生变化。这就是相似矩阵的一种理解方式:线性变换还是那个线性变换,但是在不同的基下。这种理解方式还不是很清楚,也不一定正确,因为全程只引入了基的转换,也没有说为什么一组基就可以被同等看作一个线性变换,有换概念的嫌疑,不过勉强可以一观,或启发一些思考,遂记录。

? 举个例子:假定原向量m是在自然基下的向量,则有:

\[\\\begin{align} &\textbf{角度1}:左乘过渡矩阵,完成基的转换\\ &\qquad向量\vec{m}在自然基\quad\vec{i}=\left[\begin{matrix}1\\0\end{matrix}\right], \vec j=\left[\begin{matrix}0\\1\end{matrix}\right] 这组基下的坐标为:\vec{m}=\left[\begin{matrix}1\\1\end{matrix}\right],\\ &\qquad\qquad即\vec{m}=I\cdot\vec{m}=\left[\begin{matrix}1&0\\0&1\end{matrix}\right]\vec{m}= 1\cdot\left[\begin{matrix}1\\0\end{matrix}\right]+1\cdot\left[\begin{matrix}0\\1\end{matrix}\right]\\ &\\&\qquad左乘矩阵A=\left[\begin{matrix}2&0\\0&-1\end{matrix}\right]后, \hat{\vec{i}}=\left[\begin{matrix}2\\0\end{matrix}\right], \hat{\vec{j}}=\left[\begin{matrix}0\\-1\end{matrix}\right], \vec{m}在这组基下的坐标不改变。\\ &\qquad\qquad即 \hat{\vec{m}}=A\cdot\hat{\vec{m}}= \left[\begin{matrix}2&0\\0&-1\end{matrix}\right]\hat{\vec{m}}= 1\cdot\left[\begin{matrix}2\\0\end{matrix}\right]+1\cdot\left[\begin{matrix}0\\-1\end{matrix}\right] =\left[\begin{matrix}2\\-1\end{matrix}\right]\\ &\\&\textbf{角度2}:左边的矩阵代表基,右边的向量是这组基下的向量\\ &\qquad当然,也可以看作:\left[\begin{matrix}1&0\\0&1\end{matrix}\right]\left[\begin{matrix}2\\-1\end{matrix}\right]= \left[\begin{matrix}2&0\\0&-1\end{matrix}\right]\left[\begin{matrix}1\\1\end{matrix}\right] \end{align}\\ \]

1.2 从线性映射的角度看待左乘、右乘矩阵

1.2.1 相抵

在1.1中,对于相似矩阵的解释并不能完全让人信服,但它是一种从几何意义到定义式的正向思考:为什么我要在矩阵\(A\)左右两边各乘上\(P^{-1}\)\(P\)?如果逆向思考:我手上已经有相似矩阵的定义式\(B=P^{-1}AP\),再倒推回相似矩阵的几何意义,就比较好理解了。

先从跟为普遍的情形推起:\(B=QAP\),由于\(Q\)是可逆的,也可以写作\(B=Q^{-1}AP\),这就是相抵矩阵的定义式。而相似就是将\(Q\)换成了\(P\),所以相似矩阵是一种特殊的相抵矩阵。

现在有一个线性映射

\[\Gamma:R^n \rightarrow R^m \]

,它可以表示为两个矩阵\(A\),和\(B\)

  • \(A\)矩阵在\(R^n\)中的基为\((X)\),在\(R^m\)中的基为\((Y)\),即\(y=Ax\)
  • \(B\)矩阵在\(R^n\)中的基为\((S)\),在\(R^m\)中的基为\((T)\),即\(t=Bs\)

再取Rn空间中的一个向量\(a\)\(R^m\)空间中的一个向量\(b\)

  • \(a=Xx=Yy\)(向量\(a\)\((X)\)下的坐标为\(x\),在\((Y)\)下的坐标为\(y\)
  • \(b=Ss=Tt\)(向量\(b\)\((S)\)下的坐标为\(s\),在\((T)\)下的坐标为\(t\)

最后定义同在一个空间中的两组基之间的转换关系

  • \(S=XP\),即\(x=Ps\)
  • \(T=YQ\),即\(y=Qt\)

\[\begin{align} &(x=Ps,y=Qt) \longrightarrow y=Ax \ \Longrightarrow Qt=APs\\ &\qquad\qquad\qquad\qquad\qquad\qquad\quad\Longrightarrow t=Q^{-1}AP\\ &(t=Bs,t=Q^{-1}AP)\longrightarrow\ B=Q^{-1}AP \end{align} \]

这就完整地从几何意义推出了相抵等价的定义式,其中\(P\)\(Q\)代表了\(A\)\(B\)两个矩阵在原空间和象空间的两组基之间的关系。由于Rn≠Rm,因此线性映射在两个空间内的基是可以自由选取的,也就是说P和Q是任意的——在任意的基XY下,线性变换表现为矩阵A,ST下表现为矩阵B,而X到S,Y到T的过渡矩阵都是可逆的。在这种情况下,矩阵A和B是相抵关系。

1.2.2 相似

从定义的角度出发,相似等价特殊就特殊在:原空间中AB的基的过渡矩阵,和映射后的空间中,AB的基的过渡矩阵,完全一致!这就说明了几层意思,我们一层层拆开来看。

  1. 同一个空间内的过渡矩阵一定是方阵。原空间和映射后的空间的过渡矩阵一样,则说明了\(R_n=R_m\),所以\(A\)\(B\)一定是方阵。
  2. \(R_n=R_m\),则这两个空间是同构的,维数相同\(n=m\),也就是等价的
  3. 原空间和映射后的空间同构,也就说明了两个空间是一个空间,因此两组基必须得是一样的(即\(X=Y\)
  4. 所以,\(A\)\(B\)映射前和映射后的对象始终在同一个线性空间中

所以说,相似变换仅针对方阵,且相似的两个矩阵是同一个线性空间中,不同基下的同一个线性变换。这样就有了直观上的相似的定义式来源:由于原空间和映射后的空间一样,线性变换在两个空间内选取的基必须得一样,自然过渡矩阵也一样,所以P=Q,直接代入上式可得:
\( B=P^{-1}AP \)
这种证明方式比起1.1.2中的要清楚一些,\(P^{-1}\)\(P\)的来源也解释到了。不过1.1的思考也是必要的。

补充:相似的证明

这是书上给出的证明。为什么(*)这一步是成立的呢?

我们已经知道了,给定一组基时,一个线性变换可以被唯一表示。那么,设一个线性变换T,在两组基\(A\)下为M,即B下为N,就有:

\[\begin{align} &A=\left(\alpha_1,\alpha_2,\cdots,\alpha_n\right), B=\left(\beta_1,\beta_2,\cdots,\beta_n\right)\\ &B=AP\ \Longrightarrow\ \left(\beta_1,\beta_2,\cdots,\beta_n\right)=\left(\alpha_1,\alpha_2,\cdots,\alpha_n\right)P\\ &T(\alpha_1,\alpha_2,\cdots,\alpha_n)=(\alpha_1,\alpha_2,\cdots,\alpha_n)M\\ &T(\beta_1,\beta_2,\cdots,\beta_n)=(\beta_1,\beta_2,\cdots,\beta_n)N ………………(1)\\ &\qquad \qquad \qquad \quad\ = T[(\alpha_1,\alpha_2,\cdots,\alpha_n)P]\\ &\qquad \qquad \qquad \quad\ = [T(\alpha_1,\alpha_2,\cdots,\alpha_n)]P……………(*)\\ &\qquad \qquad \qquad \quad\ = (\alpha_1,\alpha_2,\cdots,\alpha_n)MP\\ &\qquad \qquad \qquad \quad\ = (\beta_1,\beta_2,\cdots,\beta_n)P^{-1}MP…………(2)\\ &(1)(2)\ \Longrightarrow\ N=P^{-1}MP \end{align} \]

* 小总结

1.1和1.2分别从两个角度思考了矩阵相乘的几何意义,我在这里系统地写一下:

  • 右乘:\(B=AP\):基\(A\)到基\(B\)的转换
  • 右乘:\(B=AP\)\(A\)中列向量的线性组合
  • 左乘:\(B=PA\):即\(IB=PA\),左边的矩阵\(I\)\(P\)是对于\(B\)\(A\)的环境声明
  • 左乘:\(B=PA\)\(A\)中所有列向量经过\(P\)的线性映射变成\(B\)
  • \(B=Q^{-1}AP\)\(Q\)是原空间中\(A\)\(B\)的基的过渡矩阵,\(P\)是像空间中\(A\)\(B\)的基的过渡矩阵

补充:既然一个矩阵即可以被看做线性变换,也可以被看作基,那么它们之间的几何意义一定具有某种联系。稍加思索可以得知:基的变换就是基下向量的线性变换,不过一个是物体在运动,一个是参照系在运动。这只是选取参照系的角度不同罢了。从这个角度或可解释1.1.1中为什么对于向量和基,其基转换的公式一个是右乘矩阵,一个是左乘矩阵的逆。

:也可参考四个子空间的角度。在此做一笔小注,以期日后补充。

:有云:左乘矩阵是基不变,空间里的东西做线性变换;右乘矩阵是基变。