Linear Algebra 整理

教材是 Linear Algebra (4th edition) Stephen H. Friedberg, Arnold J. Insel, Lawrence E. Spence \(\newcommand{\b}{\beta}\newcommand{\l}{\lambda}\DeclareMathOperator{\span}{span}\newcommand{\lin}[1]{\left\langle #1 \right\rangle} \newcommand{\norm}[1]{ \Vert #1 \Vert}\)

Diagonalization

对于一个 \(V\) 上的线性变换 \(T\)，我们希望能够选取一组合适的 ordered basis \(\b\)，使得 \([T]_\b\) 足够的简单，也就是说将 \(T\) 做 diagonalization。

这诱导我们关注一类特别的向量 \(v\in V\)，满足 \(Tv = \l v\)。我们称这样的 \(v\) 为 eigenvector，这样的 \(\l\) 为 eigenvalue。如何找出他们？移项，得到 \((T-\l I) v = 0\)，由此我们知道 \(v \in \ker (T - \l I)\)，后者非平凡，所以应当有 \(\det( T - \l I) = 0\)。称这个多项式 \(p(\l) = \det(T-\l I)\) 为 characteristic polynomial。

接下来就轮到了 Cayley-Hamilton 定理：\(P(T) = O\)，如果 \(T\) is diagonalizable 那么自然是正确的，但是其余情况我们可以考虑一个初等做法。对每个向量 \(v\)，考虑 \(W = \span \{v,Tv,\dots,T^{p-1}v\}\)，其中 \(p\) 是最大的整数使得该集合构成一组基，设这组基为 \(\b\)，那么下一个向量就有 \(T^p v = \sum_{i=0}^{p-1} c_i T^i v\)。易见 \(W\) 是 \(T\)-invariant 的，那么将 \(T\) 限制在 \(W\) 上就有

\[[T_W]_\b = \begin{pmatrix} & & & c_0\\ 1 & & & c_1\\ & \ddots & &\vdots\\ & & 1 & c_{p-1} \end{pmatrix} \]

易见这个矩阵的特征多项式是 \(t^p - c_{p-1}t^{p-1} - \dots - c_0\)，且是 \(T\) 的特征多项式的一个因子，故有 \(p(T)v =0\)，对所有的 \(v\) 都成立，因此必有 \(p(T)=O\)。

回到我们对于 diagonalizability 的讨论。特征多项式 \(p(t)\) 无疑是重要的，我们称 \(\l_i\) 的重根数量为 \(m_i\)，也即它的 algebraic multiplicity。记 eigenspace \(E_{\l} = \ker (T-\l I)\)，那么我们可以通过基的选取证明 \(1\le \dim E_{\l_i}\le m_i\)。

只有当 \(p(t)\) 在我们考虑的 \(F\) 上 splits 的时候，才有 \(\sum_i m_i = \dim V\)，所以 \(p(t)\) splits 且 \(\dim E_{\l_i} = m_i, \forall i\) 是一个可对角化的必要条件。那么它是不是充分的呢？我们就需要证明 \(E_{\l_1} + \cdots + E_{\l_p} = V\) 了，由于此时 \(\dim\) 之和相等，我们只需要证明这个空间的和就等于他们的 direct sum。也即 \(v_1 + \cdots + v_p = 0, v_i \in E_{\l_i}\) 没有非零解。这是通过对 \(p\) 归纳不难得到的。由此，我们只需要从每个 eigenspace \(E_{\l_i}\) 中选取一组基 \(\b_i\)，此时 \(\b = \b_1 \cup \cdots \cup \b_p\) 就给出了一个 diagonalization。

Inner product space

对于线性空间 \(V\) 在其上装配内积 \(\lin{x,y}\)，满足对第一个分量的线性性和 \(\lin{y,x} = \overline{\lin {x,y}}\)，以及 \(\lin{x,x} > 0, \forall x \neq 0\)，此时我们发现定义 \(\norm x = \sqrt{\lin{x,x}}\)，这就是符合我们平时定义的距离。

首先它能导出 Cauchy-Schwarz 不等式：\(|\lin{x,y}|\le \norm x \cdot \norm y\)。固定 \(x\) 看 \(y\)，这就是说只有 \(x,y\) 平行的时候能达到等号。因此我们可以考虑 \(\norm{x + cy} \ge 0\)，取 \(c = -\frac{\lin{x,y}}{\lin{y,y}}\) 即证。进一步推出三角不等式。

对于线性变换 \(T\)，我们称 \(\lin{Tx,y} = \lin{x,T^*y}, \forall x,y\in V\) 的 \(T^*\) 为 \(T\) 的 adjoint。易见，选取 standard ordered orthogonal basis 的情况下，\(T^*\) 就是 \(T\) 的共轭转置。但为了让任意 \(T\) 有 \([T^*]_\b = ([T]_\b)^*\)，我们还需要让这组基是 orthonomal 的，也即 \(\lin{v_i,v_j} = \delta_{ij}\)。

因此，我们很自然地想问：如何得到这样的基？在这样的基的限制之下，\(T\) 是否还能有 diagonalization？

对于如何得到这样的基，我们可以将一个已有的 ordered basis 首先变得 orthogonal，然后归一化。这个变得 orthogonal 的过程就叫做 Gram-Schmidt orthogonalization，其实就是类似高斯消元的过程：

\[w_i = v_i - \sum_{j

在 \(\C\) 上，我们有 \(T\) orthonormal diagonalizable \(\iff T T^* = T^*T\)，也即 \(T\) normal。这可以通过 Schur 定理给出的上三角矩阵进一步得到。在 \(\R\) 上，我们有 \(T\) orthonormal diagonalizable \(\iff T = T^*\)，也即 self-adjoint (Hermitian)。

正交性同时让我们可以给空间定义唯一的 orthogonal completement \(W^\perp = \{ v \mid \lin{x,w} = 0, \forall w\in W\}\)。在几何直观上，对于任何向量 \(x = w + v, w\in W, v \in W^\perp\) 就给出了 \(x\) 距离 \(W\) 最近的向量 \(w\)。

这进一步帮助我们计算最小二乘法：给定 \(y\) 和矩阵 \(A\)，要求最小化 \(\norm{Ax - y}\)。这实际上就是让我们找到 \(\lin{y-Ax,Ax'}=0, \forall x'\)，也即解方程 \(A^* y = A^* Ax\)。当 \(A\) 列满秩，必有 \(A^*A\) 满秩，此时有唯一解。

同时，我们也可以计算一个 equation 的 minimal solution：对于方程 \(Ax=b\)，我们希望找到 \(\norm x\) 最小的解。那么对于任意 \(Ax'=0\)，应有 \(\lin{x,x'}=0\)。由此推得 \(x \in \image A^*\)。设 \(x= A^*u\)，我们首先解方程 \(AA^*u=b\)，然后取 \(x = A^*u\)。

对于一般的 diagonalization，反映在矩阵上即为 \(A \mapsto Q^{-1}AQ\)，而对于 orthogonal diagonalization，则需要 \(QQ^*=I\)，称为 unitary matrix，在 \(\R\) 上则退化为 \(QQ^t=I\)，称为 orthogonal matrix。其另一个等价条件是 \(\norm{T(x)} = \norm x, \forall x\in V\)。

orthogonal diagonalization 的另一个表述为 spectral theorem，也即对于一个 normal (self-adjoint) 的线性变换 \(T\)，可以分解为正交空间 \(W_1,\dots,W_k\) 的直和，满足 \(T = \l_1 T_1 + \cdots + \l_k T_k\)，其中 \(T_i\) 是在 \(V\) 在 \(W_i\) 上的 orthogonal projection。进一步地，我们可以通过 Lagrange 插值证明，\(T\) 是 normal 的当且仅当 \(T\) 是 \(T^*\) 的多项式。

由此，我们可以称一个 self-adjoint 的线性映射是 positive (semi)definite 的当且仅当 \(\forall x\neq 0, \lin{Tx,x} > 0 (\ge 0)\)。根据 orthogonal diagonalization，我们有 \(A\) positive (semi)definite \(\iff A = B^*B\)。

我们还试图刻画装备了内积的空间之间的线性映射。设 \(T: V \to W\)，我们可以找到 \(V\) 上的 orthogonal basis \(v_1,\dots,v_n\) 和 \(W\) 上的 orthogonal basis \(u_1,\dots,u_m\)。使得对于 \(i\le k\)，有 \(T v_i = \sigma_i u_i\)，更大的 \(i\) 有 \(T v_i = 0\)。将 \(\sigma_i\) 从大到小排列时，称为这个线性变换的 Singular Value Decomposition，又写作 \(T = U \Sigma V^*\)。考虑 \(A = T^*T\) 是 positive semidefinite 的，对其取 orthogonal basis \(v_1,\dots,v_n\) 必然有 \(A v_i = \l_i v_i\)，则可取 \(\sigma_i = \sqrt{\l_i}\)，\(u_i = \frac 1{\sigma_i} Tv_i\)，然后扩展出剩下的部分即得。

我们考虑 \(V\) 上的双线性函数，选取一组基之后，双线性函数无非就是一个 \(n\times n\) 的方阵。但换基的变换是 \(Q^tAQ\)，与相似变换有所不同。当 bilinear form \(H\) 是对称的，那么在 characteristic 不为 \(2\) 的域上，我们总能经过适当的消元将其对角化。如果 \(V\) 上装配了内积，那么由于我们有 orthogonal diagonalization，有对角化 \(Q^{-1}HQ = Q^tHQ\)。

Canonical forms

虽然我们在矩阵的 diagonalization 上已经得到了很多结果，但是我们依然希望在不可对角化的矩阵上取得一定结果。假设 \(p(t)\) 在 \(F\) 上 split，对重数为 \(m\) 的 eigenvalue \(\l\)，我们令 \(K_{\l} = \ker (T - \l I)^{m}\)，注意到对 \(\mu \neq \l\)，\(T-\mu I\) 是在 \(K_\l\) 上的双射，进一步可以归纳得到，\(K_{\l_1} + K_{\l_2} + \cdots + K_{\l_k} = V\)，进而给出了 \(V\) 的一个直和分解。接下来，我们就只需研究 \(T\) 在每个 \(K_\l\) 上的效果了。

在 \(K_\l\) 中，对每个向量 \(v\)，我们有 \(T\)-invariant subspace \(W = \span \{(T-\l I)^{p-1}v, \dots, (T-\l I)v, v \}\)，其中 \((T-\l I)^p v = 0\)。我们称这组基 \(\gamma\) 为一个 cycle。我们发现有

\[[T_W]_\gamma = \begin{pmatrix} \l & 1\\ & \l & \ddots\\ & & \ddots & 1\\ & & & \l \end{pmatrix} \]

这被称为一个 Jordan block。令 \(W = \image (T-\l I)\)，由于 \(W\) 是一个更小的空间，归纳假设 \(W\) 可以由若干个 cycle 组成一组基，由于最后一个向量 \(v\in \image (T-\l I)\)，我们可以解出 \((T-\l I)x = v\)，得到新的 end vector，再添上额外的 eigenvector，就得到了 \(K_\l\) 的一组基。因此，每个 \(p(t)\) splits 的矩阵都存在这样一个 Jordan canonical form，cycles 的大小集合一定是唯一的，这可以通过简单的算 \(\dim\) 得到。

Jordan canonical form 还直接给出了一个矩阵的 minimal polynomial。对于每个 eigenvalue，只需取其最大的 Jordan block 的大小 \(l\)，\(\prod (x- \l_i)^{l_i}\) 即为 minimal polynomial。

Linear Algebra 整理

Diagonalization

Inner product space

Canonical forms

相关

标签