1.2 An Overview of Key Ideas 阅读笔记


向量,矩阵,子空间,线性变换

reference的内容为唯一教程,接下来的内容仅为本人的课后感悟,对他人或无法起到任何指导作用。

Reference

  1. Course website: An Overview of Key Ideas | Unit I: Ax = b and the Four Subspaces | Linear Algebra | Mathematics | MIT OpenCourseWare
  2. Course video: 直接在网站上看,b站翻译不忍直视连英文字幕都无。
  3. Course summary: An overview of key ideas (mit.edu)
  4. Extra reading: Section 1.2, 1.3 in Introduction to Linear Algebra, Fifth Edition by Gilbert Strang.
  5. Extra videos (3Blue1Brown):
    1. Linear combinations, span, and basis vectors | Chapter 2, Essence of linear algebra - YouTube
    2. Linear transformations and matrices | Chapter 3, Essence of linear algebra - YouTube

上一讲主要讲我们要把一个矩阵乘以一个向量看作线性组合。这一讲其实不属于上一讲的系列,因此内容上会和整体有突兀。作为ME的导论,它基本上带出一个观念,就是我们看线代的视角首先从向量,向量的线性组合,再看成矩阵乘法,最后矩阵乘法会把一堆向量映射到一个子空间(Subspace),这玩意我们把它看作线性变换(Linear Transformation)。线代最终的视角就是subspaces,我记得第一遍学习教材是从很抽象的角度来讲的,我当时学习主要靠rote,几乎是没理解。

我打算忽略其中矩阵的逆(Inversion)的部分,感觉在整体上有点突兀,应该放在后面讲。

Vectors

Lengths and Dot Products

收尾一下向量的性质部分。为了练练latex语法才写的,好浪费时间啊!

  1. \[\text{向量}\mathbf{v}=(v_1,\cdots,v_n)\text{和}\mathbf{w}=(w_1,\cdots,w_n)\text{的}\textbf{点积/内积}\text{(dot product/inner product)是:}\\ \mathbf{v}\cdot\mathbf{w}=v_1w_1+\cdots+v_nw_n\\ \text{而且}\mathbf{v}\cdot\mathbf{w}=\mathbf{w}\cdot\mathbf{v} \]

  2. \[\text{向量}\mathbf{v}=(v_1,\cdots,v_n)\text{的}\textbf{模}\text{(length)}=\left \| \mathbf{v} \right \|=\sqrt{\mathbf{v}\cdot\mathbf{v}}=(v_1^2+\cdots+v_n^2)^{1/2} \]

  3. \[\textbf{单位向量}\text{(unit vector) }\mathbf{u}\text{ 是长度为 }1\text{ 的向量:}\left \| \mathbf{u} \right \|=1 \]

  4. \[\mathbf{u}=\mathbf{v}/{\left \| \mathbf{v} \right\|}\text{ 是和 }\mathbf{v}\text{ 同方向的单位向量} \]

  5. \[\text{若 }\mathbf{v}\cdot\mathbf{w}=0\text{ 则 }\mathbf{v}\text{ 和 }\mathbf{w}\textbf{ 垂直}\text{(perpendicular)}\\ \text{若 }\mathbf{v}\cdot\mathbf{w}<0\text{ 则 }\mathbf{v}\text{ 和 }\mathbf{w}\text{ 夹角大于 90°}\\ \text{若 }\mathbf{v}\cdot\mathbf{w}>0\text{ 则 }\mathbf{v}\text{ 和 }\mathbf{w}\text{ 夹角小于 90°} \]

  6. \[\text{单位向量 }\mathbf{u}_1,\mathbf{u}_2\text{ 的夹角 }\theta\text{ 有:}\mathbf{u}_1\cdot\mathbf{u}_2=cos{\theta}\\ \text{任意向量 }\mathbf{v},\mathbf{w}\text{ 的夹角 }\theta\text{ 有:}\frac{\mathbf{v}\cdot\mathbf{w}}{\left \| \mathbf{v} \right \|\left \| \mathbf{w} \right \|}=cos{\theta}\\ \]

  7. \[\textbf{Schwarz不等式}\text{(schwarz inequality):}\mathbf{v}\cdot\mathbf{w}\leq\left \| \mathbf{v} \right \|\left \| \mathbf{w} \right \|\\ \textbf{三角不等式}\text{(triangle inequality):}\left \| \mathbf{v}+\mathbf{w} \right \|\leq\left \| \mathbf{v} \right \|+\left \| \mathbf{w} \right \|\\ \]

Linear Combination

向量最重要的性质就是Linear Combination了,这东西实现了Linear Transformation,组成了subspace。

Matrices

这一部分跳过了逆矩阵部分,仅从线性变换的角度带着3Blue1Brown的内容一起理解了。

矩阵乘向量,上一讲理解成了向量的线性组合,这一部分将进一步理解成线性变换(Linear Transformation)。

变换(Transformation)其实也是一种函数,映射。输入一个向量,输出另一个,就是变换。之所以用transformation而不是function的原因则是有一个movement在里面。

输入里面的所有向量都看作一个点(1.1部分),输出也看做点,从一堆点怎么移动到另一堆点的动作,就是transformation。举个例子,比如图像的像素点进行sheer操作(正方形变斜的平行四边形),rotate操作(旋转),scale操作(拉伸),甚至各种像哈哈镜一样的操作,扭曲着图像,这些都是transformation,视频里面有不少漂亮的动画。

而线性变换就是保持平面内所有线都是直线,而原点不变的变换。也可以理解为网格线平行且等距,而原点不变(看视频)。也就是说只能对网格线sheer,绕原点rotate和scale。

假如给一个图像/二维平面,要线性变换,比如顺时针旋转\(90°\),该怎么确定平面内任意一点/一个向量旋转之后的坐标呢,比如一个坐标为\((1,2)\)的向量\(\mathbf{v}\)

上一讲最后的部分已经意识到了一个向量其实已经可以看作按照坐标的系数,对坐标对应的基进行线性组合。在平面直角坐标系下坐标为\((1,2)\)的向量\(\mathbf{v}\)就是单位向量\(\mathbf{i}=(1,0)\)\(\mathbf{j}=(0,1)\)的线性组合\(\mathbf{v}=1\mathbf{i}+2\mathbf{j}\)。而线性变换本质性质便是:\(\mathscr{T}(\mathbf{v})=\mathscr{T}(1\mathbf{i}+2\mathbf{j})=\mathscr{T}(1\mathbf{i})+\mathscr{T}(2\mathbf{j})=1\mathscr{T}(\mathbf{i})+2\mathscr{T}(\mathbf{j})=1\hat{\mathbf{i}}+2\hat{\mathbf{j}}\)。这里\(\mathscr{T}(\cdot)\)代表线性变换。

线性性质分为可加性:\(f(x+y)=f(x)+f(y)\)和齐次性:\(f(ax)=af(x),\text{ a为常数}\)

也就是说只要确定变换之后的\(\hat{\mathbf{i}}\)\(\hat{\mathbf{j}}\)在原系下的坐标,就可以用\(1\hat{\mathbf{i}}+2\hat{\mathbf{j}}\)确定变换之后向量\(\mathscr{T}(\mathbf{v})\)的坐标,我们算一下,顺时针旋转\(90°\)\(\hat{\mathbf{i}}=(0,-1)\)\(\hat{\mathbf{j}}=(1,0)\),则有:

\[\mathscr{T}(\mathbf{v})=1\begin{bmatrix} 0\\ -1 \end{bmatrix}+2\begin{bmatrix} 1\\ 0 \end{bmatrix}=\begin{bmatrix} 2\\ -1 \end{bmatrix} \]

原来线性变换就是对原来的基线性变换后,得到的新的向量,用原来的坐标为系数的线性组合啊。线性组合不就是矩阵乘法吗(1.1),所以矩阵(乘法)就可以看作线性变换了。矩阵\(\mathbf{A}=\begin{bmatrix}0&1\\-1&0\end{bmatrix}\)乘以向量\(\mathbf{v}=(v_1,v_2)\)

\[\mathscr{T}(\mathbf{v})=\begin{bmatrix} 0 & 1\\ -1 & 0 \end{bmatrix}\begin{bmatrix} v_1\\ v_2 \end{bmatrix}= v_1\begin{bmatrix} 0\\ -1 \end{bmatrix}+v_2\begin{bmatrix} 1\\ 0 \end{bmatrix}=\begin{bmatrix} v_2\\ -v_1 \end{bmatrix} \]

正代表对向量\(\mathbf{v}\)顺时针旋转\(90°\),给定任意一个矩阵乘以向量相当于对这个向量进行一次线性变换

Subspaces

线性变换会把原来的一堆向量映射到新的空间,这个空间就是线性子空间(Linear Subspace)。原来的一堆向量构成的空间是向量空间(Vector Space),它是向量的集合,而且满足combination。空间内的向量相加和标乘仍然在这个空间里面。

线性子空间是某个向量空间一个子集,大部分时候,不会比原有向量空间维度小(但是绝对不可能大,所以就是一样了)。但有的时候,只能映射成一个过原点的平面,过原点的直线或者原点(以三维举例),之所以一定要过原点是因为线性子空间仍然要满足combination。如果线性变换导致子空间降维了,说明线性变换矩阵是奇异的,基经过变换之后的向量是线性相关的。

感悟:无论是18.06还是3b1b都在强调subspace,觉得蛮有道理的,之后理解一些概念尽量往子空间的角度去想了。