线性代数|特征值和特征向量

Posted by Derek on October 11, 2020

1. 不变子空间


算子(Operator),是从一个向量空间到其自身的线性映射. 为了更好地理解算子,我们设$T \in \mathcal{L}(V),$ 如果$V$有直和分解$V=U_1 \oplus \cdots \oplus U_m,$ 其中每个$U_j$都是$V$的真子空间(Proper subspace),那么为了理解$T$的性质,我们只需要理解每个$T|_{U_j}$的性质,在这里$T|_{U_j}$表示把$T$限制到更小的定义域$U_j$上. 但是$T|_{U_j}$可能不把$U_j$映射到自身,也就是说$T|_{U_j}$可能不是$U_j$上的算子. 因此我们需要考虑被算子映射到自身的子空间.

定义 1.1(不变子空间,Invariant subspace)    对于$T \in \mathcal{L}(V)$和$V$的子空间$U,$ 如果对每个$u \in U$都有$Tu \in U,$ 则称$U$在$T$下是不变的. 也就是说$T|_U$是$U$上的算子当且仅当$U$在$T$下是不变的.

我们先来看一维不变子空间. 对于任意的非零向量$\mathbf{v} \in V,$ 令$U$等于$\mathbf{v}$的标量倍之集: $$U=\lbrace \lambda\mathbf{v}: \lambda \in \mathbb{F} \rbrace=\text{span}(\mathbf{v})$$则$U$是$V$的一维子空间,并且$V$的每一个一维子空间都具有这种形式. 如果$U$在算子$T \in \mathcal{L}(V)$下是不变的,那么$T\mathbf{v} \in U,$ 并且存在一个标量$\lambda \in \mathbb{F}$使得$$T\mathbf{v}=\lambda\mathbf{v}$$ 反之,如果对于某些$\lambda \in \mathbb{F}$有$T\mathbf{v}=\lambda\mathbf{v},$ 那么$\text{span}(\mathbf{v})$在算子$T$下是$V$的不变子空间. 因为这一性质非常重要,所以我们需要给它们起一个特殊的名字.

定义 1.2(特征值,Eigenvalue)    对于$T \in \mathcal{L}(V)$和标量$\lambda \in \mathbb{F},$ 如果有非零向量$\mathbf{v} \in V$使得$T\mathbf{v}=\lambda\mathbf{v},$ 则称$\lambda$为$T$的特征值.
说明    上述表明$T$有一维不变子空间当且仅当$T$有特征值.

性质 1.3    $\lambda$是$T$的特征值当且仅当$T-\lambda I$不是单射的,或者$T-\lambda I$不可逆,或者$T-\lambda I$不是满射的.

定义 1.4(特征向量,Eigenvector)    设$T \in \mathbf{L}(V),$ 并且$\lambda \in \mathbb{F}$是$T$的特征值. 如果向量$\mathbf{v} \in V$满足$T\mathbf{v}=\lambda\mathbf{v},$ 则称$\mathbf{v}$是$T$的特征向量.
说明    $T$的相应于$\lambda$的特征向量集等于$\text{null}(T-\lambda I),$ 此集也是$V$的子空间.

定理 1.5    设$T \in \mathcal{L}(V), \lambda_1, \cdots, \lambda_m$是$T$的互不相同的特征值,$\mathbf{v}_1, \cdots, \mathbf{v}_m$是相应的非零特征向量,则$v_1, \cdots, v_m$线性无关.

推论 1.6    $V$上的每个算子最多有$\dim(V)$个互不相同的特征值.

2. 上三角矩阵


定理 2.1    有限维非零复向量空间上的每个算子都有特征值.

在以往的学习中,我们讨论过从一个向量空间到另一个向量空间的线性映射的矩阵,这个矩阵依赖于这两个向量空间基的选取. 如果我们要研究从一个向量空间到其自身的算子,那么有一个基就够了,此时的矩阵也将是方阵,而非以前考虑的更一般的长方形矩阵.

定义 2.2    设$T \in \mathcal{L}(V)$且$\mathbf{v}_1, \cdots, \mathbf{v}_n$是$V$的基. 我们称$T$关于基的矩阵为$$\mathcal{M}(T)=\left(\begin{matrix} a_{1, 1} & \cdots & a_{1, n} \\ \vdots & \ddots & \vdots \\ a_{n, 1} & \cdots & a_{n, n} \end{matrix}\right)$$ 其中$a_{j, k}$满足$$T\mathbf{v}_k=a_{1, k}\mathbf{v}_1+\cdots+a_{n, k}\mathbf{v}_n$$ 线性代数的一个中心目标就是要证明,给定一个算子$T \in \mathcal{L}(V),$ $V$有一个基使得$T$关于此基有“比较简单”的矩阵.

定义 2.3(对角线,Diagonal)    方阵的对角线由位于从左上角到右下角的直线上的元素组成.

定义 2.4(上三角矩阵,Upper triangular matrix)    一个矩阵称为上三角的,如果位于对角线下方的元素全为$0.$ 上三角矩阵具有如下的形式:$$\left(\begin{matrix} \lambda_1 & & * \\ & \ddots & \\ 0 & & \lambda_n \end{matrix} \right)$$ 说明    我们可以认为上三角矩阵是“比较简单”的,因为当$n$很大时,$n \times n$上三角矩阵有几乎一半的元素等于$0.$

下面的定理揭示了上三角矩阵与不变子空间之间的联系.

定理 2.5    设$T \in \mathcal{L}(V)$且$\mathbf{v}_1, \cdots, \mathbf{v}_n$是$V$的基,则下列等价:
(2.5.1)$T$关于基$\mathbf{v}_1, \cdots, \mathbf{v}_n$的矩阵是上三角的.
(2.5.2)$T\mathbf{v}_k \in \text{span}(\mathbf{v}_1, \cdots, \mathbf{v}_k), k=1, \cdots, n.$
(2.5.3)$\text{span}(\mathbf{v}_1, \cdots, \mathbf{v}_k)$在$T$下是不变的,$k=1, \cdots, n.$

我们也证明过:对于复向量空间上的每个算子,向量空间都有一个基使得算子关于此基的矩阵的对角线下方只有$0.$

定理 2.6    设$V$是复向量空间,$T \in \mathcal{L}(V),$ 则$T$关于$V$的某个基具有上三角矩阵.

定理 2.7    设$T \in \mathcal{L}(V)$关于$V$的某个基有上三角矩阵,则$T$可逆当且仅当这个上三角矩阵对角线上的元素都不是$0.$

定理 2.8    设$T \in \mathcal{L}(V)$关于$V$的某个基有上三角矩阵,则这个上三角矩阵对角线上的元素恰好是$T$的所有特征值.

3. 对角矩阵


定义 3.1(对角矩阵,Diagonal matrix)    对角矩阵是对角线以外的元素全是$0$的方阵.

定义 3.2(特征空间,Eigenspace)    设$T \in \mathcal{L}(V), \lambda \in \mathbb{F}.$ 我们称$T$相对应$\lambda$的特征空间为$$E(\lambda, T)=\text{null}(T-\lambda I)$$ 定理 3.3    设$T \in \mathcal{L}(V)$是有限维的,并且$\lambda_1, \cdots, \lambda_m$是$T$互不相同的特征值. 那么$$E(\lambda_1, T)+\cdots+E(\lambda_m, T)$$是一个直和,并且$$\dim(E(\lambda_1, T))+\cdots+\dim(E(\lambda_m, T)) \leq \dim(V)$$ 定义 3.4(可对角化,Diagonalizable)    算子$T \in \mathcal{L}(V)$被称为可对角化的如果$T$关于$V$的某个基有对角矩阵.

定理 3.5    设$T \in \mathcal{L}(V)$且$\lambda_1, \cdots, \lambda_m$是$T$的所有互不相同的特征值,则下列等价:
(3.5.1)$T$是可对角化的.
(3.5.2)$V$有一个由$T$的特征向量组成的基.
(3.5.3)$V$由在$T$下不变的一维子空间$U_1, \cdots, U_n$使得$$V=U_1 \oplus \cdots \oplus U_n$$ (3.5.4)$V=\text{null}(T-\lambda_1I) \oplus \cdots \oplus \text{null}(T-\lambda_mI).$
(3.5.5)$\dim(V)=\dim(\text{null}(T-\lambda_1I))+\cdots+\dim(\text{null}(T-\lambda_mI)).$

定理 3.6    如果$T \in \mathcal{L}(V)$有$\dim(V)$个互不相同的特征值,那么$T$是可对角化的.