[UCAS矩阵论]2.2矩阵范数

\[ \newcommand\norm[1]{\Vert#1\Vert} \]

矩阵范数

广义矩阵范数：与向量范数相同，满足 3 条性质：

非负性：\(\norm{A}\geq 0\) 且 \(\norm{A}=0\iff A=0\)
齐次性：\(\norm{kA}=|k|\norm{A},\,k\in K\)
三角不等式：\(\norm{A+B}\leq\norm{A}+\norm{B}\)

矩阵范数：在广义矩阵范数的基础上增加相容条件：

相容性：\(\norm{AB}\leq\norm{A}\norm{B}\)

对于涉及到矩阵范数的不等式放缩，一般就是考虑三角不等式和相容性。

相容范数

对 \(\mathbb C^{m\times n}\) 上的矩阵范数 \(\norm{A}_M\) 和 \(\mathbb C^m,\mathbb C^n\) 上的同类向量范数 \(\norm{x}_v\)，若： \[ \norm{Ax}_v\leq \norm{A}_M\norm{x}_v,\quad \forall A\in\mathbb C^{m\times n},\,\forall x\in\mathbb C^n \] 则称矩阵范数 \(\norm{A}_M\) 与向量范数 \(\norm{x}_v\) 是相容的。

简单地说，把矩阵视作线性映射，则相容范数表示，映射后的向量与原向量的长度的相对变化量被矩阵范数所控制。

\(m_1\) 范数

设 \(A\in\mathbb C^{m\times n}\)，矩阵的 \(m_1\) 范数与向量的 1-范数定义类似： \[ \norm{A}_{m_1}=\sum_{i=1}^m\sum_{j=1}^n|a_{ij}| \] 即所有元素的绝对值（模）之和。可以证明 \(m_1\) 范数是矩阵范数，并且与向量的 1-范数相容。

证明：非负性、齐次性和三角不等式与向量的 1-范数完全相同，必然成立，只需证明矩阵的相容性以及与向量 1-范数的相容性。

相容性： \[\begin{align}\norm{AB}_{m_1}&=\sum_{i=1}^m\sum_{j=1}^l\left|\sum_{k=1}^na_{ik}b_{kj}\right|\\&\leq\sum_{i=1}^m\sum_{j=1}^l\sum_{k=1}^n|a_{ik}||b_{kj}|\\&\leq\sum_{k=1}^n\left[\left(\sum_{i=1}^m|a_{ik}|\right)\left(\sum_{j=1}^l|b_{kj}|\right)\right]\\&\leq\left(\sum_{k=1}^n\sum_{i=1}^m|a_{ik}|\right)\left(\sum_{k=1}^n\sum_{j=1}^l|b_{kj}|\right)\\&=\norm{A}_{m_1}\norm{B}_{m_1}\end{align}\] 与向量的 1-范数相容： \[\begin{align}\norm{Ax}_1&=\sum_{i=1}^m\left|\sum_{j=1}^na_{ij}x_j\right|\\&\leq\sum_{i=1}^m\sum_{j=1}^n|a_{ij}||x_j|\\&\leq\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|\right)\left(\sum_{j=1}^n|x_j|\right)\\&=\norm{A}_{m_1}\norm{x}_1\end{align}\] 证毕。

\(m_\infty\) 范数

设 \(A\in\mathbb C^{m\times n}\)，矩阵的 \(m_\infty\) 范数与向量的无穷范数定义类似，但是要乘以 \(n\)，否则不满足相容性： \[ \norm{A}_{m_\infty}=n\cdot\max_{i,j}|a_{ij}| \] 可以证明 \(m_\infty\) 范数是矩阵范数，且与向量的无穷范数相容。

证明：相容性： \[\begin{align}\norm{AB}_{m_\infty}&=n\cdot\max_{i,j}\left|\sum_{k=1}^n a_{ik}b_{kj}\right|\\&\leq n\cdot\max_{i,j}\sum_{k=1}^n |a_{ik}||b_{kj}|\\&\leq n\cdot\max_{i,j}\left[n\cdot(\max_k |a_{ik}|)(\max_k |b_{kj}|)\right]\\&=\max_{i,j}\left[(n\cdot \max_k |a_{ik}|)(n\cdot\max_k |b_{kj}|)\right]\\&=(n\cdot \max_{i,k} |a_{ik}|)(n\cdot\max_{k,j} |b_{kj}|)\\&=\norm{A}_{m_\infty}\norm{B}_{m_\infty}\end{align}\] 与向量的无穷范数相容： \[\begin{align}\norm{Ax}_{\infty}&=\max_i\left|\sum_{j=1}^na_{ij}x_j\right|\\&\leq\max_i\sum_{j=1}^n|a_{ij}||x_j|\\&\leq\max_i\left[n\cdot(\max_j |a_{ij}|)(\max_j |x_j|)\right]\\&=n\cdot\max_{i,j}|a_{ij}|\cdot\max_j |x_j|\\&=\norm{A}_{m_\infty}\norm{x}_{\infty}\end{align}\] 证毕。

Frobenius 范数

设 \(A\in\mathbb C^{m\times n}\)，矩阵的 F-范数与向量的 2-范数定义类似： \[ \norm{A}_{F}=\norm{A}_{m_2}=\left(\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2\right)^{1/2}=\left(\text{tr}(A^HA)\right)^{1/2} \] 可以证明 F-范数是矩阵范数，并且与向量的 2-范数相容。

证明：相容性： \[\begin{align}\norm{AB}_F^2&=\sum_{i=1}^m\sum_{j=1}^l\left|\sum_{k=1}^na_{ik}b_{kj}\right|^2\\&\leq\sum_{i=1}^m\sum_{j=1}^l\left(\sum_{k=1}^n|a_{ik}||b_{kj}|\right)^2\\&\leq\sum_{i=1}^m\sum_{j=1}^l\left(\sum_{k=1}^n|a_{ik}|\right)^2\left(\sum_{k=1}^n|b_{kj}|\right)^2\\&\leq\left(\sum_{i=1}^m\sum_{k=1}^n|a_{ik}|\right)^2\left(\sum_{j=1}^l\sum_{k=1}^n|b_{kj}|\right)^2\\&=\norm{A}_F^2\norm{B}_F^2\end{align}\] 与向量的 2-范数相容： \[\begin{align}\norm{Ax}_2^2&=\sum_{i=1}^m\left|\sum_{j=1}^n a_{ij}x_j\right|^2\\&\leq\sum_{i=1}^m\left(\sum_{j=1}^n |a_{ij}||x_j|\right)^2\\&\leq\sum_{i=1}^m\left(\sum_{j=1}^n |a_{ij}|\right)^2\left(\sum_{j=1}^n|x_j|\right)^2\\&\leq\left(\sum_{i=1}^m\sum_{j=1}^n |a_{ij}|\right)^2\left(\sum_{j=1}^n|x_j|\right)^2\\&=\norm{A}_F^2\norm{x}_2^2\end{align}\] 证毕。

定理（Frobenius 范数的酉不变性）：设 \(A\in\mathbb C^{m\times n}\)，酉矩阵 \(P\in\mathbb C^{m\times n},\,Q\in\mathbb C^{n\times n}\)，则： \[ \norm{PA}_F=\norm{A}_F=\norm{AQ}_F \]

证明： \[\begin{align}&\norm{PA}_F^2=\text{tr}\left((PA)^H(PA)\right)=\text{tr}\left(A^HP^HPA\right)=\text{tr}\left(A^HA\right)=\norm{A}_F^2\\&\norm{AQ}_F^2=\text{tr}\left((AQ)^H(AQ)\right)=\text{tr}\left(Q^HA^HAQ\right)=\text{tr}\left(A^HQ^HQA\right)=\text{tr}\left(A^HA\right)=\norm{A}_F^2\end{align}\] 证毕。

注：用到了 \(\text{tr}(AB)=\text{tr}(BA)\).

推论：矩阵的 F-范数等于所有奇异值平方和开根，即： \[ \norm{A}_F=\left(\sigma_1^2+\cdots+\sigma_r^2\right)^{1/2} \]

根据奇异值分解和酉不变性易证。

性质：转置和共轭都不改变矩阵的 F-范数，即： \[ \norm{A}_F=\norm{A^T}_F=\norm{\bar A}_F=\norm{A^H}_F \]

定理：存在相容的向量范数

对于 \(\mathbb C^{m\times n}\) 上的矩阵范数 \(\norm{A}\)，存在向量范数 \(\norm{x}_v\)，使得 \(\norm{Ax}_v\leq\norm{A}\norm{x}_v\).

证明：任取非零向量 \(y\in\mathbb C^n\)，按如下方式构造向量范数即可： \[\norm{x}_v=\norm{xy^H}\] 首先由于它是由矩阵范数定义的，所以必然满足向量范数的 3 条性质，即确实是一个向量范数。

其次证明相容性： \[\norm{Ax}_v=\norm{Axy^H}\leq\norm{A}\norm{xy^H}=\norm{A}\norm{x}_v\] 证毕。

从属范数

定义

已知 \(\mathbb C^m\) 和 \(\mathbb C^n\) 上的同类向量范数 \(\norm{x}_v\)，设 \(A\in\mathbb C^{m\times n}\)，定义函数： \[ \norm{A}=\max_{\norm{x}_v=1}\norm{Ax}_v=\max_{x\neq 0}\frac{\norm{Ax}_v}{\norm{x}_v} \] 则 \(\norm{A}\) 是矩阵范数，且与 \(\norm{x}_v\) 相容。

证明：

非负性：若 \(A\neq0\)，则存在 \(x_0\) 满足 \(\norm{x_0}_v=1\) 且 \(Ax_0\neq 0\)，于是： \[\norm{A}\geq\norm{Ax_0}_v>0\] 若 \(A=0\)，则： \[\norm{A}=\max_{\norm{x}_v=1}\norm{Ax}_v=\max_{\norm{x}_v=1}\norm{0}_v=0\]
齐次性： \[\norm{kA}=\max_{\norm{x}_v=1}\norm{kAx}_v=k\cdot\max_{\norm{x}_v=1}\norm{Ax}_v=k\norm{A}\]
三角不等式： \[\begin{align}\norm{A+B}&=\max_{\norm{x}_v=1}\norm{(A+B)x}_v\leq\max_{\norm{x}_v=1}(\norm{Ax}_v+\norm{Bx}_v)\\&\leq\max_{\norm{x}_v=1}\norm{Ax}_v+\max_{\norm{x}_v=1}\norm{Bx}_v=\norm{A}+\norm{B}\\\end{align}\]
与 \(\norm{x}_v\) 的相容：若 \(x=0\) 显然成立；若 \(x\neq 0\)，设 \(x_0=x/\norm{x}_v\)，则： \[\norm{Ax_0}_v\leq\max_{\norm{x}_v=1}\norm{Ax}_v=\norm{A}\] 故： \[\norm{Ax}_v=\big\Vert{A(\norm{x}_v\cdot x_0)}\big\Vert=\norm{Ax_0}\norm{x}_v\leq\norm{A}\norm{x}_v\]
相容性： \[\norm{AB}=\max_{\norm{x}_v=1}\norm{ABx}_v=\norm{A(Bx^\ast)}_v\leq\norm{A}\norm{Bx^\ast}_v\leq\norm{A}\norm{B}\] 其中，\(x^\ast\) 是使得 \(\norm{ABx}_v\) 取到最大值的单位向量。

特点：从属范数一定有 \(\norm{I}=1\)，但一般的矩阵范数并不一定，例如 \(\norm{I}_{m_1}=n,\,\norm{I}_F=\sqrt{n}\).

1-范数（列范数）

由向量的 1-范数诱导出的矩阵范数： \[ \norm{A}_1=\max_{j}\sum_{i=1}^m|a_{ij}| \] 即对各列的元素求绝对值（模）的和，选最大的和。

证明：记 \(t=\max_{j}\sum_{i=1}^m|a_{ij}|\)，我们只需要证明 \(\norm{A}_1\leq t\) 且 \(\norm{A}_1\geq t\) 即可。

首先，设 \(x\in\mathbb C^n\) 且 \(\norm{x}_1=1\)，则： \[\begin{align}\norm{Ax}_1&=\sum_{i=1}^m\left|\sum_{j=1}^na_{ij}x_j\right|\\&\leq\sum_{i=1}^m\sum_{j=1}^n|a_{ij}||x_j|\\&=\sum_{j=1}^n\left(|x_j|\cdot\sum_{i=1}^m|a_{ij}|\right)\\&\leq\sum_{j=1}^n\left(|x_j|\cdot t\right)=t\cdot\norm{x}_1=t\end{align}\] 由于上式对任意长度为 1 的 \(x\) 都成立，因此 \(\norm{A}_1\leq t\).

其次，设 \(k=\mathop{\text{argmax }}_{j}\sum_{i=1}^m|a_{ij}|\)，即 \(t=\sum_{i=1}^m|a_{ik}|\)；再设 \(e_k=(0,\ldots,1,\ldots,0)^T\)，则： \[\norm{A}_1\geq\norm{Ae_k}_1=\sum_{i=1}^m|a_{ik}|=t\] 综上，\(\norm{A}_1=t\). 证毕。

无穷范数（行范数）

由向量的无穷范数诱导出的矩阵范数： \[ \norm{A}_\infty=\max_i\sum_{j=1}^n|a_{ij}| \] 即对各行的元素求绝对值（模）的和，选最大的和。

证明：记 \(t=\max_{i}\sum_{j=1}^n|a_{ij}|\)，我们只需要证明 \(\norm{A}_\infty\leq t\) 且 \(\norm{A}_\infty\geq t\) 即可。

首先，设 \(x\in\mathbb C^n\) 且 \(\norm{x}_\infty=1\)，则 \(|x_j|\leq 1\)，于是： \[\begin{align}\norm{Ax}_\infty&=\max_{i=1}^m\left|\sum_{j=1}^na_{ij}x_j\right|\\&\leq\max_{i=1}^m\sum_{j=1}^n|a_{ij}||x_j|\\&\leq\max_{i=1}^m\sum_{j=1}^n|a_{ij}|=t\end{align}\] 由于上式对任意长度为 1 的 \(x\) 都成立，因此 \(\norm{A}_\infty\leq t\).

其次，设 \(\mathbf1=(1,\ldots,1)^T\)，则： \[\norm{A}_\infty\geq\norm{A\mathbf1}_\infty=\max_{i=1}^m\sum_{j=1}^n|a_{ij}|=t\] 综上 \(\norm{A}_\infty=t\). 证毕。

2-范数（谱范数）

由向量的 2-范数诱导出的矩阵范数： \[ \norm{A}_2=\max_j\sqrt{\lambda_j(A^HA)}=\sigma_1 \] 即 \(A\) 的最大奇异值。

证明：设 \(A\) 的奇异值分解为 \(A=U\Sigma V^H\)，其中 \(U,V\) 都是酉矩阵。则： \[\begin{align}\norm{A}_2&=\max_{x\neq 0}\frac{\norm{Ax}_2}{\norm{x}_2}=\max_{x\neq 0}\frac{\norm{U\Sigma V^Hx}_2}{\norm{x}_2}=\max_{x\neq 0}\frac{\norm{\Sigma V^Hx}_2}{\norm{V^Hx}_2}\\&=\max_{y\neq 0}\frac{\norm{\Sigma y}_2}{\norm{y}_2}=\max_{\norm{y}_2=1}\norm{\Sigma y}_2=\max_{\norm{y}_2=1}\left(\sum_{i=1}^ny_i^2\sigma_i^2\right)^{1/2}\end{align}\] 显然当 \(y=(1,0,\ldots,0)^T\) 时上式取到最大值 \(\sigma_1\). 证毕。

定理（谱范数的酉不变性）：设 \(A\in\mathbb C^{m\times n}\)，酉矩阵 \(P\in\mathbb C^{m\times n},\,Q\in\mathbb C^{n\times n}\)，则： \[ \norm{PA}_2=\norm{A}_2=\norm{AQ}_2 \]

由于酉变换不改变矩阵的奇异值，因此谱范数是酉不变范数。

范数的应用

逆矩阵的扰动分析

定理：设有 \(\mathbb C^{n\times n}\) 上的矩阵范数 \(\norm\cdot\)，若矩阵 \(A\in\mathbb C^{n\times n}\) 满足： \[ \norm{A}<1 \] 则 \(I-A\) 非奇异，且： \[ \begin{align} &\norm{(I-A)^{-1}}\leq\frac{\norm{I}}{1-\norm{A}}\\ &\norm{I-(I-A)^{-1}}\leq\frac{\norm{A}}{1-\norm{A}} \end{align} \]

证明：

(1). 选取与 \(\norm{A}\) 相容的向量范数 \(\norm{x}_v\)（根据前文的定理，一定存在这样的向量范数）。假设 \(\det(I-A)=0\)，则取 \(x_0\in N(I-A)\)，有： \[(I-A)x_0=0\implies x_0=Ax_0\implies\norm{x_0}_v=\norm{Ax_0}_v\leq\norm{A}\norm{x_0}_v<\norm{x_0}_v\] 因此假设不成立，故 \(I-A\) 非奇异。

(2). \[\begin{align}(I-A)^{-1}(I-A)=I&\implies(I-A)^{-1}=I+(I-A)^{-1}A\\&\implies\norm{(I-A)^{-1}}\leq\norm{I}+\norm{(I-A)^{-1}A}\\&\implies\norm{(I-A)^{-1}}\leq\norm{I}+\norm{(I-A)^{-1}}\norm{A}\\&\implies\norm{(I-A)^{-1}}\leq\frac{\norm{I}}{1-\norm{A}}\\\end{align}\] (3). \[\begin{align}(I-A)-I=-A&\implies I-(I-A)^{-1}=-A(I-A)^{-1}\\&\implies A-A(I-A)^{-1}=-A^2(I-A)^{-1}\\&\implies A(I-A)^{-1}=A+A^2(I-A)^{-1}\\&\implies\norm{A(I-A)^{-1}}\leq\norm{A}+\norm{A}\norm{A(I-A)^{-1}}\\&\implies\norm{A(I-A)^{-1}}\leq\frac{\norm{A}}{1-\norm{A}}\\&\implies\norm{I-(I-A)^{-1}}=\norm{-A(I-A)^{-1}}\leq\frac{\norm{A}}{1-\norm{A}}\end{align}\] 证毕。

注：(2)、(3) 的证明思路可以从后往前推。

条件数：设 \(A\in\mathbb C^{n\times n}\) 可逆，其条件数定义为： \[ \text{cond}(A)=\norm{A}\norm{A^{-1}} \] 条件数反映了 \(A^{-1}\) 对扰动的敏感程度。例如，设有线性方程组 \(Ax=b\)，其扰动解满足： \[ (A+\delta A)(x+\delta x)=b+\delta b \] 那么： \[ Ax+\delta A\cdot x+A\cdot \delta x+\delta A\cdot \delta x=b+\delta b\implies \delta A\cdot x+A\cdot \delta x\approx\delta b \] 故： \[ \delta x=A^{-1}\delta b-A^{-1}\delta A\cdot x \] 两边取范数并放大： \[ \begin{align} \norm{\delta x}&=\norm{A^{-1}\delta b-A^{-1}\delta A\cdot x}\\ &\leq\norm{A^{-1}\delta b}+\norm{A^{-1}\delta A\cdot x}\\ &\leq\norm{A^{-1}}\norm{\delta b}+\norm{A^{-1}}\norm{\delta A}\norm{x} \end{align} \] 再根据 \(\norm{A}\norm{x}\geq\norm{b}\)，于是： \[ \begin{align} \frac{\norm{\delta x}}{\norm{x}}&\leq\frac{\norm{A^{-1}}\norm{\delta b}}{\norm{x}}+\norm{A^{-1}}\norm{\delta A}\\ &\leq\norm{A}\norm{A^{-1}}\frac{\norm{\delta b}}{\norm{b}}+\norm{A}\norm{A^{-1}}\frac{\norm{\delta A}}{\norm{A}}\\ &=\text{cond}(A)\left(\frac{\norm{\delta b}}{\norm{b}}+\frac{\norm{\delta A}}{\norm{A}}\right) \end{align} \] 也就是说，解的相对扰动被输入 \(A,b\) 的相对扰动和条件数控制。如果 \(A\) 的条件数很大，那么解的误差就会很大。

谱半径及其性质

谱半径：设 \(A\in\mathbb C^{n\times n}\) 的特征值为 \(\lambda_1,\ldots,\lambda_n\)，则谱半径定义为： \[ \rho(A)=\max_i|\lambda_i| \] 谱半径是矩阵范数的下确界：设 \(A\in\mathbb C^{n\times n}\)，则对任意一种矩阵范数都有： \[ \rho(A)\leq\norm{A} \] 而对任意 \(\epsilon>0\)，必然存在某种矩阵范数，使得： \[ \norm{A}\leq \rho(A)+\epsilon \]

证明：

首先证明第一个关系式。设 \(\lambda\) 为 \(A\) 的特征值，\(x\) 为对应特征向量，\(\norm{\cdot}_v\) 为与 \(\norm{A}\) 相容的向量范数，则： \[|\lambda|\norm{x}_v=\norm{\lambda x}_v=\norm{Ax}_v\leq\norm{A}\norm{x}_v\implies |\lambda|\leq\norm{A}\] 于是： \[\rho(A)=\max_i|\lambda_i|\leq\norm{A}\] 然后证明第二个关系式。将 \(A\) 相似变换为 Jordan 标准形，即存在 \(P\in\mathbb C^{n\times n}\)，使得： \[P^{-1}AP=\Lambda+\tilde I=\text{diag}(\lambda_1,\ldots,\lambda_n)+\begin{bmatrix}0&\delta_1&&&\\&0&\delta_2&&\\&&\ddots&\ddots&\\&&&0&\delta_{n-1}\\&&&&0\end{bmatrix}\] 其中 \(\delta_i\) 为 0 或 1. 构造对角矩阵 \(D=\text{diag}(1,\epsilon,\ldots,\epsilon^{n-1})\)，设 \(S=PD\)，则： \[S^{-1}AS=D^{-1}P^{-1}APD=D^{-1}(\Lambda+\tilde I)D=\Lambda+D^{-1}\tilde ID=\Lambda+\epsilon\tilde I\] 于是： \[\norm{S^{-1}AS}_1\leq\norm{\Lambda}_1+\epsilon\norm{\tilde I}_1\leq\rho(A)+\epsilon\] 因此，构造矩阵范数： \[\norm{A}_M=\norm{S^{-1}AS}_1\] 即可满足 \(\norm{A}_M\leq\rho(A)+\epsilon\). 证毕。

值得注意的是，上述构造的范数与矩阵 \(A\) 有关，实际上不存在这样的矩阵范数对任意矩阵都成立。

上述关系也可以表述为： \[ \rho(A)=\inf_\alpha\norm{A}_\alpha \] 可视化：

课程书籍笔记 > UCAS 矩阵论

#linear algebra

[UCAS矩阵论]2.2矩阵范数

https://xyfjason.github.io/blog-main/2023/11/05/UCAS矩阵论-2-2矩阵范数/

作者

xyfJASON

发布于

2023年11月5日

许可协议

[UCAS矩阵论]3.1矩阵序列与矩阵级数上一篇

[模式分类]非参数方法下一篇