#Math285
核心思想: 将微分问题转化为积分问题。
考虑一阶 IVP:
$$ y’ = f(t, y), \quad y(t_0) = y_0
$$ 其中 $f: D \to \mathbb{R}$ 是定义在开集 $D \subseteq \mathbb{R}^2$ 上的连续函数, $(t_0, y_0) \in D$。 如果函数 $\phi: I \to \mathbb{R}$ 是这个 IVP 的解,并且其图像 $G_\phi = {(t, \phi(t)); t \in I}$ 包含在 $D$ 内,那么对 $\phi’(s) = f(s, \phi(s))$ 两边从 $t_0$ 到 $t$ 积分,可以得到等价的积分方程 (Integral Equation, IE):
$$
1
\phi(t) = y_0 + \int_{t_0}^t f(s, \phi(s)) ds \quad \forall t \in I \quad \text{(IE)}
$$
反之,满足此积分方程且图像在 $D$ 内的连续函数 $\phi(t)$ (根据微积分基本定理,如果 $f$ 连续,$\phi(t)$ 必可微) 也必然满足 $y’ = f(t, y)$ 和 $y(t_0) = y_0$。
1. 含义 (Meaning): 什么是算子 T?
抽象化右侧操作: 算子 $T$ 的定义就是将积分方程的右侧抽象出来,看作一个对函数进行的操作。具体来说:
$$ (T\psi)(t) = y_0 + \int_{t_0}^t f(s, \psi(s)) ds
$$
1
2
3
这里的 $T$ 是一个**映射 (Map)** 或者说**变换 (Transformation)**。它的特殊之处在于:
* 它的**输入 (Input)** 不是一个数字或向量,而是一个**函数** $\psi$ (这个函数需要是定义在某个包含 $t_0$ 的区间 $I$ 上的连续函数,并且其图像要落在 $f$ 的定义域 $D$ 内)。
* 它的**输出 (Output)** 也是一个**函数** $(T\psi)$ (这个新函数也是定义在 $t$ 上的)。
2. 目的 (Purpose): 为什么要引入算子 T?
引入算子 $T$ 的主要目的有以下几点:
$$ \phi = T\phi
$$
1
这立刻就揭示了问题的本质:**我们寻找的解 $\phi$ 正是算子 $T$ 的一个不动点 (Fixed Point)**。不动点的意思就是,经过 $T$ 这个变换之后,它保持不变。
利用强大的不动点理论: 数学中,关于不动点 (Fixed Point) 的存在性、唯一性以及如何找到它们,已经有非常成熟和强大的理论,其中最核心的就是巴拿赫不动点定理 (Banach’s Fixed-Point Theorem),也叫压缩映射原理 (Contraction Mapping Principle)。这个定理告诉我们,如果在一个合适的函数空间 (Function Space) (具体来说是一个完备度量空间 Complete Metric Space) 中,算子 $T$ 满足压缩 (Contraction) 条件(即它能把任意两个函数之间的“距离”缩小一个固定的比例),那么 $T$ 就一定存在且仅存在一个不动点。
总结:
引入算子 $T$ 的目的是将求解微分方程初值问题这个看似复杂的问题,转化为一个在函数空间中寻找不动点的抽象问题。这样做的好处是:
核心思想: 将高阶问题转化为一阶向量问题。
考虑 $n$ 阶常微分方程:
$$ y^{(n)} = f(t, y, y’, \dots, y^{(n-1)})
$$ 初始条件为 $y(t_0) = y_0, y’(t_0) = y_1, \dots, y^{(n-1)}(t_0) = y_{n-1}$。 其中 $f: D \to \mathbb{R}$ 是定义在开集 $D \subseteq \mathbb{R}^{n+1}$ 上的连续函数, $(t_0, y_0, \dots, y_{n-1}) \in D$。
$$
1
\mathbf{y}(t) = \begin{pmatrix} y(t) \\\ y'(t) \\\ \vdots \\\ y^{(n-1)}(t) \end{pmatrix} = \begin{pmatrix} y_0(t) \\\ y_1(t) \\\ \vdots \\\ y_{n-1}(t) \end{pmatrix}
$$
1
(这里用 $y_0, y_1, ...$ 表示向量的分量函数,不要与初始值混淆)。
一阶系统: 对 $\mathbf{y}(t)$ 求导,我们得到:
$$ \mathbf{y}’(t) = \begin{pmatrix} y’(t) \\ y’‘(t) \\ \vdots \\ y^{(n)}(t) \end{pmatrix} = \begin{pmatrix} y_1(t) \\ y_2(t) \\ \vdots \\ f(t, y_0(t), y_1(t), \dots, y_{n-1}(t)) \end{pmatrix}
$$
1
令
$$ \mathbf{f}(t, \mathbf{y}) = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_{n-1} \\ f(t, y_0, y_1, \dots, y_{n-1}) \end{pmatrix}
$$
1
2
3
4
(注意 $\mathbf{f}$ 的定义,它的前 $n-1$ 个分量直接取自输入向量 $\mathbf{y}$ 的第 2 到第 $n$ 个分量,最后一个分量才是由原方程的 $f$ 给出)。
这样,原 $n$ 阶方程就等价于以下的一阶**向量形式 (vectorial form)** 的 ODE 系统:
\$\$
\mathbf{y}' = \mathbf{f}(t, \mathbf{y})
$$ 初始条件为 $\mathbf{y}(t_0) = \mathbf{y}^0 = (y_0, y_1, \dots, y_{n-1})^T$。
结论: 通过这种降阶方法,任何 $n$ 阶 ODE 的 IVP 都可以转化为一个一阶 ODE 系统的 IVP。因此,我们只需要研究一阶系统 (包括向量形式) 的解的存在唯一性就足够了。同样地,向量形式的 IVP $\mathbf{y}’ = \mathbf{f}(t, \mathbf{y}), \mathbf{y}(t_0) = \mathbf{y}^0$ 也可以写成积分方程形式 $\mathbf{y}(t) = \mathbf{y}^0 + \int_{t_0}^t \mathbf{f}(s, \mathbf{y}(s)) ds$,其解也是对应向量算子 $(T\boldsymbol{\phi})(t) = \mathbf{y}^0 + \int_{t_0}^t \mathbf{f}(s, \boldsymbol{\phi}(s)) ds$ 的不动点。
例子: 对于 $y’’ + y = 0$,令 $y_0 = y, y_1 = y’$。则 $y_0’ = y_1$,$y_1’ = y’’ = -y = -y_0$。 写成向量形式 $\mathbf{y} = \begin{pmatrix} y_0 \\ y_1 \end{pmatrix}$,则
$$
1
\mathbf{y}' = \begin{pmatrix} y_0' \\\ y_1' \end{pmatrix} = \begin{pmatrix} y_1 \\\ -y_0 \end{pmatrix} = \mathbf{f}(t, \mathbf{y})
$$
1
这里 $\mathbf{f}(t, \mathbf{y}) = \begin{pmatrix} y_1 \\\ -y_0 \end{pmatrix}$。
| 收缩条件 (Contraction Condition): 如果我们不知道根是否存在,可以考虑差分 $x_{n+1} - x_n = T(x_n) - T(x_{n-1}) = T’(\xi_n) (x_n - x_{n-1})$。如果能保证在某个区间内 $ | T’(x) | \le C < 1$ (即 $T$ 是一个压缩映射 (Contraction Mapping)),并且迭代值 $x_n$ 始终落在这个区间内,那么可以证明 $ | x_{n+1} - x_n | \le C^n | x_1 - x_0 | $。这表明 $(x_n)$ 是一个柯西序列 (Cauchy Sequence)。 |
| 柯西序列: 一个序列 $(a_n)$ 是柯西序列,如果对于任意小的 $\epsilon > 0$,当 $m, n$ 足够大时,都有 $ | a_m - a_n | < \epsilon$。直观地说,序列的尾部项都挤在一起了。 |
| 利用柯西序列和 $\mathbb{R}$ 的完备性,可以证明只要满足 $ | T’(x) | \le C < 1$ 且迭代序列有界,该序列必定收敛到一个根。 |
| $\mathbb{R}^n$ 上的欧氏距离 (Euclidean Distance) $d_E(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}$。包括 $\mathbb{R}$ 上的 $ | x-y | $ 和 $\mathbb{C}$ 上的 $ | z-w | $。 |
| $\mathbb{R}^n$ 上的 $d_1$ (曼哈顿距离 Manhattan Distance) $d_1(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^n | x_i - y_i | $ 和 $d_\infty$ (最大距离 Max Distance / Chebyshev Distance) $d_\infty(\mathbf{x}, \mathbf{y}) = \max_{1 \le i \le n} | x_i - y_i | $。 |
| $l^2$ 空间 (Hilbert Cube): 无穷复数序列 $(a_n)$ 且 $\sum | a_n | ^2 < \infty$,距离 $d((a_n), (b_n)) = \sqrt{\sum | a_n - b_n | ^2}$。 |
| 连续函数空间 (Space of Continuous Functions) $C([a,b])$: 定义在闭区间 $[a,b]$ 上的所有连续实函数,配备一致收敛度量 (Metric of Uniform Convergence) $d_\infty(f, g) = \max_{x \in [a,b]} | f(x) - g(x) | $。收敛性 $d_\infty(f_n, f) \to 0$ 等价于 $f_n$ 一致收敛 (Uniformly Converges) 到 $f$。 |
完备度量空间 (Complete Metric Spaces) (Slides 40-48):
柯西序列 (Cauchy Sequence) 在度量空间中的定义: $\forall \epsilon > 0, \exists N$ s.t. $m, n > N \implies d(a_m, a_n) < \epsilon$。
完备性 (Completeness): 一个度量空间 $(M, d)$ 称为完备的 (Complete),如果其中每一个柯西序列都收敛到 $M$ 中的一个点。
例子: $\mathbb{R}^n$ (及 $\mathbb{R}, \mathbb{C}$) 在欧氏度量下是完备的。$C([a,b])$ 在 $d_\infty$ 度量下是完备的 (这是分析学中的重要定理:一致收敛的连续函数序列的极限函数也是连续的)。离散度量空间总是完备的。
反例: $\mathbb{Q}$ (有理数集) 在通常度量下不完备。开区间 $(0, 1)$ 在通常度量下不完备 (序列 $1/n$ 是柯西的但极限 $0$ 不在区间内)。
重要性质: 度量空间 $(M,d)$ 的子空间 $(M’, d)$ 是完备的当且仅当 $M’$ 是 $M$ 中的闭集 (Closed Set) (如果 $M$ 本身是完备的)。
正式定义 (Formal Definition):
一个度量空间 $(X, d)$ 被称为 完备的 (Complete),如果 $X$ 中的 每一个柯西序列 (Cauchy Sequence) 都 收敛 (Converge) 到 $X$ 中的一个点。
要理解这个定义,我们需要拆解两个关键概念:
如何判断一个度量空间 $(X, d)$ 是否完备?
判断方法主要有两种思路:证明它是完备的,或者证明它不是完备的。
A. 证明 $(X, d)$ 是完备的 (Proving Completeness):
| 例子: 实数空间 $\mathbb{R}$ 配备标准度量 $d(x,y)= | x-y | $ 是完备的。闭区间 $[0, 1]$ 是 $\mathbb{R}$ 的一个闭子集,因此 $[0, 1]$ 也是完备的。 |
B. 证明 $(X, d)$ 不是完备的 (Disproving Completeness):
经典例子:
| 实数空间 $\mathbb{R}$ 和复数空间 $\mathbb{C}$,使用标准度量 $d(x,y)= | x-y | $。这是分析学的基础。 |
| 巴拿赫空间 (Banach Space): 定义为完备的赋范向量空间 (Normed Vector Space)。例如,闭区间 $[a, b]$ 上的连续函数空间 $C([a, b])$ 配备上确界范数 (Supremum Norm) $|f|\infty = \sup{x \in [a,b]} | f(x) | $,其诱导的度量 $d(f, g) = |f-g|_\infty$ 是完备的。 |
| 有理数空间 $\mathbb{Q}$,使用标准度量 $d(x,y)= | x-y | $。 |
| $C([a, b])$ 配备 L1 范数 (L1 Norm) $|f|_1 = \int_a^b | f(x) | dx$ 所诱导的度量 $d_1(f, g) = \int_a^b | f(x)-g(x) | dx$。 |
好的,我们来详细梳理一下 Slides 中提到的关于度量空间 (Metric Spaces) 的一些具体的正例 (Examples) 和反例 (Counterexamples),并解释它们各自说明了什么重要概念或特性。
A. 标准且重要的度量空间实例
| 描述: 集合是 $n$ 维实向量空间 $\mathbb{R}^n$,距离是标准的欧氏距离 $d_E(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}$。 $\mathbb{R}$ (配 $ | x-y | $) 和 $\mathbb{C}$ (配 $ | z-w | $) 是其 $n=1$ 和 $n=2$ 的特例。 |
| $d_1(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^n | x_i - y_i | $ (曼哈顿距离) |
| $d_\infty(\mathbf{x}, \mathbf{y}) = \max_{1 \le i \le n} | x_i - y_i | $ (最大距离/切比雪夫距离) |
| 描述: 集合是定义在闭区间 $[a,b]$ 上的所有连续实函数,距离是 $d_\infty(f, g) = \max_{x \in [a,b]} | f(x) - g(x) | $ (一致收敛度量)。 |
| 描述: 集合是所有复数 (或实数) 无穷序列 $(a_n){n=0}^\infty$ 满足 $\sum{n=0}^\infty | a_n | ^2 < \infty$ (平方和收敛),距离是 $d((a_n), (b_n)) = \sqrt{\sum_{n=0}^\infty | a_n - b_n | ^2}$。 |
| 反例性质: 波尔查诺 - 魏尔斯特拉斯定理在此失效。例如,考虑序列 $e_k = (0, \dots, 0, 1, 0, \dots)$ (第 $k$ 个位置为 1,其余为 0)。这个序列是有界的 (所有点到零向量的距离都是 1),但它没有任何收敛的子序列,因为任意两个不同的项 $e_k, e_j$ 之间的距离都是 $\sqrt{1^2+(-1)^2} = \sqrt{2}$ (如果是实数序列) 或 $\sqrt{1^2+1^2}=\sqrt{2}$ (如果是复数序列, 距离是 $\sqrt{\sum | a_n-b_n | ^2}$),距离不趋于 0。这表明有界性在无限维空间中不一定能保证序列紧致性。 |
B. 说明特定概念的反例 (Counterexamples) / 特殊情况
| 有界但不完备的例子: 考虑在 $\mathbb{R}$ 上定义度量 $d(x, y) = | \arctan(x) - \arctan(y) | $ (这等价于幻灯片中提到的 $d(x,y) = d_E(x/(1+ | x | ), y/(1+ | y | ))$ 的变种)。这个度量空间是有界的 (任意两点距离小于 $\pi$),它诱导的拓扑与 $\mathbb{R}$ 相同,但它不完备。例如,序列 $a_n = n$ 在这个度量下是柯西序列 (因为 $\arctan(n) \to \pi/2$),但它在 $\mathbb{R}$ 中不收敛 (没有极限点)。这说明完备性不是一个纯粹的拓扑性质,它依赖于度量本身。 |
压缩映射 (Contraction Mapping) (Slide 49):
设 $(M, d)$ 是度量空间,映射 $T: M \to M$ 称为一个压缩映射,如果存在一个常数 $C$ 满足 $0 \le C < 1$,使得对于所有 $x, y \in M$,都有:
$$ d(T(x), T(y)) \le C \cdot d(x, y)
$$
1
2
常数 $C$ 称为**压缩常数 (Contraction Constant)**。
压缩映射会使得任意两点在映射后的距离**严格**缩小 (按比例 $C$)。
检验关键点
对于定义在单一区间上的一维连续函数,我们只需要验证:
$$ d(x_n, x^*) \le \frac{C^n}{1-C} d(x_1, x_0) \quad (\text{先验估计, a priori estimate})
$$ $$ d(x_n, x^*) \le \frac{C}{1-C} d(x_n, x_{n-1}) \quad (\text{后验估计, a posteriori estimate}) $$
矩阵范数是向量范数 (Vector Norm) 概念到矩阵上的推广。我们不仅想衡量向量的大小,也想衡量矩阵的“大小”或其作为线性变换的“强度”。
| 齐次性 (Homogeneity / Absolutely Scalable): $|\alpha A| = | \alpha | |A|$ |
这些与向量范数的定义完全相同。但对于方阵 (Square Matrices) ($m=n$),通常还需要一个额外的、非常重要的性质:
$$
1
\|A\| = \sup_{\mathbf{x} \ne \mathbf{0}} \frac{\|A\mathbf{x}\|_v}{\|\mathbf{x}\|_v} = \sup_{\|\mathbf{x}\|_v = 1} \|A\mathbf{x}\|_v
$$
1
2
* **几何意义:** $\|A\|$ 表示线性变换 $A$ 能将单位向量 (在 $\|\cdot\|_v$ 意义下) 拉伸的最大倍数。
* **重要性质:** 由向量范数诱导出的矩阵范数**自动满足**次可乘性 (如果作用空间和目标空间的向量范数相同,对于方阵来说)。并且,它们还满足与向量范数的**相容性 (Compatibility):** $\|A\mathbf{x}\|_v \le \|A\| \|\mathbf{x}\|_v$。
列和范数 / 1- 范数 ($p=1$): 由向量 $l_1$- 范数诱导。
$$ |A|_1 = \max_{1 \le j \le n} \sum_{i=1}^n |a_{ij}| \quad (\text{最大列绝对值和 Max column sum})
$$
1
2. **谱范数 / 2- 范数 ($p=2$):** 由向量 $l_2$- 范数 (欧氏范数) 诱导。
$$ |A|2 = \sqrt{\lambda{\max}(A^*A)} = \sigma_{\max}(A) \quad (\text{A 的最大奇异值 Max singular value})
$$
1
2
3
4
其中 $A^*$ 是 $A$ 的共轭转置 (对实矩阵即为转置 $A^T$),$\lambda_{\max}$ 表示最大特征值。
3. **行和范数 / $\infty$-范数 ($p=\infty$):** 由向量 $l_\infty$-范数 (最大范数) 诱导。
\$\$
\|A\|\_\infty = \max\_{1 \le i \le n} \sum\_{j=1}^n |a\_{ij}| \quad \(\text{最大行绝对值和 Max row sum})
$$
$$
1
\|A\|\_F = \sqrt{\sum\_{i=1}^m \sum\_{j=1}^n |a\_{ij}|^2} = \sqrt{\text{trace}\(A^\*A)}
$$
1
* **特点:** 它就像把 $m \times n$ 矩阵看成 $mn$ 维向量后的欧氏范数。计算简单。它满足次可乘性,但它**不是**由任何向量 $l_p$-范数诱导产生的 (除了 $n=1$ 或 $m=1$ 的平凡情况)。
范数的等价性 (Equivalence of Norms):
在有限维空间 (如 $\mathbb{K}^{m \times n}$) 中,任意两种范数都是等价的 (Equivalent)。这意味着如果一个矩阵序列在一范数下收敛到零,那么它在任何其他范数下也收敛到零。这在理论分析中很有用。但需要注意,不同范数的值可能相差很大,等价性常数可能影响实际计算中的收敛速度或稳定性界限。
与巴拿赫不动点定理的联系 (潜在的):
考虑线性迭代 $x_{k+1} = Ax_k + c$。这个迭代收敛到不动点 $x^* = (I-A)^{-1}c$ 的一个充分条件是 $|A| < 1$,其中 $|\cdot|$ 是某个满足次可乘性的矩阵范数。
1. 谱半径 (Spectral Radius) - $\rho(A)$
定义 (Definition):
对于一个方阵 (Square Matrix) $A \in \mathbb{C}^{n \times n}$ (或 $\mathbb{R}^{n \times n}$),它的谱半径 (Spectral Radius) 定义为其所有特征值 (Eigenvalues) $\lambda_1, \lambda_2, \dots, \lambda_n$ 的绝对值 (Absolute Value / Modulus) 中的最大值。
$$ \rho(A) = \max { |\lambda_1|, |\lambda_2|, \dots, |\lambda_n| } = \max_{\lambda \in \sigma(A)} |\lambda|
$$
1
2
其中 $\sigma(A)$ 是 $A$ 的特征值集合 (谱)。
* ***技术比喻:*** 想象所有特征值在复平面上的点,谱半径就是这些点到原点距离的最大值,也就是包含所有特征值的最小圆盘的半径。
计算 (Calculation):
需要先计算出矩阵 $A$ 的所有特征值 (解特征方程 $\det(A - \lambda I) = 0$),然后取这些特征值绝对值的最大者。
| $\rho(\alpha A) = | \alpha | \rho(A)$ 对任意标量 $\alpha$。 |
2. 谱范数 (Spectral Norm) - $|A|_2$
$$ |A|2 = \sup{\mathbf{x} \ne \mathbf{0}} \frac{|A\mathbf{x}|2}{|\mathbf{x}|_2} = \sup{|\mathbf{x}|_2 = 1} |A\mathbf{x}|_2
$$
1
* ***技术比喻:*** 它衡量了线性变换 $A$ 对向量的欧氏长度的最大“拉伸”因子。
计算 (Calculation):
谱范数等于矩阵 $A$ 的最大奇异值 (Largest Singular Value) $\sigma_{\max}(A)$。奇异值 $\sigma_i(A)$ 是矩阵 $A^A$ (或 $AA^$) 特征值的非负平方根 (其中 $A^*$ 是 $A$ 的共轭转置,对实矩阵即为转置 $A^T$)。
$$ |A|2 = \sigma{\max}(A) = \sqrt{\lambda_{\max}(A^*A)}
$$
1
其中 $\lambda_{\max}(A^*A)$ 是半正定矩阵 $A^*A$ 的最大特征值。
总结对比 (Summary Comparison):
| 特性 (Feature) | 谱半径 (Spectral Radius) $\rho(A)$ | 谱范数 (Spectral Norm) $|A|_2$ | ||
|---|---|---|---|---|
| 定义基于 (Based on) | 特征值 (Eigenvalues) | 奇异值 (Singular Values) / $l_2$-norm 诱导 | ||
| 定义域 (Applies to) | 方阵 (Square matrices) $A \in \mathbb{K}^{n \times n}$ | 任意矩阵 (Any matrix) $A \in \mathbb{K}^{m \times n}$ | ||
| 是否范数 (Is a Norm?) | 否 (No) | 是 (Yes) | ||
| 关键关系 (Relation) | $\rho(A) \le |A|_2$ (一般) | $|A|_2 = \rho(A)$ 当 $A$ 是正规矩阵时 | ||
| 主要用途 (Main Use) | 迭代收敛性 ($A^k \to 0 \iff \rho(A) < 1$) | 最大拉伸因子, 条件数, SVD, 提供收敛的充分条件 ($|A|_2 < 1$) |