Computing the Matrix Exponential
#Math285
引言与基本概念 (Introduction and Basic Concepts)
1. 系统定义 (System Definition) (Slide 4)
-
核心方程 (Core Equation):
我们主要研究的是一阶线性常微分方程组 (First-Order Linear ODE Systems)。其一般形式为:
其中: 是一个包含 个未知函数的向量。 是这些函数的导数向量。 是一个 的常系数矩阵 (coefficient matrix)。 是一个 的向量函数,称为非齐次项 (inhomogeneous term) 或源项 (source term)。
-
自治系统 (Autonomous System): 如果矩阵
和向量 都不显式地依赖于时间 (即 和 都是常数),则系统称为自治系统。 -
齐次系统 (Homogeneous System): 如果
,则系统为齐次系统: 。 -
非齐次系统 (Inhomogeneous/Non-homogeneous System): 如果
,则系统为非齐次系统。
2. 学习动机与实例 (Motivation and Examples) (Slides 5-8)
-
物理系统建模 (Modeling Physical Systems):
-
弹簧-质量系统 (Spring-Mass Systems): 这类系统通常由二阶微分方程描述。例如,Slide 5 中的一个双质量块、三弹簧系统:
通过引入新的变量来降阶 (order reduction)。令 。 则原二阶 系统可以转换为一个一阶 系统 : 这展示了将高阶标量 ODE 或高阶 ODE 系统转化为一阶 ODE 系统的重要性。 -
LRC 电路 (LRC Electric Circuits) (Slide 7, 8 (Figure 7.1.2)): 例如,一个并联 LRC 电路中,电流
和电压 的关系可以用一个一阶齐次线性系统描述: 可以写成矩阵形式:
-
基础理论回顾 (Review of Fundamental Theory)
初值问题 (Initial Value Problem - IVP)
- 对于系统
和初始条件 :-
存在唯一解 (Existence and Uniqueness): 如果
的所有分量函数在包含 的区间上连续,则 IVP 在该区间上有唯一的最大解。 - 如果
(常数向量,自治系统),则解在整个实数轴 上定义。
-
存在唯一解 (Existence and Uniqueness): 如果
齐次系统的解结构 (Solution Structure of Homogeneous Systems)
- 对于齐次系统
:-
解空间 (Solution Space): 所有的解构成一个
维向量空间。这个空间是所有从 到 的映射构成的函数空间 的一个子空间 。 - 这意味着如果
是 个线性无关的解,那么任何解都可以表示为它们的线性组合: 。
-
解空间 (Solution Space): 所有的解构成一个
基本矩阵与非齐次系统解 (Fundamental Matrix and Solution of Inhomogeneous Systems)
-
基本矩阵 (Fundamental Matrix)
:- 定义: 一个
矩阵函数 ,其列向量是 的 个线性无关的解。 - 性质:
,并且 。
- 定义: 一个
-
非齐次系统
的通解 (General Solution):- 使用基本矩阵的公式 (也称为参数变易法 - Variation of Parameters):
$$
\mathbf{y}(t) = \Phi(t) \left( \mathbf{c}0 + \int{t_0}^t \Phi(s)^{-1}\mathbf{b}(s) ds \right)
$$
其中
。 - 或者,如果已知一个特解 (particular solution)
: 这里 是对应齐次系统的通解。
- 使用基本矩阵的公式 (也称为参数变易法 - Variation of Parameters):
$$
\mathbf{y}(t) = \Phi(t) \left( \mathbf{c}0 + \int{t_0}^t \Phi(s)^{-1}\mathbf{b}(s) ds \right)
$$
其中
矩阵指数 (Matrix Exponential) - 时间无关情形的特性
-
定义 (Definition): 对于常数矩阵
,矩阵指数 (或 ) 定义为泰勒级数: -
关键性质 (Key Properties):
。 (单位矩阵)。- 因此,
是齐次系统 的一个基本矩阵,且是在 时取值为单位矩阵的那个特殊基本矩阵,称为标准基本矩阵 (standard fundamental matrix)。 - 对于 IVP
, ,其解为 。
-
不同基本矩阵的关系 (Relation between Fundamental Matrices):
- 任意两个基本矩阵
和 通过一个常数可逆矩阵 相关联: 。 - 任何基本矩阵
都可以表示为 。 - 因此,如果知道任何一个基本矩阵
,就可以计算 。
- 任意两个基本矩阵
-
核心问题 (Central Problem): 如何有效地计算
?
计算矩阵指数 (Computing the Matrix Exponential ) (Slides 11-29, 58-64, 65-72)
A. 基于对角化 (Based on Diagonalization)
当矩阵
A1. 是对角矩阵 (A is a Diagonal Matrix)
- 如果
,即 - 系统
解耦 (decoupled) 成 个独立的标量方程: 。 - 每个标量方程的解是
。 - 因此,通解为
。 - 基本矩阵可以是
。 - 由于
,所以
A2. 可对角化 (A is Diagonalizable)
-
条件 (Condition): 矩阵
有 个线性无关的特征向量 (eigenvectors)。 -
对角化过程 (Diagonalization Process):
存在一个可逆矩阵
,其列是 的特征向量 ,以及一个对角矩阵 ,其中 是对应 的特征值 (eigenvalues),使得 (或者 )。 -
坐标变换 (Coordinate Transformation):
令
。代入 : 。 这是一个对角化系统,我们已经知道如何求解: 。 -
原始系统的解 (Solution in Original Coordinates):
。 可以写成 。 -
计算
(Slide 15-16, 58): 我们知道 。 因为 , 所以 。 所以, 由于 ,所以 -
基本矩阵视角 (Fundamental Matrix Perspective):
一个基本矩阵是
。 。 则 。 -
例子 (Example) :
。 。特征值 。 对应特征向量 (或者 Slide 18 中的形式,只是顺序和常数倍数不同)。 (Slide 18 使用了不同的 的形式,但结果等价)。 计算后得到 。 Slide 19 提到了一些备注,如实矩阵 的复共轭特征值和特征向量的关系。 -
例子 (Example) :
。 由于是上三角矩阵,特征值在对角线上: 。 特征值互异,所以 可对角化。 计算出特征向量,构成 ,然后就可以计算 (虽然这里没有显式给出 ,而是给出了基本解组)。 基本解组为 。 -
例子 (Optional Example) : 一个
循环矩阵的例子,其特征值和特征向量已知 (来自 Math257)。 。特征值 (其中 )。 Slides 24-26 展示了如何用这些特征值和特征向量(构成 )来计算 。 Slides 27-29 提供了一些关于求解这个特定例子特征值/向量的额外技巧,以及如何从复数解中提取实数基本解组。
B. 基于广义特征向量和若尔当标准型 (Generalized Eigenvectors and Jordan Canonical Form) - 当 不可对角化时
当矩阵
核心思想:
- 找到一个可逆矩阵
,其列由 的广义特征向量构成,使得 可以被转换为其若尔当标准型 : (或者 )。 - 利用这个分解,计算
。 - 计算
相对容易,因为 是一个分块对角矩阵,每个块是一个若尔当块。
步骤详解:
1. 找到
- 求解特征方程
得到所有特征值 。 - 确定每个特征值
的代数重数 (即它作为特征方程根的次数)。
2. 为每个特征值
这是最关键且可能最复杂的一步。对于每个特征值
-
计算普通特征向量:
求解
找到所有线性无关的特征向量。其解空间的维数是 的几何重数 (geometric multiplicity) 。 告诉我们对应于 有多少个若尔当块。- 如果对所有
都有 ,则矩阵 可对角化,就不需要 JCF 了。我们现在处理的是 的情况。
-
寻找广义特征向量:
广义特征向量
满足 对于某个正整数 ,但 。- 所有与
相关的广义特征向量(加上零向量)构成广义特征空间 (generalized eigenspace) 。其维数为 。
- 所有与
-
构造若尔当链:
一个与特征值
相关的长度为 的若尔当链是一组向量 ,满足: ( 是一个普通的特征向量)- …
- $(A - \lambda_k I)\mathbf{v}p = \mathbf{v}{p-1}
\mathbf{v}_p$ 称为链的生成元 (generator) 或顶层广义特征向量。 都是广义特征向量,且它们是线性无关的。 每个若尔当链对应一个若尔当块。链的长度 就是对应若尔当块的大小。
如何找到这些链 (一种常见策略,”自上而下”): a. 确定最长链的长度
:它是最小的整数使得 (通常 是使得 首次达到 的那个幂次,或者更准确地说,是使得 不再增加的最小 )。 b. 选择一个向量 $\mathbf{v}{p{\max}} \mathbf{v}{p{\max}} \in \ker((A-\lambda_k I)^{p_{\max}}) \mathbf{v}{p{\max}} \notin \ker((A-\lambda_k I)^{p_{\max}-1}) \mathbf{v}{p{\max}-1} = (A - \lambda_k I)\mathbf{v}{p{\max}} \mathbf{v}{p{\max}-2} = (A - \lambda_k I)\mathbf{v}{p{\max}-1} \mathbf{v}1 = (A - \lambda_k I)\mathbf{v}_2 p{\max} G_{\lambda_k} p_{\max} < m_k g_k > 1 g_k g_k G_{\lambda_k} d_j = \dim \ker((A-\lambda_k I)^j) j 2d_j - d_{j-1} - d_{j+1}$。
3. 构造矩阵
-
构造
: 矩阵 的列由所有若尔当链中的广义特征向量组成。- 将每个链中的向量
按此顺序( 是特征向量, 是生成元)作为 的连续列。 - 对所有特征值的所有链都这样做,将它们拼接起来形成
。 必须是可逆的。
- 将每个链中的向量
-
构造
: 是一个分块对角矩阵: 其中每个 是一个若尔当块,对应于 中的一个若尔当链。 如果一个链是 (对应特征值 ),则对应的若尔当块是一个 矩阵: (主对角线上是特征值 ,紧邻主对角线上方的是 1,其他位置是 0)。 中若尔当块的顺序和大小必须与 中广义特征向量链的排列方式一致,以满足 。
4. 计算
- 这是标准的可逆矩阵求逆过程。
5. 计算
由于
例如:
-
如果
(大小 ),则 。 。 所以 。 -
如果
(大小 ),则 。 , , 。 。 所以 。
以此类推,可以得到任意大小若尔当块的指数。
6. 计算
- 将前面得到的
, , 和 相乘,即可得到最终的 。
B1. 理论基础 (Theoretical Foundation)
-
动机来自高阶标量 ODE (Motivation from higher-order scalar ODEs) :
一个
阶常系数齐次线性标量 ODE (其中 是特征多项式) 的解包含形如 的项,其中 是特征根, 小于该根的重数。 通过降阶,这个标量 ODE 可以转换为一个一阶 系统 ,其中 是 的伴随矩阵 (companion matrix)。这个系统的解向量的分量就是 及其导数。 -
尝试解 (Ansatz) :
对于代数重数为
的特征值 ,我们尝试寻找形如 $$ \mathbf{y}(t) = e^{\lambda t}\mathbf{v}0 + t e^{\lambda t}\mathbf{v}_1 + \dots + t^{m-1}e^{\lambda t}\mathbf{v}{m-1} $$ 的解,其中 是待定向量。 -
推导向量链 (Deriving Vector Chains):
将上述 Ansatz 代入
并比较 的系数,可以得到一个向量链:- $(A - \lambda I_n)\mathbf{v}{m-1} = \mathbf{0}
\mathbf{v}{m-1}$ 是一个普通的特征向量) - $(A - \lambda I_n)\mathbf{v}{m-2} = \mathbf{v}{m-1}$
- …
这个链可以等价地写成:- $(A - \lambda I_n)^2\mathbf{v}{m-2} = \mathbf{0}
(A - \lambda I_n)\mathbf{v}{m-2} \neq \mathbf{0}$) - …
- $(A - \lambda I_n)^m\mathbf{v}0 = \mathbf{0}
(A - \lambda I_n)^{m-1}\mathbf{v}_0 \neq \mathbf{0} \mathbf{v}_0, \dots, \mathbf{v}{m-1}$ 称为广义特征向量链 (chain of generalized eigenvectors), 是链的生成元。
- $(A - \lambda I_n)\mathbf{v}{m-1} = \mathbf{0}
-
广义特征向量与广义特征空间 (Generalized Eigenvectors and Eigenspaces) :
-
广义特征向量 (Generalized Eigenvector): 对特征值
(代数重数为 ),若 满足 ,则 是 关于 的广义特征向量。 -
广义特征空间 (Generalized Eigenspace)
: 由所有对应于 的广义特征向量以及零向量构成的子空间。即 。 -
性质 (Properties):
(广义特征空间的维数等于特征值的代数重数,即广义特征向量对应的方程对应的解空间即由相应特征值对应的广义特征向量组成)。 (整个空间可以分解为所有广义特征空间的直和)。
-
广义特征向量 (Generalized Eigenvector): 对特征值
-
重要注记 (Notes on Generalized Eigenspaces) :
- 普通特征空间
是 的子空间。 可对角化当且仅当对所有 都有 。- 如果
是单根 ( ),则 。 - 有子空间链
。
- 普通特征空间
-
核心定理 (Main Theorem for Solutions) (Slide 35):
- 设 $B = {\mathbf{v}1, \dots, \mathbf{v}_n}
A \mathbb{C}^n \mathbf{v}_j \in B \lambda_i m_i $ \mathbf{y}_j(t) = \sum{k=0}^{m_i-1} \frac{t^k}{k!} e^{\lambda_i t} (A - \lambda_i I_n)^k \mathbf{v}j = e^{\lambda_i t} \left( \mathbf{v}_j + t(A-\lambda_i I_n)\mathbf{v}_j + \frac{t^2}{2!}(A-\lambda_i I_n)^2\mathbf{v}_j + \dots \right) $$ (注意这里的求和上限是 ,因为如果 ,则 如果 $\mathbf{v}_j \in G{\lambda_i} \mathbf{y}_1(t), \dots, \mathbf{y}_n(t) \mathbf{y}’=A\mathbf{y}$ 的一个基本解组 (fundamental system of solutions)。 - 矩阵指数可以表示为:
其中 是由基向量 构成的矩阵 。
- 设 $B = {\mathbf{v}1, \dots, \mathbf{v}_n}
-
证明概要 (Proof Outline) (Slide 36):
- 已证明
是解。 - 关键在于证明线性无关性。由于
(从 的定义式中令 可得),且 构成一组基,因此 也线性无关。 - 第 (2) 部分是
的一个实例。
- 已证明
B2. 应用与计算 (Application and Computation) (Slides 37-57, 59)
-
例子:
(Slides 37-38)- 特征多项式
。 - 单一特征值
,代数重数 。 。我们选择标准基 作为广义特征向量基。- 对
: 。 。 。 - 对
: 。 。
- 对
-
基本矩阵 $\Phi(t) = (\mathbf{y}_1(t) \mathbf{y}_2(t)) = e^{2t} $。 - 由于
(因为我们用了标准基作为 ),所以 。
- 特征多项式
-
若尔当标准型 (Jordan Canonical Form - JCF) (Slides 39-40 (notes), 59 (point 3)):
- 任何矩阵
都可以通过相似变换 转化为其若尔当标准型 。 是一个分块对角矩阵,每个对角块 是一个若尔当块 (Jordan block),形如: 。 。- 计算
: ,其中 是一个主对角线上方元素为1的幂零矩阵 (nilpotent matrix)。 由于 和 可交换,所以 。 (如果 是 且 )。 例如,如果 , , 。 。 - Slide 40-41 进一步解释了如何使用这种分块形式,以及
的级数会因 而截断。
- 任何矩阵
-
寻找广义特征向量基的策略 (Strategy for finding basis of generalized eigenvectors) (Slides 42-45, “Notes on the theorem”):
本身也是广义特征向量。 的定义中的求和项会终止。-
链 (Chains): $\mathbf{w}0, \mathbf{w}_1, \dots, \mathbf{w}_k
\mathbf{w}_k \neq \mathbf{0}, \mathbf{w}{k+1}=\mathbf{0} \mathbf{w}_k$ 是普通特征向量。 - 一个广义特征空间
的基可以由若干这样的链构成。 -
“深度优先” 策略 (Depth-first strategy) (Slide 44):
- 找到使
的最小 。 - 选择一个
使得 。 - 这生成一个长度为
的链 $\mathbf{w}0=\mathbf{w}, \mathbf{w}_1=(A-\lambda_i I)\mathbf{w}, \dots, \mathbf{w}{k-1}=(A-\lambda_i I)^{k-1}\mathbf{w}$。 - 如果这些向量的张成空间还不是
,则在补空间中重复此过程。 - 一个长度为
的链会产生 个形式上越来越简单的基本解 (Slide 45)。
- 找到使
-
例子:
(Slides 46-48) 。特征值 (重数1), (重数2)。 : 特征向量 。解 。 : 。 的维数 (几何重数) 是1,由 张成。 由于代数重数是2,几何重数是1, 不可对角化。 我们需要一个广义特征向量 使得 (且 )。 解 ,得到 (Slide 48)。- 基本解组:
(来自特征向量 ) (来自广义特征向量 )
-
复杂例子 (A more complex example) (Slides 49-56): 一个
矩阵。- 特征多项式
。 (代数重数2)。计算 得到2个线性无关的特征向量 (Slide 51)。这意味着对应于 的若尔当块都是 的,即它是可对角化的部分。 (代数重数4)。计算 得到2个线性无关的特征向量 (Slide 52,记为 )。几何重数为2。 这意味着对应于 的若尔当结构由2个若尔当块组成,总大小为4。可能是两个 块,或者一个 和一个 块。- 计算
和 (Slide 53)。发现 ,所以 。这说明最长的链长度为3。 因此,若尔当块是 (大小3) 和 (大小1)。 - 选择
使得 (Slide 54)。 生成链: , , 。 是一个特征向量。 另一个特征向量 (即 from Slide 52) 线性独立于 。 - 基本解 (Slide 55):
(来自长度为3的链) (来自长度为3的链) (来自长度为3的链) (来自长度为1的链,即普通特征向量) - Slide 56 展示了用 SageMath 计算得到的
的最终形式。
- 特征多项式
-
对角化矩阵的特解 (Alternative method for particular solution for diagonalizable A) (Slide 57):
如果
可对角化, 。可以将 在 的特征向量基底下展开 (这里符号与slide稍有不同,slide中 分解为 ,其中 本身是向量)。 然后对每个分量 单独求解。 这在某些情况下可能比直接用参数变易法简单。
C. 基于Cayley-Hamilton定理或最小多项式 (Based on Cayley-Hamilton Theorem or Minimal Polynomial)
总结
核心目标:将
步骤 1: 确定零化多项式
- 计算矩阵
的特征多项式 。 - 令选定的多项式为
,其次数为 。
步骤 2: 写出
- 根据
的次数 ,写出: 其中 是待求的时间函数。
步骤 3: 确定系数函数
- 所有系数函数
都满足同一个 阶标量常系数线性齐次微分方程: 其中 是微分算子, 是将 中的 替换为 得到的微分算子。 例如,如果 ,则 。
步骤 4: 求解每个系数函数
- 对于每个
,函数 是以下初值问题 (IVP) 的唯一解:-
微分方程:
-
初始条件:
其中 是 Kronecker delta ( 时为 1,否则为 0)。 这意味着对于 :
实际求解方法:
- 找到
的 个线性无关的基本解 。 - 对每个
,可以写成 。 - 利用上述初始条件确定常数
。 (或者使用 Slide 71 中基于 Wronskian 矩阵逆的方法一次性求出所有 对应的组合系数)。
-
微分方程:
步骤 5: 代入并组合得到
- 将求解得到的
以及计算出的 的幂次代回到步骤 2 的表达式中: - 进行矩阵的数乘和加法运算得到最终的
矩阵。
理论
这种方法提供了一种不直接计算特征向量或若尔当型就能得到
-
核心定理 (Main Theorem) :
假设存在一个多项式
使得 。(根据 Cayley-Hamilton 定理, 的特征多项式 满足 。最小多项式 是满足此条件的次数最低的首一多项式,且 整除 。这里 是 的次数。) 的每个元素 都满足标量常微分方程 (其中 )。 可以表示为 的一个次数严格小于 的多项式,其系数是 的函数: 其中函数 是标量 ODE 的解,并且满足特定的初始条件: 对于每个 , 满足 (Kronecker delta),即在 时导数为1,其他导数为0。 更形象地说,如果把这些 函数及其直到 阶的导数在 的值排成一个矩阵 (Wronskian 矩阵的思想),那么 (d阶单位矩阵)。 Slide 65 将初始条件表述为: (第 个标准单位向量) 时,解是 。
-
推论 (Corollary) :
的具体形式由 (通常取最小多项式 ) 的根 及其重数 决定。 如果 ,则每个 都是 的形式,其中 是次数小于 的多项式。 -
证明概要 (Proof Outline) (Slide 67):
- (1) 因为
,且 ,所以 (矩阵)。这意味着 的每个元素都满足 。 - (2) 定义
。由于 的初始条件,可以验证 对于 。 同时, 也满足 。 由于 和 都满足 以及相同的 个初始条件 (在 时的值及其直到 阶导数),根据解的唯一性,它们必须相等。
- (1) 因为
-
例子:
(Slide 68) 。所以 , 。 。 满足 。 满足 。 。
-
例子: 投影矩阵 (Projection Matrix)
(Slide 69)- 如果
,则最小多项式 。所以 。 。 满足 。 满足 。 。
- 如果
-
例子: 之前的
不可对角化矩阵 (Slides 70-72) 。所以 。 。 都是 ODE 的解,该 ODE 的基本解组是 。- 初始条件:
第四部分:时变系数系统 (Time-Dependent Coefficient Systems) (Slide 73)
- 当系统为
时,即系数矩阵 依赖于时间 。 -
指数矩阵
(Exponential Matrix): 定义良好。 -
关键问题:
一般不等于 。 这是因为 一般不成立,除非 和 可交换。 例如, 。 - 因此,
通常不是 的解。 -
特殊情况 (Special Case):
如果
与其积分 (实际上是 与 中任意两个时刻的值可交换,一个更强的条件是 与 对任意 可交换) 处处可交换,则 是解。 (更准确地说,如果 与 可交换,则 是解。)