ECE 313 Collection

表格汇总

table date, categories
from #ECE313
sort date

参考资料

UIUC 官方讲义
Probability Note.pdf

复习纲要

概率基础

1. 期望与方差

注意方差与标准差的关系

2. 条件概率

$\begin{aligned} P (B | A) = \frac{P (A B)}{P (A)} if P (A) > 0 & P (A B C) = P (C) P (B | C) P (A | B C) \end{aligned}$

3. 独立事件与独立变量

$\begin{aligned} P (A B) = P (A) P (B) & P (A^{c} B) = P (B) - P (A B) \end{aligned}$

注意衡量多个独立事件是否独立时，他们的任意子集均需满足独立事件的条件

4. 最大似然估计
核心即为在

给定观测结果情况下估测最大可能的对应参数
给定参数估计最大可能的观测结果

对于连续性随机变量的 ML Parameter Estimation: 我们依然考虑选取能使对应采样结果最大所对应的参数，其中对应采样结果的参数概率通过在临近区间内积分确定

$Missing or unrecognized delimiter for \left$

5. 不等式与估计

马尔可夫不等式：估计非负随机变量的均值

$P (Y \geq c) \leq \frac{E [Y]}{c}$

切比雪夫不等式：利用方差估计分布的均匀性（注意与置信区间与中心极限定理的结合）

$P (| X - μ | \geq d) \leq \frac{σ^{2}}{d^{2}}$

置信区间
考虑用小样本对实际情况建模，将其模拟为二项分布

6. 全概率定律与贝叶斯定理

全概率定理：对整个概率空间选取某一组事件的划分

$P (A) = P (A E_{1}) + \dots P (A E_{k}) = P (A | E_{1}) P (E_{1}) + \dots + P (A | E_{k}) P (E_{k})$

贝叶斯公式

$P (E_{i} | A) = \frac{P (A E_{i})}{P (A)} = \frac{P (A E_{i})}{P (A E_{1}) + \dots P (A E_{k})}$

利用全概率定理计算均值

$\begin{aligned} E [X | A] = \sum_{i} u_{i} P (X = u_{i} | A) & E (g (X) | A) = \sum_{i} g (u_{i}) P (X = u_{i} | A) & E [X] = \sum_{j = 1}^{J} E [X | E_{j}] P (E_{j}) \end{aligned}$

7. Binary Hypothesis
每一种假设对应离散型随机变量不同的概率密度函数，最终构成一个似然矩阵。注意两种假设互斥，但不一定成立，系统最终的输出结果根据确定的 decision rule 既可能 $H_{1}$ 也可能为 $H_{0}$

$\begin{aligned} p_{f a l s e a l a r m} = P (declare H1 true| H0) & p_{m i s s} = P (declare H0 true| H1) & p_{e} = π_{0} p_{f a l s e a l a r m} + π_{1} p_{m i s s} & 先定义ratio Λ (k) = \frac{p_{1} (k)}{p_{0} (k)} = \frac{f_{1} (u)}{f_{2} (u)} \end{aligned}$

注意对于离散型与连续型随机变量都可以从 Ratio 角度得到最终结果
对于连续性随机变量，求 false alarm 与 miss 时即为考虑在对应 X 的区间范围内 pdf 的积分

ML 最大似然决定 ->哪种假设对应的变量取值概率即选
$Λ (X) > 1$ -> declare $H_{1}$ is true
$Λ (X) < 1$ -> declare $H_{0}$ is true
MAP: 考虑引入先验概率，再根据后验概率大小决定

$\begin{aligned} P (H_{i}, X = k) = π_{i} p_{i} (k) & τ = \frac{π_{0}}{π_{1}} \end{aligned}$

8. Union bound 估计
考虑容斥原理，有

$P (A \cup B) \leq P (A) + P (B)$

核心为将代求事件表示为一些事件的并集进行上界估计

例题:

9. 大数定理
LLN 建模基于的情境：
给定一系列均值相同的独立（或弱相关的）的随机变量，同时对随机变量的规模有一定要求，LLN 认为当随机变量个数趋于无穷时，他们和的均值收敛于一个定值

10. 中心极限定理

认为多个独立相同分布的随机变量（均值与方差均有限），他们和的分布标准化后趋于高斯分布

应用 1：利用 CLT 近似二项分布（因为其可以表示为多个伯努利分布的和）
注意有时需要对高斯近似用 Continuity Correction

$\begin{aligned} P (X \leq k) \approx P (\tilde{X} \leq k + 0.5) & P (X \geq k) \approx P (\tilde{X} \geq k - 0.5) & P (X = k) \approx \int_{k - 0.5}^{k + 0.5} f_{X} (u) d u \end{aligned}$

离散型随机变量

1. 伯努利分布：两点分布

$\begin{aligned} P (X = 1) = p, & P (X = 0) = 1 - p & E [X] = p, & V a r (X) = p - p^{2} \end{aligned}$

2. 二项分布: n 次独立的伯努利实验,考察 1 出现的次数的概率

$\begin{aligned} p_{X} (k) = C_{n}^{k} p^{k} (1 - p)^{n - k} & E [x] = n p, V a r (X) = n p (1 - p) & \sum C_{n}^{k} p^{k} (1 - p)^{n - k} = 1 \end{aligned}$

3. 几何分布：进行一系列伯努利实验首次出现 1 进行的实验次数对应的概率

$\begin{aligned} \sum_{k = 1}^{\infty} (1 - p)^{k - 1} p = 1 & p_{L} (k) = (1 - p)^{k - 1} p, P (L > k) = (1 - p)^{k} & E [L] = \frac{1}{p}, V a r (L) = \frac{1 - p}{p^{2}} & Memoryless Property: P (L > k + n | L > n) = P (L > k) \end{aligned}$

4. 伯努利过程与负二项分布
考虑进行无限次伯努利实验，得到 $j$ 个 1 所累积进行的实验次数 $S_{j}$
考虑 $S_{r}$ 所满足的概率分布为负二项分布,参数为 r,p

$\begin{aligned} p (n) = C_{n - 1}^{r - 1} p^{r} (1 - p)^{n - r} & E [S_{r}] = r E [L_{1}] = \frac{r}{p} & V a r (S_{r}) = r V a r (L_{i}) = \frac{r (1 - p)}{p^{2}} \end{aligned}$

5. 泊松分布 -> 对于 n 很大 p 很小的二项分布进行近似

近似时考虑 $n p = λ$ ，近似原理考虑二项分布 n 趋于无穷情况

$\begin{aligned} p (k) = \frac{e^{- λ} λ^{k}}{k!} & E [Y] = λ, V a r (Y) = λ \end{aligned}$

连续型随机变量

1. pdf 与 cdf
记累计分布函数 CDF 为 $F_{X}$ , 概率密度函数为 $f_{X}$ 则我们有
当 CDF 取值连续时，我们有任意点取值的概率均为 0

$\begin{aligned} F_{x} (c) = P ω : X (ω) \leq c = P (X \leq c) & F (x -) = lim_{y \to x, y < x} F (y), F (x +) = lim_{y \to x, y > x} F (y) & Δ F_{X} (x) = F_{X} (x) - F_{X} (x -) & P (X = c) = Δ F_{X} (c), P (X < c) = F_{X} (c -) \end{aligned}$

如何推导 CDF 及其对应的 PDF->考虑先根据事件定义求出 CDF 再微分求 PDF

$F_{X} (c) = \int_{- \infty}^{c} f_{X} (u) d u$

基于 CDF 与 PDF 的概率与均值方差

$\begin{aligned} P (a < X \leq b) = F_{X} (b) - F_{X} (a) & E [X] = \int_{- \infty}^{\infty} u f_{x} (u) d u & V a r (X) = E [X^{2}] - E^{2} [X] & V a r (g (X)) = \int_{- \infty}^{\infty} g (u)^{2} f_{X} (u) d u - {(\int_{- \infty}^{\infty} f_{X} (u) g_{X} (u) d u)}^{2} \end{aligned}$

2. 均匀分布 ->在支持集上 pdf 为常数

$\begin{aligned} f_{X} (u) = \frac{1}{b - a}, a \leq u \leq b & E [X] = \frac{a + b}{2}, V a r (X) = \frac{(a - b)^{2}}{12}, E [X^{k}] = \frac{1}{k + 1} \end{aligned}$

3. 指数分布 ->几何分布连续时取极限的情况

$\begin{aligned} f_{T} (t) = λ e^{- λ t}, t \geq 0 & F_{T} (t) = 1 - e^{- λ t}, t \geq 0 & E [T^{n}] = \frac{n!}{λ^{n}}, E [T] = \frac{1}{λ}, V a r (T) = \frac{1}{λ^{2}} & Memoryless Property: P (T > s + t | T > s) = e^{- λ t} = P (T > t) \end{aligned}$

将 $λ$ 理解为失败概率, 转化有 $p = λ h$
4. 泊松过程
指数分布本质上为几何分布的极限 ->泊松过程本质上为伯努利过程的极限

$U_{j} = h L_{j}$ 前 $j - 1$ 次 count 与 $j$ 次 count 之间的时间间隔，服从 exponential distribution,参数为 $λ = \frac{p}{h}$
$N_{t} = C_{\frac{t}{h}}$ 时间为 t 时出现的 count 次数，服从于二项分布，近似为泊松分布，均值为 $λ t$
$T_{j} = h S_{j}$ 为出现 j 次 count 所用的时间
性质: 对于参数为 $λ$ 的泊松过程，我们有
N 的增量相互独立 -> $N_{t} - N_{s}$ 满足 $P o i (λ (t - s))$ （泊松分布）
相邻的 count 所用时间 $U_{1}, U_{2}, \dots$ 相互独立，满足参数为 $λ$ 的指数分布

5. 埃尔朗分布
$T_{r}$ 记为泊松过程中 $r^{t h}$ count 所用的时间， $T_{r} = U_{1} + \dots + U_{r}$ , 其中 $U_{1}, \dots, U_{r}$ 为相互独立的指数分布随机变量，参数为 $λ$ , 可以理解为 r 个独立随机过程的加和

$\begin{aligned} f_{T_{r}} (t) = \frac{e^{- λ t} λ^{r} t^{r - 1}}{(r - 1)!} & E (T_{r}) = \frac{r}{λ} & V a r (T_{r}) = \frac{r}{λ^{2}} \end{aligned}$

6. Linear Scaling 与高斯分布

对于线性变换 $Y = a X + b$ ,我们有

$\begin{aligned} f_{Y} (v) = f_{X} (\frac{v - b}{a}) \frac{1}{a} & F_{Y} (v) = P (a X + b \leq v) = F_{X} (\frac{v - b}{a}) & E [Y] = a E [X] + b, V a r (Y) = a^{2} V a r (X) \end{aligned}$

高斯分布：对于一般的高斯分布 $Y \sim N (μ, σ)$

$f_{Y} (v) = \frac{1}{\sqrt{2 π} σ} e^{- (v - μ)^{2} / 2 σ^{2}}$

$Φ (u)$ 表示对于标准正态分布从负无穷积到 u 的概率
$Q (u)$ 表示对于标准正态分布从 u 积到正无穷的概率
注意不同 $σ$ 对应的分布概率 68.3 -> 95.5 -> 99.7

$Q (u) = 1 - Φ (u) = Φ (- u)$

当计算非标准正态分布的概率时，常常通过 Linear Scaling 返回到标准正态函数利用 $Φ$ 或者 $Q$ 计算

$\begin{aligned} P (Y \leq u) = P (\frac{Y - μ}{σ} \leq \frac{u - μ}{σ}) = Φ (\frac{u - μ}{σ}) & P (Y > u) = 1 - Φ (\frac{u - μ}{σ}) \end{aligned}$

联合分布随机变量

基础

1. 联合 CDF

$\begin{aligned} F_{X, Y} (u_{0}, v_{0}) = P X \leq u_{0}, Y \leq v_{0} & P ((X, Y) \in R) = F_{X, Y} (b, d) - F_{X, Y} (b, c) - F_{X, Y} (a, d) + F_{X, Y} (a, c) \end{aligned}$

2. 联合 pmf 或 pdf
离散型 ->联合 pmf

$\begin{aligned} P_{X, Y} (u, v) = P (X = u, Y = v) & Marginal pmf p_{X} (u) = \sum_{j} p_{X, Y} (u, v_{j}) & Conditional pmf P_{Y | X} (v | u_{0}) = P (Y = v | X = u_{0}) = \frac{P_{X, Y} (u_{0}, v)}{P_{X} (u_{0})} \end{aligned}$

连续型 ->联合 pdf

$\begin{aligned} F_{X, Y} (u_{0}, v_{0}) = \int_{- \infty}^{u_{0}} \int_{- \infty}^{v_{0}} f_{X, Y} (u, v) d u d v & Marginal pdf f_{X} (u) = \int_{- \infty}^{\infty} f_{X, Y} (u, v) d v = \int_{- \infty}^{\infty} f_{Y} (v) f_{X | Y} (u | v) d u & Conditional pdf f_{Y | X} (v | u_{0}) = \frac{f_{X, Y} (u_{0}, v)}{f_{X} (u_{0})} \end{aligned}$

3. 期望

$\begin{aligned} E [g (X, Y)] = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} g (u, v) f_{X, Y} (u, v) d u d v & E [X] = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} u f_{X, Y} (u, v) d u d v & E [Y] = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} v f_{X, Y} (u, v) d u d v \end{aligned}$

条件期望: 注意 $E[Y

X=u]

可 以 视 为 关 于

的 函 数 ， 则

E[Y

可 以 视 为 关 于

X$ 的函数

$E [Y | X = u] = \int_{- \infty}^{\infty} v f_{Y | X} (v | u) d v$

4. 独立性
两随机变量相互独立的条件：

$$ \begin{align} & \text{CDF: } F_{X,Y}(u_{0},v_{0})=F_{X}(u_{0})F_{Y}(v_{0})
& \text{PDF: } f_{X,Y}(u,v)=f_{X}(u)f_{Y}(v)
& \text{条件概率角度，充要：}
& f_{Y|X}(v|u) =f_{Y}(v) \

\end{align} $$

X,Y 为相互独立的联合分布连续随机变量，则 $f_{X, Y}$ 支撑集为 product set

Joint pdfs of functions of random variables

线性变换 $(\begin{matrix} W \Z \end{matrix}) = A (\begin{matrix} X \Y \end{matrix})$

$f_{W, Z} (α, β) = \frac{1}{| det A |} f_{X, Y} (A^{- 1} (\begin{matrix} α β \end{matrix}))$

一般的一一映射 ->利用 Jacobi Matirx 衡量变化
多对一：考虑所有满足情况的原像的求和

应用

1. 随机变量的函数
考察随机变量经过映射后的分布情况
问题情境：已知一个随机变量 X 的概率分布，希望知道经过函数映射 $Y = F (X)$ 的概率分布
一般思路

确定 X 与 Y 的支持集,可以先画 Y 关于 X 的函数图像，精准确定 Y 的定义域及其与对应 X 的值的对应关系，确定 Y 为离散型随机变量还是连续性随机变量
可以通过画图确定，当 Y 对应小于某个值时对应 x 的精确取值范围区间，防止出错
1. 对于连续性随机变量：
  首先寻找 Y 的 CDF:(注意关注需要考虑 c 可取哪些值)

$F_{Y} (c) = P Y \leq c = P g (X) \leq c$

然后对 Y 的 CDF 进行微分即可得到对应的 pdf

对于离散型随机变量：
直接计算：

$p_{Y} (v) = P Y = v = P g (X) = v = \int_{u : g (u) = v} f_{X} (u) d u$

逆函数
映射的函数为单调递增函数时，我们可以直接利用逆函数找到良好的对应关系

$\begin{aligned} F_{Y} (c) = F_{X} (g^{- 1} (c)) & f_{Y} (c) = f_{X} (g^{- 1} (c)) \frac{1}{g^{‘} (g^{- 1} (c))} \end{aligned}$

生成满足特定分布的随机变量
问题情境
记 $F$ 为满足条件的 CDF 函数， $U$ 为在区间 $[0, 1]$ 上均匀分布的随机变量，目的是找到一个函数 $g$ 使得 $F$ 为 $g (U)$ 的 CDF

解决：即为在均匀分布的随机变量上进行给定 CDF 函数的逆映射

确定 $F$ 的逆函数

$F^{- 1} (u) = m i n c : F (c) \geq u$

将 $F^{- 1}$ 作为 $g$ 生成对应的分布

由 CDF 图像结合面积计算分布均值

左边阴影部分面积减右边

$\begin{aligned} E [X] = \int_{0}^{\infty} (1 - F_{X} (c)) d c - \int_{- \infty}^{0} F_{X} (c) d c & E [X] = \int_{0}^{1} F_{X}^{- 1} (u) d u \end{aligned}$

2. 多随机变量和的分布
整值随机变量的和 ->卷积

$p_{S} (k) = P (X + Y = k) = \sum_{j} P_{X, Y} (j, k - j)$

连续性联合随机变量的和
考虑先寻找 S=X+Y 的 CDF 再微分得到 PDF
CDF

$F_{S} (c) = P (S \leq c) = \int_{- \infty}^{\infty} (\int_{- \infty}^{c - u} f_{X, Y} (u, v) d v) d u$

PDF

$f_{S} (c) = \frac{d F_{S} (c)}{d c} = \int_{- \infty}^{\infty} \frac{d}{d c} (\int_{- \infty}^{c - u} f_{X, Y} (u, v) d v) d u = \int_{- \infty}^{\infty} f_{X, Y} (u, c - u) d u$

Example4.6.5: ML Estimator，关注如何建模多维联合 pdf，同时进行获得 ML estimator

Example4: max 函数

$\begin{aligned} F_{W} (t) = P (m a x (X, Y) \leq t) = P (X \leq t) P (Y \leq t) = F_{X} (t) F_{Y} (t) & f_{W} (t) = f_{X} (t) F_{Y} (t) + f_{Y} (t) F_{X} (t) \end{aligned}$

3. MMSE Estimation

$M S E = E [(y - δ)^{2}] = \int_{- \infty}^{\infty} (y - δ)^{2} f_{Y} d y$

常数估计
当 $δ = E [Y]$ 时，我们有 MSE 最小值为 $V a r (Y)$
即估计的常数对应随机变量分布的均值，相应的 MSE 为其对应的方差
无约束估计

[!tip] 结论
对于非限制在给定观测结果 $X$ 的情况下估计随机变量 $Y$ 的分布，我们基于常数估计量以及 conditional pdf 推导出

$E[Y X]=g^{}(X) $其中$ g^{}(u)=E[Y X=u]$

对应的 MSE 最小值为 $E[(Y-E[Y X])^{2}]=E[Y^{2}]-E[(E[Y X])^{2}]$

先根据联合概率分布 $f_{X, Y}$ 计算 $f_{X}$ 与 $f_{Y | X}$
再对每一个给定的 $u$ ，确定 $g^{*} (u)$ , 即利用积分计算条件期望
然后计算每一个给定的 u 对应的 MSE 再乘上相对应的 $f_{X} (u)$ ，积分得到最终结果

线性估计
根据逐步优化的结果，我们有给 $Y$ 的线性近似 $a X + b$
当

$a = \frac{Cov (Y, X)}{Var (X)} ， b = μ_{Y} - a μ_{X}$

时，我们有 MSE 最小，此时

$\begin{aligned} L (X) = \hat{E} [Y | X] = μ_{Y} + \frac{Cov (Y, X)}{Var (X)} (X - μ_{X}) = μ_{Y} + σ_{Y} ρ_{X, Y} (\frac{X - μ_{X}}{σ_{X}}) & M S E = σ_{Y}^{2} - \frac{(Cov (X, Y))^{2}}{Var (X)} = σ_{Y}^{2} (1 - ρ_{X, Y}^{2}) = E [Y^{2}] - E [\hat{E} [Y | X]^{2}] \end{aligned}$

4. 联合高斯随机分布
联合高斯分布随机变量 ->对于这些随机变量的线性组合满足高斯分布