表格汇总

table date, categories
from #ECE313
sort date

参考资料

复习纲要

概率基础

1. 期望与方差

4d051adaa84ab3ca573e65b6ee9225c.png

注意方差与标准差的关系
a7be42645f2aad20b287c092a7f4aeb.png

2. 条件概率

P(B|A)=P(AB)P(A) if P(A)>0P(ABC)=P(C)P(B|C)P(A|BC)

3. 独立事件与独立变量

P(AB)=P(A)P(B)P(AcB)=P(B)P(AB)

注意衡量多个独立事件是否独立时,他们的任意子集均需满足独立事件的条件

4. 最大似然估计
核心即为在

  • 给定观测结果情况下估测最大可能的对应参数
  • 给定参数估计最大可能的观测结果

对于连续性随机变量的 ML Parameter Estimation: 我们依然考虑选取能使对应采样结果最大所对应的参数,其中对应采样结果的参数概率通过在临近区间内积分确定

Missing or unrecognized delimiter for \left

5. 不等式与估计

  • 马尔可夫不等式:估计非负随机变量的均值

P(Yc)E[Y]c

  • 切比雪夫不等式:利用方差估计分布的均匀性(注意与置信区间与中心极限定理的结合)

P(|Xμ|d)σ2d2

  • 置信区间
    考虑用小样本对实际情况建模,将其模拟为二项分布
    949c225a7f6c5ee1f06ee30fc2d74cf.png
    5d5b40be30f5bf4f5cb7330948d7ca6.png

6. 全概率定律与贝叶斯定理

  • 全概率定理:对整个概率空间选取某一组事件的划分

P(A)=P(AE1)+P(AEk)=P(A|E1)P(E1)++P(A|Ek)P(Ek)

  • 贝叶斯公式

P(Ei|A)=P(AEi)P(A)=P(AEi)P(AE1)+P(AEk)

利用全概率定理计算均值

E[X|A]=iuiP(X=ui|A)E(g(X)|A)=ig(ui)P(X=ui|A)E[X]=j=1JE[X|Ej]P(Ej)

7. Binary Hypothesis
每一种假设对应离散型随机变量不同的概率密度函数,最终构成一个似然矩阵。注意两种假设互斥,但不一定成立,系统最终的输出结果根据确定的 decision rule 既可能 H1 也可能为 H0

pfalsealarm=P(declare H1 true| H0)pmiss=P(declare H0 true| H1)pe=π0pfalsealarm+π1pmiss先定义ratio Λ(k)=p1(k)p0(k)=f1(u)f2(u)

注意对于离散型与连续型随机变量都可以从 Ratio 角度得到最终结果
对于连续性随机变量,求 false alarm 与 miss 时即为考虑在对应 X 的区间范围内 pdf 的积分

  • ML 最大似然决定 ->哪种假设对应的变量取值概率即选
    Λ(X)>1 -> declare H1 is true
    Λ(X)<1 -> declare H0 is true
  • MAP: 考虑引入先验概率,再根据后验概率大小决定

P(Hi,X=k)=πipi(k)τ=π0π1

8. Union bound 估计
考虑容斥原理,有

P(AB)P(A)+P(B)

核心为将代求事件表示为一些事件的并集进行上界估计

例题:
74babbb59b230e27adfc6ab9220db66.png

9. 大数定理
LLN 建模基于的情境:
给定一系列均值相同的独立(或弱相关的)的随机变量,同时对随机变量的规模有一定要求,LLN 认为当随机变量个数趋于无穷时,他们和的均值收敛于一个定值

10. 中心极限定理

认为多个独立相同分布的随机变量(均值与方差均有限),他们和的分布标准化后趋于高斯分布
8ac7455a4a0510a38d6b3c9c996db9f.png

应用 1:利用 CLT 近似二项分布(因为其可以表示为多个伯努利分布的和)
注意有时需要对高斯近似用 Continuity Correction

P(Xk)P(X~k+0.5)P(Xk)P(X~k0.5)P(X=k)k0.5k+0.5fX(u)du

离散型随机变量

1. 伯努利分布:两点分布

P(X=1)=p,P(X=0)=1pE[X]=p,Var(X)=pp2

2. 二项分布: n 次独立的伯努利实验,考察 1 出现的次数的概率

pX(k)=Cnkpk(1p)nkE[x]=np,Var(X)=np(1p)Cnkpk(1p)nk=1

3. 几何分布:进行一系列伯努利实验首次出现 1 进行的实验次数对应的概率

k=1(1p)k1p=1pL(k)=(1p)k1p, P(L>k)=(1p)kE[L]=1p, Var(L)=1pp2Memoryless Property: P(L>k+n|L>n)=P(L>k)

4. 伯努利过程与负二项分布
考虑进行无限次伯努利实验,得到 j 个 1 所累积进行的实验次数 Sj
考虑 Sr 所满足的概率分布为负二项分布,参数为 r,p

p(n)=Cn1r1pr(1p)nrE[Sr]=rE[L1]=rpVar(Sr)=rVar(Li)=r(1p)p2

5. 泊松分布 -> 对于 n 很大 p 很小的二项分布进行近似

近似时考虑 np=λ,近似原理考虑二项分布 n 趋于无穷情况

p(k)=eλλkk!E[Y]=λ,Var(Y)=λ

连续型随机变量

1. pdf 与 cdf
记累计分布函数 CDF 为 FX, 概率密度函数为 fX 则我们有
当 CDF 取值连续时,我们有任意点取值的概率均为 0

Fx(c)=Pω:X(ω)c=P(Xc)F(x)=limyx,y<xF(y),F(x+)=limyx,y>xF(y)ΔFX(x)=FX(x)FX(x)P(X=c)=ΔFX(c), P(X<c)=FX(c)

如何推导 CDF 及其对应的 PDF->考虑先根据事件定义求出 CDF 再微分求 PDF

FX(c)=cfX(u)du

基于 CDF 与 PDF 的概率与均值方差

P(a<Xb)=FX(b)FX(a)E[X]=ufx(u)duVar(X)=E[X2]E2[X]Var(g(X))=g(u)2fX(u)du(fX(u)gX(u)du)2

2. 均匀分布 ->在支持集上 pdf 为常数

fX(u)=1ba,aubE[X]=a+b2, Var(X)=(ab)212, E[Xk]=1k+1

3. 指数分布 ->几何分布连续时取极限的情况

fT(t)=λeλt,t0FT(t)=1eλt,t0E[Tn]=n!λn, E[T]=1λ, Var(T)=1λ2Memoryless Property: P(T>s+t|T>s)=eλt=P(T>t)

λ 理解为失败概率, 转化有 p=λh
4. 泊松过程
指数分布本质上为几何分布的极限 ->泊松过程本质上为伯努利过程的极限

  • Uj=hLjj1 次 count 与 j 次 count 之间的时间间隔,服从 exponential distribution,参数为 λ=ph
  • Nt=Cth 时间为 t 时出现的 count 次数,服从于二项分布,近似为泊松分布,均值为 λt
  • Tj=hSj 为出现 j 次 count 所用的时间
    性质: 对于参数为 λ 的泊松过程,我们有
  • N 的增量相互独立 -> NtNs 满足 Poi(λ(ts)) (泊松分布)
  • 相邻的 count 所用时间 U1,U2, 相互独立,满足参数为 λ 的指数分布

5. 埃尔朗分布
Tr 记为泊松过程中 rth count 所用的时间, Tr=U1++Ur, 其中 U1,,Ur 为相互独立的指数分布随机变量,参数为 λ, 可以理解为 r 个独立随机过程的加和

fTr(t)=eλtλrtr1(r1)!E(Tr)=rλVar(Tr)=rλ2

6. Linear Scaling 与高斯分布

  • 对于线性变换 Y=aX+b,我们有

fY(v)=fX(vba)1aFY(v)=P(aX+bv)=FX(vba)E[Y]=aE[X]+b, Var(Y)=a2Var(X)

  • 高斯分布:对于一般的高斯分布 YN(μ,σ)

fY(v)=12πσe(vμ)2/2σ2

Φ(u) 表示对于标准正态分布从负无穷积到 u 的概率
Q(u) 表示对于标准正态分布从 u 积到正无穷的概率
注意不同 σ 对应的分布概率 68.3 -> 95.5 -> 99.7

Q(u)=1Φ(u)=Φ(u)

当计算非标准正态分布的概率时,常常通过 Linear Scaling 返回到标准正态函数利用 Φ 或者 Q 计算

P(Yu)=P(Yμσuμσ)=Φ(uμσ)P(Y>u)=1Φ(uμσ)

联合分布随机变量

基础

1. 联合 CDF

FX,Y(u0,v0)=PXu0,Yv0P((X,Y)R)=FX,Y(b,d)FX,Y(b,c)FX,Y(a,d)+FX,Y(a,c)

2. 联合 pmf 或 pdf
离散型 ->联合 pmf

PX,Y(u,v)=P(X=u,Y=v)Marginal pmf  pX(u)=jpX,Y(u,vj)Conditional pmf PY|X(v|u0)=P(Y=v|X=u0)=PX,Y(u0,v)PX(u0)

连续型 ->联合 pdf

FX,Y(u0,v0)=u0v0fX,Y(u,v)dudvMarginal pdf fX(u)=fX,Y(u,v)dv=fY(v)fX|Y(u|v)duConditional pdf fY|X(v|u0)=fX,Y(u0,v)fX(u0)

3. 期望

E[g(X,Y)]=g(u,v)fX,Y(u,v)dudvE[X]=ufX,Y(u,v)dudvE[Y]=vfX,Y(u,v)dudv

条件期望: 注意 $E[Y X=u]uE[Y X]X$ 的函数

E[Y|X=u]=vfY|X(v|u)dv

31f18ceb8e55440261b69c35f9c9b3d.png
4. 独立性
两随机变量相互独立的条件:

$$ \begin{align} & \text{CDF: } F_{X,Y}(u_{0},v_{0})=F_{X}(u_{0})F_{Y}(v_{0})
& \text{PDF: } f_{X,Y}(u,v)=f_{X}(u)f_{Y}(v)
& \text{条件概率角度,充要:}
& f_{Y|X}(v|u) =f_{Y}(v) \

\end{align} $$

X,Y 为相互独立的联合分布连续随机变量,则 fX,Y 支撑集为 product set

Joint pdfs of functions of random variables

  • 线性变换 (W\Z)=A(X\Y)

fW,Z(α,β)=1|detA|fX,Y(A1(αβ))

  • 一般的一一映射 ->利用 Jacobi Matirx 衡量变化
    6b0221290d050cdd2615a604da693d7.png
  • 多对一:考虑所有满足情况的原像的求和

相关系数与协方差

00511536afa90326b8592a51c313943.png

Cov(X,Y)=E[XY]E[X]E[Y]E[XY]=uvFX,Y(u,v)dudv

  • 无关定义

Cov(X,Y)=0(ρX,Y=0)UncorrelatedCov(X,Y)>0(ρX,Y>0)Positively CorrelatedCov(X,Y)<0(ρX,Y<0)Negatively Correlated

  • 无关与独立关系
    1. 两变量独立时一定无关:

Cov(X,Y)=E[XY]E[X]E[Y]=E[X]E[Y]E[X]E[Y]=0

  1. 两变量无关时不一定独立,独立性质比无关强
  2. 多变量无关只需考虑每一对之间相互无关即可,但是多变量相互独立需要考虑对于其组合的任意子集均满足独立的性质
    协方差性质: 线性,添加常数不改变

Cov(aX+bY,cX+dY)=acVar(x)+bdVar(Y)+(ad+bc)Cov(X,Y)

ρaX+b,cY+d=ρX,Y for a,c>0

相关系数的绝对值越接近 1,随机变量的线性相关性越强

应用

1. 随机变量的函数
考察随机变量经过映射后的分布情况
问题情境:已知一个随机变量 X 的概率分布,希望知道经过函数映射 Y=F(X) 的概率分布
一般思路

  • 确定 X 与 Y 的支持集,可以先画 Y 关于 X 的函数图像,精准确定 Y 的定义域及其与对应 X 的值的对应关系,确定 Y 为离散型随机变量还是连续性随机变量
  • 可以通过画图确定,当 Y 对应小于某个值时对应 x 的精确取值范围区间,防止出错
    1. 对于连续性随机变量:
      首先寻找 Y 的 CDF:(注意关注需要考虑 c 可取哪些值)

FY(c)=PYc=Pg(X)c

然后对 Y 的 CDF 进行微分即可得到对应的 pdf

  1. 对于离散型随机变量:
    直接计算:

pY(v)=PY=v=Pg(X)=v=u:g(u)=vfX(u)du

逆函数
映射的函数为单调递增函数时,我们可以直接利用逆函数找到良好的对应关系

FY(c)=FX(g1(c))fY(c)=fX(g1(c))1g(g1(c))

生成满足特定分布的随机变量
问题情境
F 为满足条件的 CDF 函数, U 为在区间 [0,1] 上均匀分布的随机变量,目的是找到一个函数 g 使得 Fg(U) 的 CDF

解决:即为在均匀分布的随机变量上进行给定 CDF 函数的逆映射

  • 确定 F 的逆函数

F1(u)=minc:F(c)u

  • F1 作为 g 生成对应的分布

由 CDF 图像结合面积计算分布均值
3b6eae34566b181832f2a29adfcfe41.png
左边阴影部分面积减右边

E[X]=0(1FX(c))dc0FX(c)dcE[X]=01FX1(u)du

2. 多随机变量和的分布
整值随机变量的和 ->卷积

pS(k)=P(X+Y=k)=jPX,Y(j,kj)

连续性联合随机变量的和
考虑先寻找 S=X+Y 的 CDF 再微分得到 PDF
CDF

FS(c)=P(Sc)=(cufX,Y(u,v)dv)du

PDF

fS(c)=dFS(c)dc=ddc(cufX,Y(u,v)dv)du=fX,Y(u,cu)du

Example4.6.5: ML Estimator,关注如何建模多维联合 pdf,同时进行获得 ML estimator
de108e4a4d31aebc76239b0a573531c.png a3d8c62d6a61ace1e52eb6460c73059.png
Example4: max 函数

FW(t)=P(max(X,Y)t)=P(Xt)P(Yt)=FX(t)FY(t)fW(t)=fX(t)FY(t)+fY(t)FX(t)

3. MMSE Estimation

MSE=E[(yδ)2]=(yδ)2fYdy

  • 常数估计
    δ=E[Y] 时,我们有 MSE 最小值为 Var(Y)
    即估计的常数对应随机变量分布的均值,相应的 MSE 为其对应的方差
  • 无约束估计

[!tip] 结论
对于非限制在给定观测结果 X 的情况下估计随机变量 Y 的分布,我们基于常数估计量以及 conditional pdf 推导出

  • $E[Y X]=g^{}(X)g^{}(u)=E[Y X=u]$
  • 对应的 MSE 最小值为 $E[(Y-E[Y X])^{2}]=E[Y^{2}]-E[(E[Y X])^{2}]$

先根据联合概率分布 fX,Y 计算 fXfY|X
再对每一个给定的 u ,确定 g(u) , 即利用积分计算条件期望
然后计算每一个给定的 u 对应的 MSE 再乘上相对应的 fX(u) ,积分得到最终结果

  • 线性估计
    根据逐步优化的结果,我们有给 Y 的线性近似 aX+b

a=Cov(Y,X)Var(X)b=μYaμX

时,我们有 MSE 最小,此时

L(X)=E^[Y|X]=μY+Cov(Y,X)Var(X)(XμX)=μY+σYρX,Y(XμXσX)MSE=σY2(Cov(X,Y))2Var(X)=σY2(1ρX,Y2)=E[Y2]E[E^[Y|X]2]

4. 联合高斯随机分布
联合高斯分布随机变量 ->对于这些随机变量的线性组合满足高斯分布
15534014eb9d176ba8e06a488371b89.png 405944df000a08b79256eaabe4cba4d.png

acde56f27824dff9e14f306edce8a95.png

9b7521b0b8ab13ba993482c3e3b8471.png f60c3b914527a327f53e501428567df.png