Jointly Distributed Random Variables

#ECE313

Basic

Joint Cumulative Distribution Functions

Definition

利用图像定义，我们有：

对于分布在一个区域内的联合概率分布，我们有：

Proposition

Properties

Joint Probability Mass Functions & Density Functions

离散型随机变量 ->Joint Probability Mass Functions
考虑在同一个概率空间中的离散型随机变量 $X,Y$ ，其联合概率质量函数:

$$ P_{X,Y}(u,v) = P(X=u,Y=v) $$

同时结合全概率定理，我们可以由联合概率质量函数导出分别的概率质量函数

$$ P(X=u) =\sum_{j}P(X=u,Y=v_{j}) $$

这等价于

$$ p_{X}(u) =\sum_{j}p_{X,Y}(u,v_{j}) $$

在这种情况下 $p_{X},p_{Y}$ 被称为联合概率质量函数 $p_{X,Y}$ 的 marginal pmfs,另外 conditional pmfs 由如下 joint pmf 定义:

$$ P_{Y|X}(v|u_{0}) = P(Y=v |X=u_{0}) = \frac{P_{X,Y}(u_{0},v)}{P_{X}(u_{0})} $$

连续型随机变量 -Joint Probability Density Function
对于分布在同一个概率空间中的连续性随机变量 $X,Y$, 其联合概率密度函数 $f_{X,Y}$ 满足 :

$$ F_{X,Y}(u_{0},v_{0}) = \int_{-\infty}^{u_{0}}\int_{-\infty}^{v_{0}}f_{X,Y}(u,v) dudv $$

对于具体区域 $R$ 内，我们有

$$ P{(X,Y)\in R} = \int \int_{R}f_{X,Y}(u,v)dudv $$

Marginal pdfs:

$$ f_{X}(u) = \int_{-\infty}^{\infty}f_{X,Y}(u,v)dv =\int_{-\infty}^{\infty}f_{Y}(v)f_{X|Y}(u|v)du
$$

$$ f_{Y}(v) = \int_{-\infty}^{\infty}f_{X,Y}(u,v)du = \int_{-\infty}^{\infty}f_{X}(u)f_{Y|X}(v|u)du
$$

Conditional pdf:

$$ f_{Y|X}(v|u_{0}) = \frac{f_{X,Y}(u_{0},v)}{f_{X}(u_{0})} $$

期望

$$ E[g(X,Y)] = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(u,v)f_{X,Y}(u,v)dudv $$

$$ \begin{align} & E[X] = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}uf_{X,Y}(u,v)dudv
& E[Y] = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}vf_{X,Y}(u,v)dudv \end{align} $$

同时还有

$$ E[aX+bY+c] = aE[X] + bE[Y]+c $$

$$ E[Y|X=u] = \int_{-\infty}^{\infty}vf_{Y|X}(v|u)dv $$

注意 $E[Y|X=u]$ 可以视为关于 $u$ 的函数，则 $E[Y|X]$ 可以视为关于 $X$ 的函数

性质
Uniform Joint pdfs

Independence of random variables

Definition of independence for two random variables

利用 CDF 给出两随机变量独立的条件:

$$ F_{X,Y}(u_{0},v_{0})=F_{X}(u_{0})F_{Y}(v_{0}) $$

在两变量独立的情况下（即满足上式），自然地我们有推论：

Determining independence from pdf

X,Y 相互独立等价于：

$$ f_{X,Y}(u,v)=f_{X}(u)f_{Y}(v) $$

为后续命题先补充相关概念：

product set
考虑由有限不交区间所构成的两个集合的笛卡尔积
同时记 $|A|,|B|$ 分别为对应不叫集合的区间长度之和

Swap Property
$\mathbb{R}^{2}$ 的子集 S 表现为多个不交矩形的并集，显然对于 product set 其具有 swap property
Swap Property 于 Product set 的等价性

以下两个命题可用来判断自由变量是否随机分布（不一定充要）

Proposition1: 从条件概率角度出发研究变量独立性，考察 conditional pdf 是否仅与单变量有关

Proposition2:X,Y 为相互独立的联合分布连续随机变量，则 $f_{X,Y}$ 支撑集为 product set

推论：当 $X,Y$ 在平面上均匀分布时，其分布集合为 product set 等价于两自由变量随机分布

Distribution of sums of random variables

Sums of integer-valued random variables

推导方式：考虑先固定随机变量的和 k，然后对 k 进行遍历

Sums of jointly continuous-type random variables

考虑先寻找 $S=X+Y$ 的 CDF 再通过微分得到 PDF

CDF

$$ F_{S}(c) = P(S\leq c) = \int_{-\infty}^{\infty}(\int_{-\infty}^{c-u}f_{X,Y}(u,v)dv)du $$

PDF

$$ f_{S}(c) = \frac{dF_{S}(c)}{dc} = \int_{-\infty}^{\infty} \frac{d}{dc}\left( \int_{-\infty}^{c-u}f_{X,Y}(u,v)dv \right)du = \int_{-\infty}^{\infty}f_{X,Y}(u,c-u)du $$

当两者相互独立时（注意 convolution 的记号）

Example: 两满足正态分布的随机变量相加 ->考虑配方

$$ \mu = \mu_{1}+\mu_{2},\ \sigma ^{2}=\sigma_{1}^{2}+\sigma_{2}^{2} $$

Example1: 对圆环范围内积分考虑极坐标换元

Example2:Buffon Needle Problem

Example4.6.5: ML Estimator，关注如何建模多维联合 pdf，同时进行获得 ML estimator

Example4: max 函数

Joint pdfs of functions of random variables

Transformation of pdfs under a linear mapping

考虑对原有随机变量做线性变换得到新随机变量

基于线性变换 $A$, 我们可以建立一个由 $u-v$ 平面中的点 $(u,v)$ 经过线性变换得到 $\alpha - \beta$ 中的点 $(\alpha,\beta)$ 的映射

$$ \begin{pmatrix} \alpha
\beta \end{pmatrix} = A \begin{pmatrix} u
v \end{pmatrix}, \begin{pmatrix} u
v \end{pmatrix} = A^{-1} \begin{pmatrix} \alpha
\beta \end{pmatrix} $$

记变换前后联合随机变量定义域所对应的区域分别为 $R,S$,则我们有

$$ \text{area}(S) = |\det(A)|\text{area}(R) $$

Proposition

理解：通过除以面积拉伸的系数实现概率密度的对应关系

Transformation of pdfs under a one-to-one mapping

对于一般的映射 $\begin{pmatrix}W \\ Z\end{pmatrix}=g(\begin{pmatrix}X \\ Y\end{pmatrix})$ ，我们可以利用 Jacobi Matrix 结合线性近似对于特定点附近的情况进行估计

$$ g(\begin{pmatrix} u
v \end{pmatrix}) \approx g(\begin{pmatrix} u_{0}
v_{0} \end{pmatrix}) + A(\begin{pmatrix} u
v \end{pmatrix}-\begin{pmatrix} u_{0}
v_{0} \end{pmatrix}) $$

我们可以猜想：

$$ \frac{\text{area}(S)}{\text{area}(R)} \approx|\det(J)| $$

Proposition

要求:

一一映射
$g$ 存在连续且对应的 Jacobi Matrix 满秩
注意求解映射后的支撑集（考虑映射后对应的随机变量的范围限制）

Transformation of pdfs under a many-to-one mapping

当定义的函数映射存在多对一的情况是，我们修改命题 4.7.4,将映射后的联合随机变量分布修改为对满足条件的原联合随机变量分布的求和

Correlation and Covariance

Basic Concept

对于联合随机变量分布，我们考虑类比单随机变量分布的情况引入类似均值与方差的定义

Correlation 相关
Covariance 协方差
Correlation Coefficient 相关系数

简便计算协方差公式：

$$ \text{Cov}(X,Y) = E[XY]-E[X]E[Y] $$

其中 $E[XY]$ 计算如下：

$$ E[XY] = \int \int uvF_{X,Y}(u,v)dudv $$

协方差&相关：

无关定义：

$$ \begin{align} & \text{Cov}(X,Y) = 0 (\rho_{X,Y}=0)\to \text{Uncorrelated}
& \text{Cov}(X,Y) > 0 (\rho_{X,Y}>0)\to \text{Positively Correlated}
& \text{Cov}(X,Y) < 0 (\rho_{X,Y}<0)\to \text{Negatively Correlated} \end{align} $$

无关与独立关系
1. 两变量独立时一定无关:

$$ \text{Cov}(X,Y) = E[XY]-E[X]E[Y] = E[X]E[Y]-E[X]E[Y] = 0 $$

两变量无关时不一定独立，独立性质比无关强
多变量无关只需考虑每一对之间相互无关即可，但是多变量相互独立需要考虑对于其组合的任意子集均满足独立的性质
当 X 或 Y 均值为 0 时，我们有

$$ \text{Cov}(X,Y) = E[XY] $$

协方差性质
1. 协方差对于其两元素均满足线性

$$ \text{Cov}(X+Y,U+V) =\text{Cov}(X,U)+ \text{Cov}(X,V)+\text{Cov}(Y,U)+\text{Cov}(Y,V) $$

对随机变量增加常数不改变协方差

$$ \text{Cov}(aX+b,cY+d) = ac\text{Cov}(X,Y) $$

当两变量无关时，其和对应随机变量的方差等于各自方差之和

$$ \text{Var} (X+Y) = \text{Cov}(X+Y,X+Y) = \text{Cov}(X,X)+2\text{Cov}(X,Y)+\text{Cov}(Y,Y) = \text{Var}(X)+\text{Var}(Y) $$

相关系数
相关系数本质上为经过标准化的协方差，没有单位与维度,对随机变量进行线性或仿射变换不会改变相关系数

$$ \rho_{aX+b,cY+d} = \rho_{X,Y} \text{ for } a,c >0 $$

Property

柯西不等式

推论：

相关系数的绝对值越接近 1，随机变量的线性相关性越强

Example

注意表示 Sample Mean 与 Sample Variance 时常常用 $\hat{X}$ 或 $\hat{\sigma ^{2}}$

Minimum Mean Square Error Estimation

Constant Estimators

情境建模：
对于一个已知分布随机变量 Y,我们利用一个常数 $\delta$ 去估测 Y 的分布，那么估测误差为 $Y- \delta$ ,我们希望最小化MSE（Mean Square Error)

$$ MSE = E[(y-\delta)^{2}] = \int_{-\infty}^{\infty}(y-\delta)^{2}f_{Y} \, dy $$

经过配方，我们容易将 MSE 化简为与 $\delta$ 有关的二次式

$$ E[(Y-\delta)^{2}] = E[Y^{2}]-2\delta E[Y]+\delta ^{2} $$

当 $\delta = E[Y]$ 时，我们有 MSE 最小值为 $Var(Y)$
即估计的常数对应随机变量分布的均值，相应的 MSE 为其对应的方差

Unconstrained Estimators

情境建模：
希望基于随机变量 $Y$ 的观测结果 $X$ 估计 $Y$ ,我们考虑确定一个估计函数 $g(X)$ 对 Y 进行估计 ,最小化 MSE $E[Y-g(X)]^{2}$ . 最终求得的估计值 $g^{*}(X)$ 被称为 unconstrained optimal estimator

Example

注意利用条件概率公式化简（固定某一个 u,符合我们在确定观测 X 的情况下估计 Y)

[!tip] 结论
对于非限制在给定观测结果 $X$ 的情况下估计随机变量 $Y$ 的分布，我们基于常数估计量以及 conditional pdf 推导出

$E[Y X]=g^{}(X)$ 其中 $g^{}(u)=E[Y X=u]$

对应的 MSE 最小值为 $E[(Y-E[Y X])^{2}]=E[Y^{2}]-E[(E[Y X])^{2}]$

先根据联合概率分布 $f_{X,Y}$ 计算 $f_{X}$ 与 $f_{Y|X}$
再对每一个给定的 $u$ ，确定 $g^{*}(u)$ , 即利用积分计算条件期望
然后计算每一个给定的 u 对应的 MSE 再乘上相对应的 $f_{X}(u)$ ，积分得到最终结果

Linear Estimators

情境建模
考虑将用观测结果 $X$ 去线性估计随机变量 $Y$, 我们只需确定使 MSE 最小的 Linear Estimator $L(X)=aX+b$
此时 MSE 为:

$$ MSE = E[(Y-(aX+b))^{2}] $$

我们可以考虑采取分别求偏导或者累次优化的方式寻找 MSE 最小时对应的 $a,b$ 值

根据逐步优化的结果，我们有给 $Y$ 的线性近似 $aX+b$
当

$$ a = \frac{\text{Cov}(Y,X)}{\text{Var}(X)}， b = \mu_{Y}-a\mu_{X} $$

时，我们有 MSE 最小，此时

$$ \begin{align} & L(X) = \hat{E}[Y|X] = \mu_{Y}+ \frac{\text{Cov}(Y,X)}{\text{Var}(X)}(X-\mu_{X}) = \mu_{Y} + \sigma_{Y}\rho_{X,Y} \left( \frac{X-\mu_{X}}{\sigma_{X}} \right)
& MSE = \sigma_{Y}^{2}-\frac{(\text{Cov}(X,Y))^{2}}{\text{Var}(X)} = \sigma_{Y}^{2}(1-\rho ^{2}_{X,Y}) = E[Y^{2}] - E[\hat{E}[Y|X]^{2}] \end{align} $$

其中使得 MSE 最小的线性估计 $\hat{E}[Y|X]$ 又被称为 wide sense conditional expectation(广义条件期望)