[统计推断]第四章·二维随机变量

本篇是《统计推断》第四章多维随机变量的前 5 节内容,主要关注于二维随机变量。

1 联合分布与边缘分布

n 维随机向量:样本空间 S 到欧氏空间 Rn 的函数。

联合 pmf / pdfP((X,Y)A)={(x,y)Af(x,y)discreteAf(x,y)dxdycontinuous 期望E[g(X,Y)]={(x,y)R2g(x,y)f(x,y)discrete++g(x,y)f(x,y)dxdycontinuous 边缘 pmf / pdffX(x)={yRfX,Y(x,y)discrete+fX,Y(x,y)dycontinuous 联合 cdfF(x,y)=P(Xx,Yy) 对连续二维随机向量: 2F(x,y)xy=f(x,y)

2 条件分布与独立性

2.1 条件分布、条件期望、条件方差

conditional pmf / pdf:设 fX(x)>0f(yx)=f(x,y)fX(x) 条件期望E[g(Y)X=x]={yg(y)f(yx)discrete+g(y)f(yx)dycontinuous 条件方差Var(YX=x)=E[Y2X=x](E[YX=x])2 Y 在条件 X=x 下的条件分布通常因 x 的取值而异,所以我们实际上得到了 y 的一族概率分布,每一个分布对应着一个 x。类似的,E[g(Y)X=x]x 的函数,因此 E[g(Y)X] 是一个取值依赖于 X 的随机变量。

2.2 独立的定义和一个充要条件

独立f(x,y)=fX(x)fY(y) 易知:f(yx)=fY(y),即条件 X=x 并没有提供关于 Y 的额外信息。


引理XY 独立当且仅当存在函数 g(x)h(y),使得对于任意 x,yR 都有: f(x,y)=g(x)h(y) Proof. 取 g(x)=fX(x),h(y)=fY(y) 即可证明必要性。为证明充分性,不妨设 X,Y 都是连续随机变量,并令: c=+g(x)dxd=+h(y)dy 则: cd=++g(x)h(y)dxdy=++f(x,y)dxdy=1 且边缘 pdf 为: fX(x)=+f(x,y)dy=+g(x)h(y)dy=dg(x)fY(y)=+f(x,y)dx=+g(x)h(y)dx=ch(y) 于是: f(x,y)=g(x)h(y)=cdg(x)h(y)=fX(x)fY(y) Q.E.D.

注记:虽然 并不意味着 就是边缘分布,但是他们和边缘分布呈倍数关系,且这两个倍数的系数乘积为 .

2.3 独立随机变量的期望和矩母函数

独立随机变量下,某些计算将变得十分简单:

定理:设 是独立随机变量,则: Proof. 不妨设 是连续随机变量,则: Q.E.D.


应用上述定理,我们可以推导两个独立随机变量的和的矩母函数:

定理:设独立随机变量 的矩母函数分别为 ,则随机变量 的矩母函数为 .

Proof. Q.E.D.

例【独立正态随机变量的和】设 是两个独立的正态随机变量,则随机变量 服从 .

Proof. 根据前面章节的计算,我们知道 的矩母函数分别是: 于是根据上一条定理,有: 于是 .

Q.E.D.

3 二维变换

3.1 二维随机向量的向量函数

是概率分布已知的二维随机向量,考察新的二维随机向量 ,其中 .

是离散的,则存在一个可数集 使得 的联合 pmf 在其上取值大于 . 令 ,则 是离散随机向量 全体可能的取值所构成的集合,是可数集。记 ,则:

例【独立泊松随机变量的和】设 是一对独立的泊松随机变量,参数分别为 ,则 服从参数为 的泊松分布。

是连续的,且 都是一对一的,则我们能从中解出逆变换:. 定义 Jacobi 行列式: 则: > 回忆第二章中,随机变量的单调函数的结论: > > 可以看见他们具有类似的形式,二维情形就是一维的拓展。

3.2 独立随机变量的函数依然独立

定理:设 是一对独立的随机变量, 的一元函数, 的一元函数,则随机变量 独立。

Proof. 不妨设 都是连续随机变量。记:,则 的联合 cdf 为: 故联合 pdf 为: 该乘积的第一项是 的函数,第二项是 的函数,由上一节独立的充要条件知 独立。

Q.E.D.

4 多层模型与混合分布

4.1 多层模型

把事件分层建模往往更加容易。一个经典的例子是,一只昆虫产下大量的卵,已知每颗卵的成活率为 ,问平均有多少颗卵能存活?

昆虫产卵的数量 是一个服从参数为 的泊松分布的随机变量,存活卵的数量 是一个服从参数为 的二项分布的随机变量,因此我们可以建立分层模型: 那么 实际上具有如下分布: ,与 没有关系。

4.2 重期望公式

重期望公式:设 是任意随机变量,若下列期望存在,则有: Proof. 设 是联合 pdf,则: Q.E.D.

4.3 混合分布

混合分布指的是多层模型导出的分布,可以定义为:若随机变量 的分布依赖于服从某分布的另一个量,则称 服从混合分布。

例【Poisson-Gamma 混合分布】 有多层模型: 的边缘分布(当 时)为负二项分布:

4.4 方差恒等式

是任意随机变量,若下列期望存在,则有: Proof. 根据 和重期望公式,有: Q.E.D.

5 协方差与相关系数

5.1 定义

随机变量 协方差为: 相关系数为:

5.2 定理

定理:设 是任意随机变量,则: Proof. Q.E.D.


定理:设 是一对独立的随机变量,则 .

Proof. 由于 独立,根据上一篇的定理知 ,故 . Q.E.D.

但是, 并不代表 独立。


定理:设 是任意随机变量, 是任意两个常量,则: Proof. Q.E.D.

特别的,如果 独立,那么 .

5.3 协方差与相关本质是度量线性关系

定理:设 是任意随机变量,则:

  1. 当且仅当存在数 以及 使得 . 若 ,则 ;若 ,则 .

Proof. 考察关于 的函数 这是一个二次函数。由于对于任意 是一个非负随机变量的期望,所以其值非负,故二次函数判别式小于等于 得到: 这证明了第一个结论。

另外,当 时,,说明 有一个二重根,设为 ,即 . 为书写方便,记 ,则 可以看出, 当且仅当 ,即: 也即: 即得第二个结论的前半部分。

又因为从 中可以解出:,可以看出 同号,这证明了第二个结论的后半部分。

Q.E.D.

例【依赖关系很强但相关系数很小】:设 ,且 独立。令 ,考察随机向量 ,在给定 的条件下,,条件分布是 ,即: 于是联合分布: 下图显示了 的支撑集:

可以看出, 有着很强的依赖关系,但这种关系是非线性的,我们下面证明,它们的相关系数其实是 .

由于 ,故 进而 .

5.4 二维正态分布

,则期望为 、方差为 、相关系数为 的二维正态概率密度函数为: 二维正态分布有很多很好的性质:

  1. 的边缘分布为
  2. 的边缘分布为
  3. 的相关系数为
  4. 对任意常量

注意,二维正态分布的所有边缘分布都是正态的,但是边缘分布是正态的并不能说明联合分布是正态的。


[统计推断]第四章·二维随机变量
https://xyfjason.github.io/blog-main/2022/03/14/统计推断-第四章·二维随机变量/
作者
xyfJASON
发布于
2022年3月14日
许可协议