[统计推断]第四章·多维随机变量和不等式

\[ \newcommand{\E}{\mathbb E} \newcommand{\R}{\mathbb R} \newcommand{\d}{\mathrm d} \newcommand{\Var}{\mathrm{Var}} \newcommand{\Cov}{\mathrm{Cov}} \]

本篇是《统计推断》第四章多维随机变量的后 2 节内容，主要关注于多维随机变量和一些不等式。

1 多维分布

关于记号：用黑体表示向量，如 \(\mathbf X=(X_1,\ldots,X_n)\)，\(\mathbf x=(x_1,\ldots,x_n)\).

1.1 相关概念定义

设随机向量 \(\mathbf X\) 的样本空间是 \(\mathbb R^n\) 的子集。若 \(\mathbf X\) 为离散随机向量，则联合概率质量函数为： \[ f(x_1,\ldots,x_n)=P(X_1=x_1,\ldots,X_n=x_n) \] 且对任意 \(A\subset \mathbb R^n\)，有 \[ P(\mathbf X\in A)=\sum_{\mathbf x\in A}f(\mathbf x) \] 若 \(\mathbf X\) 为连续随机向量，则联合概率密度函数满足 \[ P(\mathbf X\in A)=\int\cdots\int_A f(\mathbf x)\mathrm d\mathbf x=\int\cdots\int_A f(x_1,\ldots,x_n)\mathrm d x_1\cdots \mathrm dx_n \] 设 \(g(\mathbf x)\) 是定义在 \(\mathbf X\) 样本空间上的实值函数，则 \(g(\mathbf X)\) 是随机变量，期望为： \[ \E[g(\mathbf X)]=\begin{cases} \int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}g(\mathbf x)f(\mathbf x)\mathrm dx&\text{continuous}\\ \sum_{\mathbf x\in\mathbb R^n}g(\mathbf x)f(\mathbf x) \end{cases} \] 边缘 pmf/pdf 由联合 pmf/pdf 关于其余分量求积分/求和得到。例如 \((X_1,\ldots,X_n)\) 的前 \(k\) 个分量 \((X_1,\ldots,X_k)\) 的边缘 pdf 为： \[ f(x_1,\ldots,x_k)=\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}f(x_1,\cdots,x_n)\mathrm dx_{k+1}\cdots\mathrm dx_n \] 条件 pmf/pdf 由联合 pmf/pdf 除以其余分量的边缘 pmf/pdf 得到。例如，若 \(f(x_1,\ldots,x_k)>0\)，则 \((X_{k+1},\ldots,X_n)\) 在条件 \(X_1=x_1,\ldots,X_n=x_n\) 下的 pdf/pmf 为： \[ f(x_{k+1},\ldots,x_n\mid x_1,\ldots,x_k)=\frac{f(x_1,\ldots,x_n)}{f(x_1,\ldots,x_k)} \]

1.2 多项分布——二项分布的推广

回顾二项分布： \[ P(X=x\mid n,p)=\binom{n}{x}p^x(1-p)^{n-x},\quad x=0,1,2,\ldots,n \] 表示 \(n\) 次独立伯努利试验中成功 \(x\) 次的概率。

设 \(m,n\) 为正整数，数 \(p_1,\ldots,p_n\) 满足 \(0\leq p_i\leq 1\)，且 \(\sum_{i=1}^N p_i=1\)，若随机向量 \((X_1,\ldots,X_n)\) 的联合 pmf 为： \[ f(x_1,\ldots,x_n)=\frac{m!}{x_1!\cdots x_n!}p_1^{x_1}\cdots p_n^{x_n}=m!\prod_{i=1}^n\frac{p_i^{x_i}}{x_i!} \] 其中 \(x_i\) 均为非负整数且 \(\sum_{i=1}^nx_i=m\)，则称 \((X_1,\ldots,X_n)\) 服从 \(m\) 次试验、元概率为 \(p_1,\ldots,p_n\) 的多项分布（multinomial distribution）。

与二项分布类似，多项分布的意义是：做 \(m\) 次独立试验，每次试验有 \(n\) 中可能的结果，发生概率分别为 \(p_1,\ldots,p_n\)，随机变量 \(X_i\) 表示第 \(i\) 种结果出现的次数。

二项分布中的系数称为二项式系数，类似的，多项分布中的系数是多项式系数： \[ \binom{m}{x_1,\ldots,x_n}=\frac{m!}{x_1!\cdots x_n!} \] 表示将 \(m\) 个物品分为 \(n\) 类，第 \(i\) 类有 \(x_i\) 个物品的方案数。

二项式定理可以推广为多项式定理：设 \(m,n\) 为正整数，\(A\) 是满足每个 \(x_i\) 都是非负整数且 \(\sum_{i=1}^nx_i=m\) 的全体向量 \(\mathbf x=(x_1,\ldots,x_n)\) 的集合，则对任意实数 \(p_1,\ldots,p_n\)，有： \[ (p_1+\cdots+p_n)^m=\sum_{\mathbf x\in A}\frac{m!}{x_1!\cdots x_n!}p_1^{x_1}\cdots p_n^{x_n} \] 根据多项式定理，容易知道多项分布的 pmf 之和确实为 1，而集合 \(A\) 恰是其支撑集.

根据多项分布的意义，不难想到其第 \(i\) 个分量的边缘分布是 \(\text{binomial}(m,p_i)\). 事实上，以第 \(n\) 个分量为例： \[ \begin{align} f(x_n)&=\sum_{(x_1,\ldots,x_{n-1})}\frac{m!}{x_1!\cdots x_{n}!}p_1^{x_1}\cdots p_n^{x_n}\\ &=\sum_{(x_1,\ldots,x_{n-1})}\frac{m!}{x_1!\cdots x_{n}!}p_1^{x_1}\cdots p_n^{x_n}\frac{(m-x_n)!(1-p_n)^{m-x_n}}{(m-x_n)!(1-p_n)^{m-x_n}}\\ &=\left(\frac{m!}{x_n!(m-x_n)!}(1-p_n)^{m-x_n}p_n^{x_n}\right)\left(\sum_{(x_1,\ldots,x_{n-1})}\frac{(m-x_n)!}{x_1!\cdots x_{n-1}!}\prod_{i=1}^{n-1}\left(\frac{p_i}{1-p_n}\right)^{x_i}\right)\\ &=\frac{m!}{x_n!(m-x_n)!}(1-p_n)^{m-x_n}p_n^{x_n} \end{align} \] 同样根据多项分布的意义，不难想到在第 \(i\) 个分量的条件下，其余分量服从 \(m-x_i\) 次试验、元概率为 \(p_1/(1-p_i),\ldots\) 的多项分布。事实上，以第 \(n\) 个分量作为条件为例： \[ \begin{align} f(x_1,\ldots,x_{n-1}\mid x_n)&=\frac{f(x_1,\ldots,x_n)}{f(x_n)}\\ &=\frac{\dfrac{m!}{x_1!\cdots x_n!}p_1^{x_1}\cdots p_n^{x_n}}{\dfrac{m!}{x_n!(m-x_n)!}(1-p_n)^{m-x_n}p_n^{x_n}}\\ &=\frac{(m-x_n)!}{x_1!\cdots x_{n-1}!}\prod_{i=1}^{n-1}\left(\frac{p_i}{1-p_n}\right)^{x_i} \end{align} \]

多项分布的任意两个分量都是负相关的，且： \[ \Cov(X_i,X_j)=-mp_ip_j \] Proof.

首先，由于多项分布的边缘分布是 \(\text{binomial}(m,p_i)\)，所以 \(\E X_i=mp_i\)，\(\Var X_i=mp_i(1-p_i)\)，\(\E X_i^2=\Var X_i+(\E X_i)^2=mp_i(1-p_i+mp_i)\).

其次，在 \(X_j=x_j\) 的条件下，其余分量是一个多项分布，因此 \(X_i\) 服从这个多项分布的边缘分布 \(\text{binomial}\left(m-x_j,\frac{p_i}{1-p_j}\right)\)，故 \(\E[X_i\mid X_j=x_j]=(m-x_j)p_i/(1-p_j)\).

于是： \[ \begin{align} \E[X_iX_j]&=\E[\E[X_iX_j\mid X_j]]&&\text{重期望公式}\\ &=\E[X_j\E[X_i\mid X_j]]\\ &=\E\left[\frac{X_j(m-X_j)p_i}{(1-p_j)}\right]\\ &=\frac{p_i}{(1-p_j)}(m \E X_j-\E X_j^2)\\ &=\frac{p_i}{(1-p_j)}(m^2p_j-mp_j(1-p_j+mp_j))\\ &=m(m-1)p_ip_j \end{align} \] 进而： \[ \begin{align} \Cov(X_i,X_j)&=\E[X_iX_j]-\E[X_i]\E[X_j]\\ &=m(m-1)p_ip_j-mp_imp_j\\ &=-mp_ip_j \end{align} \] Q.E.D.

1.3 独立性

前一篇讲了两个随机变量的独立性，我们将其进一步扩展：设 \(\mathbf X_1,\ldots,\mathbf X_n\) 是一列随机向量，其联合 pdf/pmf 为 \(f(\mathbf x_1,\ldots,\mathbf x_n)\)，\(\mathbf X_i\) 的边缘 pdf/pmf 维 \(f_{\mathbf X_i}(\mathbf x_i)\)，若对任意 \(x_1,\ldots,x_n\)，都有

\[ f(\mathbf x_1,\ldots,\mathbf x_n)=f_{\mathbf X_1}(x_1)\cdots f_{\mathbf X_n}(x_n)=\prod_{i=1}^nf_{\mathbf X_i}(\mathbf x_i) \] 则称 \(\mathbf X_1,\ldots,\mathbf X_n\) 是相互独立的随机向量；若每个 \(X_i\) 都是一维的，则称 \(X_1,\ldots,X_n\) 是相互独立的随机变量。

注意：相互独立比两两独立更强，可以构造出两两独立的一组随机向量，但它们并不相互独立。

二维情形下的许多定理可以直接推广到多维情形：

定理：设 \(X_1,\ldots,X_n\) 是相互独立的随机变量，\(g_1,\ldots,g_n\) 是实值一元函数，则： \[ \E[g_1(X_1)\cdots g_n(X_n)]=\E[g_1(X_1)]\cdots\E[g_n(X_n)] \] 定理：设 \(X_1,\ldots,X_n\) 是相互独立的随机变量，矩母函数分别是 \(M_{X_1}(t),\ldots,M_{X_n}(t)\)，令 \(Z=X_1+\cdots+X_n\)，则 \(Z\) 的矩母函数为： \[ M_Z(t)=M_{X_1}(t)\cdots M_{X_N}(t) \]

例【伽玛变量和】伽玛分布的矩母函数为 \(M(t)=(1-\beta t)^{-\alpha}\)，若 \(X_i\sim \text{Gamma}(\alpha_i,\beta)\)，则 \(Z=X_1+\cdots+X_n\) 的矩母函数为： \[M_Z(t)=(1-\beta t)^{-\alpha_1}\cdots(1-\beta t)^{-\alpha_n}=(1-\beta t)^{-(\alpha_1+\cdots+\alpha_n)}\] 故 \(Z\sim\text{Gamma}(\alpha_1+\cdots+\alpha_n,\beta)\).

定理：设 \(X_1,\ldots,X_n\) 是相互独立的随机变量，矩母函数分别是 \(M_{X_1}(t),\ldots,M_{X_n}(t)\)，令 \(Z=(a_1X_1+b_1)+\cdots(a_nX_n+b_n)\)，则 \(Z\) 的矩母函数为： \[ M_Z(t)=\left(e^{t\sum b_i}\right)M_{X_1}(a_1t)\cdots M_{X_n}(a_nt) \] Proof. \[ \begin{align} M_Z(t)&=\E e^{tZ}\\ &=\E\left[e^{t\sum (a_iX_i+b_i)}\right]\\ &=\left(e^{t\sum b_i}\right)\E\left[e^{ta_1X_1}\cdots e^{ta_nX_n}\right]\\ &=\left(e^{t\sum b_i}\right)M_{X_1}(a_1t)\cdots M_{X_n}(a_nt) \end{align} \] Q.E.D.

例【独立正态随机变量值和仍然服从正态分布】：设 \(X_1,\ldots,X_n\) 是相互独立的随机变量，且 \(X_i\sim N(\mu_i,\sigma^2_i)\)，则： \[Z=\sum_{i=1}^n(a_iX_i+b_i)\sim N\left(\sum_{i=1}^n(a_i\mu_i+b_i),\sum_{i=1}^na_i^2\sigma_i^2\right)\] Proof. 回忆 \(N(\mu,\sigma^2)\) 随机变量的矩母函数为 \(M(t)=\exp(\mu t+\sigma^2t^2/2)\)，于是 \[\begin{align}M_Z(t)&=\left(e^{t\sum b_i}\right) \exp({\mu_1a_1t+\sigma_1^2a_1^2t^2/2})\cdots \exp({\mu_na_nt+\sigma_n^2a_n^2t^2/2})\\&=\left(e^{t\sum b_i}\right) \exp\left({\sum\mu_ia_it+\sigma_i^2a_i^2t^2/2}\right)\\&=\exp\left[\left(\sum(a_i\mu_i+b_i)\right)t+\left(\sum a_i^2\sigma_i^2\right)t^2/2\right]\\\end{align}\] 故 \(Z\sim N\left(\sum(a_i\mu_i+b_i),\sum a_i^2\sigma_i^2\right)\).

Q.E.D.

定理（独立的充要条件）：设 \(\mathbf X_1,\ldots,\mathbf X_n\) 是一列随机向量，则 \(\mathbf X_1,\ldots,\mathbf X_n\) 相互独立当且仅当存在函数 \(g_i(\mathbf x_i)\) 使得 \((\mathbf X_1,\ldots,\mathbf X_n)\) 的联合 pdf/pmf 可以写作： \[ f(\mathbf x_1,\ldots,\mathbf x_n)=g_1(\mathbf x_1)\cdots g_n(\mathbf x_n) \] 定理：设 \(\mathbf X_1,\ldots,\mathbf X_n\) 是一列独立的随机向量，\(g_i(\mathbf x_i)\) 是一元函数，则随机变量 \(U_i=g_i(\mathbf X_i)\) 相互独立。

1.4 随机向量变换的分布

设随机向量 \((X_1,\ldots,X_n)\) 的 pdf 为 \(f_\mathbf X(x_1,\ldots,x_n)\)，\(\mathbf A=\{x:f_\mathbf X(x)>0\}\). 考察新的随机向量 \((U_1,\ldots,U_n)\)，其中 \(U_i=g_i(X_1,\ldots,X_n)\). 设 \(A_0,A_1,\ldots,A_k\) 是 \(\mathbf A\) 的一个划分且 \(P((X_1,\ldots,X_n)\in A_0)=0\). 对所有 \(i=1,\ldots,k\)，变换 \((U_1,\ldots,U_n)=(g_1(\mathbf X),\ldots,g_n(\mathbf X))\) 都是从 \(A_i\) 到 \(\mathbf B\) 的一对一变换，因此对每个 \(i\) 都存在从 \(\mathbf B\) 到 \(A_i\) 的逆变换。记第 \(i\) 个逆变换为 \(x_1=h_{1i}(u_1,\ldots,u_n),\ldots,x_n=h_{ni}(u_1,\ldots,u_n)\)，则对任意 \((u_1,\ldots,u_n)\in\mathbf B\)，它确定了唯一的 \((x_1,\ldots,x_n)\in A_i\) 使得 \((u_1,\ldots,u_n)=(g_1(x_1,\ldots,x_n),\ldots,g_n(x_1,\ldots,x_n))\). 记 \(J_i\) 为第 \(i\) 个逆变换的 Jacobi 行列式： \[ J_i=\begin{vmatrix} \frac{\partial x_1}{\partial u_1}&\frac{\partial x_1}{\partial u_2}&\cdots&\frac{\partial x_1}{\partial u_n}\\ \frac{\partial x_2}{\partial u_1}&\frac{\partial x_2}{\partial u_2}&\cdots&\frac{\partial x_2}{\partial u_n}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial x_n}{\partial u_1}&\frac{\partial x_n}{\partial u_2}&\cdots&\frac{\partial x_n}{\partial u_n}\\ \end{vmatrix}= \begin{vmatrix} \frac{\partial h_{1i}(\mathbf u)}{\partial u_1}&\frac{\partial h_{1i}(\mathbf u)}{\partial u_2}&\cdots&\frac{\partial h_{1i}(\mathbf u)}{\partial u_n}\\ \frac{\partial h_{2i}(\mathbf u)}{\partial u_1}&\frac{\partial h_{2i}(\mathbf u)}{\partial u_2}&\cdots&\frac{\partial h_{2i}(\mathbf u)}{\partial u_n}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial h_{ni}(\mathbf u)}{\partial u_1}&\frac{\partial h_{ni}(\mathbf u)}{\partial u_2}&\cdots&\frac{\partial h_{ni}(\mathbf u)}{\partial u_n}\\ \end{vmatrix} \] 假定 \(J_i\) 在 \(\mathbf B\) 上不恒为 \(0\)，则对任意 \(\mathbf u\in\mathbf B\)，联合 pdf 可以表示为： \[ f_\mathbf U(u_1,\ldots,u_n)=\sum_{i=1}^k f_\mathbf X(h_{1i}(u_1,\ldots,u_n),\ldots,h_{ni}(u_1,\ldots,u_n))|J_i| \]

前面一堆集合划分啥的，只是为了在每个划出来的集合上有逆变换罢了。定理的重点在于，随机向量变换后，新的 pdf 不仅要把变换代入，还要乘上一个 Jacobi 行列式的绝对值。

2 不等式

2.1 数值不等式

引理：设 \(a,b,p,q\) 为任意正数，且 \(p,q\) 满足（显然 \(p,q>1\)）： \[ \frac{1}{p}+\frac{1}{q}=1 \] 则 \[ \frac{1}{p}a^p+\frac{1}{q}b^q\geq ab \] 当且仅当 \(a^p=b^q\) 时等式成立。

Proof. 考察函数 \[ g(a)=\frac{1}{p}a^p+\frac{1}{q}b^q-ab \] 求导令为零： \[ g'(a)=a^{p-1}-b=0\implies b=a^{p-1} \] 又 \(g''(a)=(p-1)a^{p-2}>0\)，故极小值为： \[ \frac{1}{p}a^p+\frac{1}{q}a^{q(p-1)}-a^p=0\quad \text{利用 }1/p+1/q=1\text{ 的条件} \] 又极小值唯一且当且仅当 \(b=a^{p-1}\)，也即 \(a^p=b^q\) 时达到。

Q.E.D.

Holder 不等式：设 \(X,Y\) 为任意随机变量，\(p,q\) 满足 \(\frac{1}{p}+\frac{1}{q}=1\)，则： \[ |\E XY|\leq \E |XY|\leq (\E|X|^p)^{1/p}(\E|Y|^q)^{1/q} \] Proof.

左边：由于 \(-|XY|\leq XY\leq |XY|\)，得 \(-\E|XY|\leq \E XY\leq \E |XY|\)，即 \(|\E XY|\leq \E |XY|\).

右边：令 \[ a=\frac{|X|}{(\E |X|^p)^{1/p}}\quad b=\frac{|Y|}{(\E |Y|^q)^{1/q}} \] 则根据引理，有： \[ \frac{1}{p}\frac{|X|^p}{\E |X|^p}+\frac{1}{q}\frac{|Y|^p}{\E |Y|^q}\geq \frac{|XY|}{(\E|X|^p)^{1/p}(\E|Y|^q)^{1/q}} \] 对两边取期望，左边期望为 \(1\)，因此： \[ \E|XY|\leq (\E|X|^p)^{1/p}(\E|Y|^q)^{1/q} \] Q.E.D.

Cauchy-Schwarz 不等式：在 Holder 不等式中，取 \(p=q=2\)，得： \[ |\E XY|\leq \E |XY|\leq (\E|X|^2)^{1/2}(\E|Y|^2)^{1/2} \]

协方差不等式：根据 Cauchy-Schwarz 不等式，有： \[ |\E (X-\E X)(Y-\E Y)|\leq (\E (X-\E X)^2)^{1/2}(\E (Y-\E Y)^2)^{1/2} \] 两边平方，即得到： \[ \Cov(X,Y)^2\leq \Var X\Var Y \]

Liapounov 不等式：在 Holder 不等式中，令 \(Y\equiv 1\)，则： \[ \E |X|\leq (\E |X|^p)^{1/p}\quad p>1 \] 对任意 \(1<r<p\)，用 \(|X|^r\) 代替上式中的 \(|X|\)，则： \[ \E |X|^r\leq (\E |X|^{pr})^{1/p} \] 做变量替换 \(s=pr>r\)，得到： \[ (\E |X|^{r})^{1/r}\leq (\E|X|^s)^{1/s}\quad 1<r<s \]

Minkowski 不等式：设 \(X,Y\) 为任意随机变量，则对任意 \(p>1\)，有： \[ [\E|X+Y|^p]^{1/p}\leq [\E |X|^p]^{1/p}+[\E |Y|^p]^{1/p} \] Proof. 由三角不等式 \(|X+Y|\leq |X|+|Y|\)，有： \[ \E|X+Y|^p=\E\left[|X+Y||X+Y|^{p-1}\right]\leq \E\left[|X||X+Y|^{p-1}\right]+\E\left[|Y||X+Y|^{p-1}\right] \] 对上式右端两个期望分别使用 Holder 不等式，得到： \[ \E|X+Y|^p\leq (\E |X|^p)^{1/p}\left(\E |X+Y|^{q(p-1)}\right)^{1/q}+(\E |Y|^p)^{1/p}\left(\E |X+Y|^{q(p-1)}\right)^{1/q} \] 其中 \(q\) 满足 \(\frac{1}{p}+\frac{1}{q}=1\)，即 \(q=\frac{p}{p-1}\). 两边除以 \(\left(\E |X+Y|^{q(p-1)}\right)^{1/q}\)，则右边即为所求，左边为： \[ \frac{\E |X+Y|^p}{\left(\E |X+Y|^{q(p-1)}\right)^{1/q}}=\frac{\E |X+Y|^p}{\left(\E |X+Y|^{p}\right)^{1-1/p}}=\left(\E |X+Y|^p\right)^{1/p} \] 亦为所求。Q.E.D.

2.2 函数不等式

凸函数：如果对任意 \(x,y\) 以及 \(0<\lambda<1\)，函数 \(g(x)\) 都满足 \(g(\lambda x+(1-\lambda)y)\leq \lambda g(x)+(1-\lambda)g(y)\)，则称 \(g(x)\) 为凸函数；如果 \(-g(x)\) 是凸函数，则称 \(g(x)\) 为凹函数。

Jensen 不等式：设 \(X\) 是任意随机变量，如果 \(g(x)\) 是凸函数，则： \[ \E g(X)\geq g(\E X) \] 等号成立当且仅当对于 \(g(x)\) 在 \(x=\E X\) 处的切线 \(l(x)=ax+b\)，有 \(P(g(X)=aX+b)=1\).

Proof. 设 \(g(x)\) 在 \(x=\E X\) 处的切线为 \(l(x)=ax+b\)，由 \(g(x)\) 的凸性可知 \(g(x)\geq ax+b\)，于是： \[ \E g(X)\geq \E [aX+b]=a \E X+b=l(\E X)=g(\E X) \] Q.E.D.

若对 \(g(x)=x^2\) 使用 Jensen 不等式，得到： \[ \E X^2\geq (\E X)^2 \] 若对 \(g(x)=1/x\) 使用 Jensen 不等式，得到： \[ \E \frac{1}{X}\geq \frac{1}{\E X} \]

均值不等式：设 \(a_1,\ldots,a_n\) 均为正数，令： \[ \begin{align} &a_A=\frac{1}{n}(a_1+\cdots+a_n)\\ &a_G=(a_1\cdots a_n)^{1/n}\\ &a_H=\frac{n}{\frac{1}{a_1}+\cdots+\frac{1}{a_n}} \end{align} \] 则： \[ a_H\leq a_G\leq a_A \] Proof. 我们可以利用 Jensen 不等式完成证明。设随机变量 \(X\) 取值范围为 \(\{a_1,\ldots,a_n\}\) 且各取值概率相等，由于 \(\log x\) 是凹函数，所以： \[ \begin{align} &\log a_G=\frac{1}{n}\sum_{i=1}^n\log a_i=\E[\log X]\leq\log \E X=\log\left(\frac{1}{n}\sum_{i=1}^n a_i\right)=\log a_A\\ &\log\frac{1}{a_H}=\log\left(\frac{1}{n}\sum_{i=1}^n\frac{1}{a_i}\right)=\log \E\frac{1}{X}\geq \E \left[\log\frac{1}{X}\right]=-\frac{1}{n}\sum_{i=1}^n\log a_i=-\log a_G=\log\frac{1}{a_G} \end{align} \] Q.E.D.

协方差不等式 - Ⅱ：设 \(X\) 是任意随机变量，\(g(x),h(x)\) 是任意函数且 \(\E g(X),\E h(X)\) 与 \(\E g(X)h(X)\) 均存在，

若 \(g(x)\) 是递增函数，\(h(x)\) 是递减函数，则 \[ \E[g(X)h(X)]\leq (\E g(X))(\E h(X)) \]
若 \(g(x), h(x)\) 同为递增或递减函数，则 \[ \E [g(X)h(X)]\geq (\E g(X))(\E h(X)) \]

协方差不等式有明显的直观解释：上面两种情形恰好反映了 \(g,h\) 之间的负相关和正相关，借助该不等式我们可以直接估计期望，而无需计算高阶矩。

课程书籍笔记 > 统计推断

#statistics

[统计推断]第四章·多维随机变量和不等式

https://xyfjason.github.io/blog-main/2022/07/30/统计推断-第四章·多维随机变量和不等式/

作者

xyfJASON

发布于

2022年7月30日

许可协议

PyTorch单机多卡从入门到入土（坑点记录）上一篇

各种函数的hard与soft形式下一篇