[统计推断]第四章·多维随机变量和不等式
\[ \newcommand{\E}{\mathbb E} \newcommand{\R}{\mathbb R} \newcommand{\d}{\mathrm d} \newcommand{\Var}{\mathrm{Var}} \newcommand{\Cov}{\mathrm{Cov}} \]
本篇是《统计推断》第四章多维随机变量的后 2 节内容,主要关注于多维随机变量和一些不等式。
1 多维分布
关于记号:用黑体表示向量,如 \(\mathbf X=(X_1,\ldots,X_n)\),\(\mathbf x=(x_1,\ldots,x_n)\).
1.1 相关概念定义
设随机向量 \(\mathbf X\) 的样本空间是 \(\mathbb R^n\) 的子集。若 \(\mathbf X\) 为离散随机向量,则联合概率质量函数为: \[ f(x_1,\ldots,x_n)=P(X_1=x_1,\ldots,X_n=x_n) \] 且对任意 \(A\subset \mathbb R^n\),有 \[ P(\mathbf X\in A)=\sum_{\mathbf x\in A}f(\mathbf x) \] 若 \(\mathbf X\) 为连续随机向量,则联合概率密度函数满足 \[ P(\mathbf X\in A)=\int\cdots\int_A f(\mathbf x)\mathrm d\mathbf x=\int\cdots\int_A f(x_1,\ldots,x_n)\mathrm d x_1\cdots \mathrm dx_n \] 设 \(g(\mathbf x)\) 是定义在 \(\mathbf X\) 样本空间上的实值函数,则 \(g(\mathbf X)\) 是随机变量,期望为: \[ \E[g(\mathbf X)]=\begin{cases} \int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}g(\mathbf x)f(\mathbf x)\mathrm dx&\text{continuous}\\ \sum_{\mathbf x\in\mathbb R^n}g(\mathbf x)f(\mathbf x) \end{cases} \] 边缘 pmf/pdf 由联合 pmf/pdf 关于其余分量求积分/求和得到。例如 \((X_1,\ldots,X_n)\) 的前 \(k\) 个分量 \((X_1,\ldots,X_k)\) 的边缘 pdf 为: \[ f(x_1,\ldots,x_k)=\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}f(x_1,\cdots,x_n)\mathrm dx_{k+1}\cdots\mathrm dx_n \] 条件 pmf/pdf 由联合 pmf/pdf 除以其余分量的边缘 pmf/pdf 得到。例如,若 \(f(x_1,\ldots,x_k)>0\),则 \((X_{k+1},\ldots,X_n)\) 在条件 \(X_1=x_1,\ldots,X_n=x_n\) 下的 pdf/pmf 为: \[ f(x_{k+1},\ldots,x_n\mid x_1,\ldots,x_k)=\frac{f(x_1,\ldots,x_n)}{f(x_1,\ldots,x_k)} \]
1.2 多项分布——二项分布的推广
回顾二项分布: \[ P(X=x\mid n,p)=\binom{n}{x}p^x(1-p)^{n-x},\quad x=0,1,2,\ldots,n \] 表示 \(n\) 次独立伯努利试验中成功 \(x\) 次的概率。
设 \(m,n\) 为正整数,数 \(p_1,\ldots,p_n\) 满足 \(0\leq p_i\leq 1\),且 \(\sum_{i=1}^N p_i=1\),若随机向量 \((X_1,\ldots,X_n)\) 的联合 pmf 为: \[ f(x_1,\ldots,x_n)=\frac{m!}{x_1!\cdots x_n!}p_1^{x_1}\cdots p_n^{x_n}=m!\prod_{i=1}^n\frac{p_i^{x_i}}{x_i!} \] 其中 \(x_i\) 均为非负整数且 \(\sum_{i=1}^nx_i=m\),则称 \((X_1,\ldots,X_n)\) 服从 \(m\) 次试验、元概率为 \(p_1,\ldots,p_n\) 的多项分布(multinomial distribution)。
与二项分布类似, 多项分布的意义是:做 \(m\) 次独立试验,每次试验有 \(n\) 中可能的结果,发生概率分别为 \(p_1,\ldots,p_n\),随机变量 \(X_i\) 表示第 \(i\) 种结果出现的次数。
二项分布中的系数称为二项式系数,类似的,多项分布中的系数是多项式系数: \[ \binom{m}{x_1,\ldots,x_n}=\frac{m!}{x_1!\cdots x_n!} \] 表示将 \(m\) 个物品分为 \(n\) 类,第 \(i\) 类有 \(x_i\) 个物品的方案数。
二项式定理可以推广为多项式定理:设 \(m,n\) 为正整数,\(A\) 是满足每个 \(x_i\) 都是非负整数且 \(\sum_{i=1}^nx_i=m\) 的全体向量 \(\mathbf x=(x_1,\ldots,x_n)\) 的集合,则对任意实数 \(p_1,\ldots,p_n\),有: \[ (p_1+\cdots+p_n)^m=\sum_{\mathbf x\in A}\frac{m!}{x_1!\cdots x_n!}p_1^{x_1}\cdots p_n^{x_n} \] 根据多项式定理,容易知道多项分布的 pmf 之和确实为 1,而集合 \(A\) 恰是其支撑集.
根据多项分布的意义,不难想到其第 \(i\) 个分量的边缘分布是 \(\text{binomial}(m,p_i)\). 事实上,以第 \(n\) 个分量为例: \[
\begin{align}
f(x_n)&=\sum_{(x_1,\ldots,x_{n-1})}\frac{m!}{x_1!\cdots x_{n}!}p_1^{x_1}\cdots p_n^{x_n}\\
&=\sum_{(x_1,\ldots,x_{n-1})}\frac{m!}{x_1!\cdots x_{n}!}p_1^{x_1}\cdots p_n^{x_n}\frac{(m-x_n)!(1-p_n)^{m-x_n}}{(m-x_n)!(1-p_n)^{m-x_n}}\\
&=\left(\frac{m!}{x_n!(m-x_n)!}(1-p_n)^{m-x_n}p_n^{x_n}\right)\left(\sum_{(x_1,\ldots,x_{n-1})}\frac{(m-x_n)!}{x_1!\cdots x_{n-1}!}\prod_{i=1}^{n-1}\left(\frac{p_i}{1-p_n}\right)^{x_i}\right)\\
&=\frac{m!}{x_n!(m-x_n)!}(1-p_n)^{m-x_n}p_n^{x_n}
\end{align}
\] 同样根据多项分布的意义,不难想到在第 \(i\) 个分量的条件下,其余分量服从 \(m-x_i\) 次试验、元概率为 \(p_1/(1-p_i),\ldots\) 的多项分布。事实上,以第 \(n\) 个分量作为条件为例: \[
\begin{align}
f(x_1,\ldots,x_{n-1}\mid x_n)&=\frac{f(x_1,\ldots,x_n)}{f(x_n)}\\
&=\frac{\dfrac{m!}{x_1!\cdots x_n!}p_1^{x_1}\cdots p_n^{x_n}}{\dfrac{m!}{x_n!(m-x_n)!}(1-p_n)^{m-x_n}p_n^{x_n}}\\
&=\frac{(m-x_n)!}{x_1!\cdots x_{n-1}!}\prod_{i=1}^{n-1}\left(\frac{p_i}{1-p_n}\right)^{x_i}
\end{align}
\]
多项分布的任意两个分量都是负相关的,且: \[ \Cov(X_i,X_j)=-mp_ip_j \] Proof.
首先,由于多项分布的边缘分布是 \(\text{binomial}(m,p_i)\),所以 \(\E X_i=mp_i\),\(\Var X_i=mp_i(1-p_i)\),\(\E X_i^2=\Var X_i+(\E X_i)^2=mp_i(1-p_i+mp_i)\).
其次,在 \(X_j=x_j\) 的条件下,其余分量是一个多项分布,因此 \(X_i\) 服从这个多项分布的边缘分布 \(\text{binomial}\left(m-x_j,\frac{p_i}{1-p_j}\right)\),故 \(\E[X_i\mid X_j=x_j]=(m-x_j)p_i/(1-p_j)\).
于是: \[ \begin{align} \E[X_iX_j]&=\E[\E[X_iX_j\mid X_j]]&&\text{重期望公式}\\ &=\E[X_j\E[X_i\mid X_j]]\\ &=\E\left[\frac{X_j(m-X_j)p_i}{(1-p_j)}\right]\\ &=\frac{p_i}{(1-p_j)}(m \E X_j-\E X_j^2)\\ &=\frac{p_i}{(1-p_j)}(m^2p_j-mp_j(1-p_j+mp_j))\\ &=m(m-1)p_ip_j \end{align} \] 进而: \[ \begin{align} \Cov(X_i,X_j)&=\E[X_iX_j]-\E[X_i]\E[X_j]\\ &=m(m-1)p_ip_j-mp_imp_j\\ &=-mp_ip_j \end{align} \] Q.E.D.
1.3 独立性
前一篇讲了两个随机变量的独立性,我们将其进一步扩展:设 \(\mathbf X_1,\ldots,\mathbf X_n\) 是一列随机向量,其联合 pdf/pmf 为 \(f(\mathbf x_1,\ldots,\mathbf x_n)\),\(\mathbf X_i\) 的边缘 pdf/pmf 维 \(f_{\mathbf X_i}(\mathbf x_i)\),若对任意 \(x_1,\ldots,x_n\),都有
\[ f(\mathbf x_1,\ldots,\mathbf x_n)=f_{\mathbf X_1}(x_1)\cdots f_{\mathbf X_n}(x_n)=\prod_{i=1}^nf_{\mathbf X_i}(\mathbf x_i) \] 则称 \(\mathbf X_1,\ldots,\mathbf X_n\) 是相互独立的随机向量;若每个 \(X_i\) 都是一维的,则称 \(X_1,\ldots,X_n\) 是相互独立的随机变量。
注意:相互独立比两两独立更强,可以构造出两两独立的一组随机向量,但它们并不相互独立。
二维情形下的许多定理可以直接推广到多维情形:
定理:设 \(X_1,\ldots,X_n\) 是相互独立的随机变量,\(g_1,\ldots,g_n\) 是实值一元函数,则: \[ \E[g_1(X_1)\cdots g_n(X_n)]=\E[g_1(X_1)]\cdots\E[g_n(X_n)] \] 定理:设 \(X_1,\ldots,X_n\) 是相互独立的随机变量,矩母函数分别是 \(M_{X_1}(t),\ldots,M_{X_n}(t)\),令 \(Z=X_1+\cdots+X_n\),则 \(Z\) 的矩母函数为: \[ M_Z(t)=M_{X_1}(t)\cdots M_{X_N}(t) \]
例【伽玛变量和】伽玛分布的矩母函数为 \(M(t)=(1-\beta t)^{-\alpha}\),若 \(X_i\sim \text{Gamma}(\alpha_i,\beta)\),则 \(Z=X_1+\cdots+X_n\) 的矩母函数为: \[M_Z(t)=(1-\beta t)^{-\alpha_1}\cdots(1-\beta t)^{-\alpha_n}=(1-\beta t)^{-(\alpha_1+\cdots+\alpha_n)}\] 故 \(Z\sim\text{Gamma}(\alpha_1+\cdots+\alpha_n,\beta)\).
定理:设 \(X_1,\ldots,X_n\) 是相互独立的随机变量,矩母函数分别是 \(M_{X_1}(t),\ldots,M_{X_n}(t)\),令 \(Z=(a_1X_1+b_1)+\cdots(a_nX_n+b_n)\),则 \(Z\) 的矩母函数为: \[ M_Z(t)=\left(e^{t\sum b_i}\right)M_{X_1}(a_1t)\cdots M_{X_n}(a_nt) \] Proof. \[ \begin{align} M_Z(t)&=\E e^{tZ}\\ &=\E\left[e^{t\sum (a_iX_i+b_i)}\right]\\ &=\left(e^{t\sum b_i}\right)\E\left[e^{ta_1X_1}\cdots e^{ta_nX_n}\right]\\ &=\left(e^{t\sum b_i}\right)M_{X_1}(a_1t)\cdots M_{X_n}(a_nt) \end{align} \] Q.E.D.
例【独立正态随机变量值和仍然服从正态分布】:设 \(X_1,\ldots,X_n\) 是相互独立的随机变量,且 \(X_i\sim N(\mu_i,\sigma^2_i)\),则: \[Z=\sum_{i=1}^n(a_iX_i+b_i)\sim N\left(\sum_{i=1}^n(a_i\mu_i+b_i),\sum_{i=1}^na_i^2\sigma_i^2\right)\] Proof. 回忆 \(N(\mu,\sigma^2)\) 随机变量的矩母函数为 \(M(t)=\exp(\mu t+\sigma^2t^2/2)\),于是 \[\begin{align}M_Z(t)&=\left(e^{t\sum b_i}\right) \exp({\mu_1a_1t+\sigma_1^2a_1^2t^2/2})\cdots \exp({\mu_na_nt+\sigma_n^2a_n^2t^2/2})\\&=\left(e^{t\sum b_i}\right) \exp\left({\sum\mu_ia_it+\sigma_i^2a_i^2t^2/2}\right)\\&=\exp\left[\left(\sum(a_i\mu_i+b_i)\right)t+\left(\sum a_i^2\sigma_i^2\right)t^2/2\right]\\\end{align}\] 故 \(Z\sim N\left(\sum(a_i\mu_i+b_i),\sum a_i^2\sigma_i^2\right)\).
Q.E.D.
定理(独立的充要条件):设 \(\mathbf X_1,\ldots,\mathbf X_n\) 是一列随机向量,则 \(\mathbf X_1,\ldots,\mathbf X_n\) 相互独立当且仅当存在函数 \(g_i(\mathbf x_i)\) 使得 \((\mathbf X_1,\ldots,\mathbf X_n)\) 的联合 pdf/pmf 可以写作: \[ f(\mathbf x_1,\ldots,\mathbf x_n)=g_1(\mathbf x_1)\cdots g_n(\mathbf x_n) \] 定理:设 \(\mathbf X_1,\ldots,\mathbf X_n\) 是一列独立的随机向量,\(g_i(\mathbf x_i)\) 是一元函数,则随机变量 \(U_i=g_i(\mathbf X_i)\) 相互独立。
1.4 随机向量变换的分布
设随机向量 \((X_1,\ldots,X_n)\) 的 pdf 为 \(f_\mathbf X(x_1,\ldots,x_n)\),\(\mathbf A=\{x:f_\mathbf X(x)>0\}\). 考察新的随机向量 \((U_1,\ldots,U_n)\),其中 \(U_i=g_i(X_1,\ldots,X_n)\). 设 \(A_0,A_1,\ldots,A_k\) 是 \(\mathbf A\) 的一个划分且 \(P((X_1,\ldots,X_n)\in A_0)=0\). 对所有 \(i=1,\ldots,k\),变换 \((U_1,\ldots,U_n)=(g_1(\mathbf X),\ldots,g_n(\mathbf X))\) 都是从 \(A_i\) 到 \(\mathbf B\) 的一对一变换,因此对每个 \(i\) 都存在从 \(\mathbf B\) 到 \(A_i\) 的逆变换。记第 \(i\) 个逆变换为 \(x_1=h_{1i}(u_1,\ldots,u_n),\ldots,x_n=h_{ni}(u_1,\ldots,u_n)\),则对任意 \((u_1,\ldots,u_n)\in\mathbf B\),它确定了唯一的 \((x_1,\ldots,x_n)\in A_i\) 使得 \((u_1,\ldots,u_n)=(g_1(x_1,\ldots,x_n),\ldots,g_n(x_1,\ldots,x_n))\). 记 \(J_i\) 为第 \(i\) 个逆变换的 Jacobi 行列式: \[ J_i=\begin{vmatrix} \frac{\partial x_1}{\partial u_1}&\frac{\partial x_1}{\partial u_2}&\cdots&\frac{\partial x_1}{\partial u_n}\\ \frac{\partial x_2}{\partial u_1}&\frac{\partial x_2}{\partial u_2}&\cdots&\frac{\partial x_2}{\partial u_n}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial x_n}{\partial u_1}&\frac{\partial x_n}{\partial u_2}&\cdots&\frac{\partial x_n}{\partial u_n}\\ \end{vmatrix}= \begin{vmatrix} \frac{\partial h_{1i}(\mathbf u)}{\partial u_1}&\frac{\partial h_{1i}(\mathbf u)}{\partial u_2}&\cdots&\frac{\partial h_{1i}(\mathbf u)}{\partial u_n}\\ \frac{\partial h_{2i}(\mathbf u)}{\partial u_1}&\frac{\partial h_{2i}(\mathbf u)}{\partial u_2}&\cdots&\frac{\partial h_{2i}(\mathbf u)}{\partial u_n}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial h_{ni}(\mathbf u)}{\partial u_1}&\frac{\partial h_{ni}(\mathbf u)}{\partial u_2}&\cdots&\frac{\partial h_{ni}(\mathbf u)}{\partial u_n}\\ \end{vmatrix} \] 假定 \(J_i\) 在 \(\mathbf B\) 上不恒为 \(0\),则对任意 \(\mathbf u\in\mathbf B\),联合 pdf 可以表示为: \[ f_\mathbf U(u_1,\ldots,u_n)=\sum_{i=1}^k f_\mathbf X(h_{1i}(u_1,\ldots,u_n),\ldots,h_{ni}(u_1,\ldots,u_n))|J_i| \]
前面一堆集合划分啥的,只是为了在每个划出来的集合上有逆变换罢了。定理的重点在于,随机向量变换后,新的 pdf 不仅要把变换代入,还要乘上一个 Jacobi 行列式的绝对值。
2 不等式
2.1 数值不等式
引理:设 \(a,b,p,q\) 为任意正数,且 \(p,q\) 满足(显然 \(p,q>1\)): \[ \frac{1}{p}+\frac{1}{q}=1 \] 则 \[ \frac{1}{p}a^p+\frac{1}{q}b^q\geq ab \] 当且仅当 \(a^p=b^q\) 时等式成立。
Proof. 考察函数 \[ g(a)=\frac{1}{p}a^p+\frac{1}{q}b^q-ab \] 求导令为零: \[ g'(a)=a^{p-1}-b=0\implies b=a^{p-1} \] 又 \(g''(a)=(p-1)a^{p-2}>0\),故极小值为: \[ \frac{1}{p}a^p+\frac{1}{q}a^{q(p-1)}-a^p=0\quad \text{利用 }1/p+1/q=1\text{ 的条件} \] 又极小值唯一且当且仅当 \(b=a^{p-1}\),也即 \(a^p=b^q\) 时达到。
Q.E.D.
Holder 不等式:设 \(X,Y\) 为任意随机变量,\(p,q\) 满足 \(\frac{1}{p}+\frac{1}{q}=1\),则: \[ |\E XY|\leq \E |XY|\leq (\E|X|^p)^{1/p}(\E|Y|^q)^{1/q} \] Proof.
左边:由于 \(-|XY|\leq XY\leq |XY|\),得 \(-\E|XY|\leq \E XY\leq \E |XY|\),即 \(|\E XY|\leq \E |XY|\).
右边:令 \[ a=\frac{|X|}{(\E |X|^p)^{1/p}}\quad b=\frac{|Y|}{(\E |Y|^q)^{1/q}} \] 则根据引理,有: \[ \frac{1}{p}\frac{|X|^p}{\E |X|^p}+\frac{1}{q}\frac{|Y|^p}{\E |Y|^q}\geq \frac{|XY|}{(\E|X|^p)^{1/p}(\E|Y|^q)^{1/q}} \] 对两边取期望,左边期望为 \(1\),因此: \[ \E|XY|\leq (\E|X|^p)^{1/p}(\E|Y|^q)^{1/q} \] Q.E.D.
Cauchy-Schwarz 不等式:在 Holder 不等式中,取 \(p=q=2\),得: \[
|\E XY|\leq \E |XY|\leq (\E|X|^2)^{1/2}(\E|Y|^2)^{1/2}
\]
协方差不等式:根据 Cauchy-Schwarz 不等式,有: \[
|\E (X-\E X)(Y-\E Y)|\leq (\E (X-\E X)^2)^{1/2}(\E (Y-\E Y)^2)^{1/2}
\] 两边平方,即得到: \[
\Cov(X,Y)^2\leq \Var X\Var Y
\]
Liapounov 不等式:在 Holder 不等式中,令 \(Y\equiv 1\),则: \[
\E |X|\leq (\E |X|^p)^{1/p}\quad p>1
\] 对任意 \(1<r<p\),用 \(|X|^r\) 代替上式中的 \(|X|\),则: \[
\E |X|^r\leq (\E |X|^{pr})^{1/p}
\] 做变量替换 \(s=pr>r\),得到: \[
(\E |X|^{r})^{1/r}\leq (\E|X|^s)^{1/s}\quad 1<r<s
\]
Minkowski 不等式:设 \(X,Y\) 为任意随机变量,则对任意 \(p>1\),有: \[ [\E|X+Y|^p]^{1/p}\leq [\E |X|^p]^{1/p}+[\E |Y|^p]^{1/p} \] Proof. 由三角不等式 \(|X+Y|\leq |X|+|Y|\),有: \[ \E|X+Y|^p=\E\left[|X+Y||X+Y|^{p-1}\right]\leq \E\left[|X||X+Y|^{p-1}\right]+\E\left[|Y||X+Y|^{p-1}\right] \] 对上式右端两个期望分别使用 Holder 不等式,得到: \[ \E|X+Y|^p\leq (\E |X|^p)^{1/p}\left(\E |X+Y|^{q(p-1)}\right)^{1/q}+(\E |Y|^p)^{1/p}\left(\E |X+Y|^{q(p-1)}\right)^{1/q} \] 其中 \(q\) 满足 \(\frac{1}{p}+\frac{1}{q}=1\),即 \(q=\frac{p}{p-1}\). 两边除以 \(\left(\E |X+Y|^{q(p-1)}\right)^{1/q}\),则右边即为所求,左边为: \[ \frac{\E |X+Y|^p}{\left(\E |X+Y|^{q(p-1)}\right)^{1/q}}=\frac{\E |X+Y|^p}{\left(\E |X+Y|^{p}\right)^{1-1/p}}=\left(\E |X+Y|^p\right)^{1/p} \] 亦为所求。Q.E.D.
2.2 函数不等式
凸函数:如果对任意 \(x,y\) 以及 \(0<\lambda<1\),函数 \(g(x)\) 都满足 \(g(\lambda x+(1-\lambda)y)\leq \lambda g(x)+(1-\lambda)g(y)\),则称 \(g(x)\) 为凸函数;如果 \(-g(x)\) 是凸函数,则称 \(g(x)\) 为凹函数。
Jensen 不等式:设 \(X\) 是任意随机变量,如果 \(g(x)\) 是凸函数,则: \[ \E g(X)\geq g(\E X) \] 等号成立当且仅当对于 \(g(x)\) 在 \(x=\E X\) 处的切线 \(l(x)=ax+b\),有 \(P(g(X)=aX+b)=1\).
Proof. 设 \(g(x)\) 在 \(x=\E X\) 处的切线为 \(l(x)=ax+b\),由 \(g(x)\) 的凸性可知 \(g(x)\geq ax+b\),于是: \[ \E g(X)\geq \E [aX+b]=a \E X+b=l(\E X)=g(\E X) \] Q.E.D.
若对 \(g(x)=x^2\) 使用 Jensen 不等式,得到: \[
\E X^2\geq (\E X)^2
\] 若对 \(g(x)=1/x\) 使用 Jensen 不等式,得到: \[
\E \frac{1}{X}\geq \frac{1}{\E X}
\]
均值不等式:设 \(a_1,\ldots,a_n\) 均为正数,令: \[ \begin{align} &a_A=\frac{1}{n}(a_1+\cdots+a_n)\\ &a_G=(a_1\cdots a_n)^{1/n}\\ &a_H=\frac{n}{\frac{1}{a_1}+\cdots+\frac{1}{a_n}} \end{align} \] 则: \[ a_H\leq a_G\leq a_A \] Proof. 我们可以利用 Jensen 不等式完成证明。设随机变量 \(X\) 取值范围为 \(\{a_1,\ldots,a_n\}\) 且各取值概率相等,由于 \(\log x\) 是凹函数,所以: \[ \begin{align} &\log a_G=\frac{1}{n}\sum_{i=1}^n\log a_i=\E[\log X]\leq\log \E X=\log\left(\frac{1}{n}\sum_{i=1}^n a_i\right)=\log a_A\\ &\log\frac{1}{a_H}=\log\left(\frac{1}{n}\sum_{i=1}^n\frac{1}{a_i}\right)=\log \E\frac{1}{X}\geq \E \left[\log\frac{1}{X}\right]=-\frac{1}{n}\sum_{i=1}^n\log a_i=-\log a_G=\log\frac{1}{a_G} \end{align} \] Q.E.D.
协方差不等式 - Ⅱ:设 \(X\) 是任意随机变量,\(g(x),h(x)\) 是任意函数且 \(\E g(X),\E h(X)\) 与 \(\E g(X)h(X)\) 均存在,
若 \(g(x)\) 是递增函数,\(h(x)\) 是递减函数,则 \[ \E[g(X)h(X)]\leq (\E g(X))(\E h(X)) \]
若 \(g(x), h(x)\) 同为递增或递减函数,则 \[ \E [g(X)h(X)]\geq (\E g(X))(\E h(X)) \]
协方差不等式有明显的直观解释:上面两种情形恰好反映了 \(g,h\) 之间的负相关和正相关,借助该不等式我们可以直接估计期望,而无需计算高阶矩。