Back

从马尔可夫不等式到弱大数定律

回过头来看,从马尔可夫不等式到大数定律的推导,乃是概率论到统计学的桥梁。过去一直对这里感到迷茫,但其实稍微整理一下就会很清楚:

首先是Markov不等式。

它是以俄国数学家Andrey Andreyevich Markov的名字命名,同时也有Markov Chain这个在信息论上著名的东西。这个不等式,简单而言,就是我们可以一个随机变量的期望值判断这个随机变量取值的概率:

$$P(X \geq a) \leq \dfrac{E[X]}{a} (given \ X \geq 0)$$

显而易见,随机变量大于更大的(a)的概率会越低。比方说,当​ $( a = E[X] )$的时候,我们有​$( P(X \geq E[x]) \leq 1 )$ , 这句话没有带来任何信息,因为概率必定小于等于1。 但如果$( a = 2E[X] )$​, 我们可以得到$( P(X \geq 2E[X]) \leq 0.5 )$​, 也就是说随机变量取值大于等于两倍期望值的概率必然不大于50%. 马尔可夫不等式维基百科上举例也清晰易懂:

马尔可夫不等式的一个应用是,不超过1/5的人口会有超过5倍于人均收入的收入。

「概率导论」 一书构造了一个随机变量​ $(Y_a)$来证明这个不等式:

$$
\begin{equation}
Y_a=
\begin{cases}
0, (X < a) \
a, (X \geq a)
\end{cases}
\end{equation}
$$

那么:

$$E[Y_a] = P(X < a) * 0 + P(X \geq a) * a = a*P(X \geq a)$$

我们考虑到:

$$ \quad X < a: X\geq 0 = Y_a ;\ \quad X \geq a: X\geq a = Y_a;\ $$

显而易见, ​( E(X) \geq E(Y_a) ), 而上面又说( E(Y_a)= aP(X\geq a) )​, 所以:

$$aP(X\geq a) = E(Y_a) \leq E(X) \ P(X \geq a) \leq \dfrac{E(X)}{a} $$

但我们亦容易看出,Markov不等式仅仅用了期望这一个变量进行估计,因此它的上界仍然是保守的。考虑到如果我们也知道随机变量的方差的话,我们可以更准确地对其进行预估,也就是试图把方差$(\sigma^2)​$引入上述不等式,我们得到了:

切比雪夫不等式(Chebyshev’s Inequality).

既然试图$(\sigma^2)$把​带入Markov,我们就应当去思考哪个地方可以写成方差的形式。事实上:

$$E[(X – E(X) )^2] = \sigma^2$$

构造一个$​(Z)$的随机变量,令​$( Z = (X – E[X])^2 )$, 显然​ $(Z)$也同时满足大于等于$(0)$​ 这一条件。我们再写一个关于​的Markov方程:

$$P(E(Z) \geq a) \leq \dfrac{E[Z]}{a}$$

考虑到$( E[Z] = E[(X – E[X])^2] = \sigma^2 )​$, 把上面的式子稍做转换:

$$P((X-E[X])^2 \geq a) \leq \dfrac{\sigma^2}{a}$$

如果把​ $(a)写作(c^2)​,把(E[X])​记作​(\mu )$, 则:

$$P((X- \mu)^2 \geq c^2) \leq \dfrac{\sigma^2}{c^2}$$

不要忘了$( (X – \mu)^2 \geq c^2 )​$等价于$( |X – \mu| \geq c )​$ , 上述式子可以转化为Chebyshev不等式的标准形式:

$$P(|X-\mu| \geq c) \leq \dfrac{\sigma^2}{c^2} \qquad(c \geq 0)$$

它说明了什么呢?在一个我们知晓了期望和方差的随机变量身上,我们可以大致估计它和期望的偏差会是多大的情况。显然,与它的均值偏差越大的概率越小。不过,从上述的推理过程也可知,这两个不等式只是一体两面,无非是下面的不等式知道更多的信息,因此有更精确的结论而已。不难想象,如果我们知道随机变量的模式,我们可以通过这一信息得到更为精确的估计。

尽管从推理的过程来看它们都是trivial的,但它们依旧在看待事物的方式上给人很大的冲击。从切比雪夫不等式推导而来的大数定理就是一例。

弱大数定律

有弱大数定律(Weak Law of Large Numbers),当然也有强大数定律(Strong Law of Large Numbers). 在分析里,极限的定义颇费章节,但从认识论上,这两者给人的直观感受是一致的,也就是对于独立同分布随机变量的样本均值,在大样本的情况下,与随机变量的均值非常接近。弱大数定律于此处有一限定,是说「有很大的概率」与样本均值非常接近。而强大数定律则直言这一概率为1.

也就是这里,概率论和统计学结合起来了。概率论研究对象乃是理念的,完全的;反过来,统计学的研究对象乃是离散的,残缺的,所谓样本。这一点非常重要,我们最初认识概率往往是从统计的意义上去认识的:我们通过频率去估测和计算概率。我们认为当试验无穷次的时候,概率就是频率。但这样的认知的问题在于,在大数定律之后,我们才可以说频率会趋近与概率这样的结论。比如,我们说硬币正面为的概率为0.5,因为我们认为如果我们进行无数次试验,正面将出现一半次。但这样是不够严谨的,甚至,这样的认知本身就是一种Circular Reasoning(循环论证)

事实上,现代概率论的概率的认知乃是自Kolmogorov于1933年基于测度论的公理化结果。

从切比雪夫到弱大数定律的变换不难理解,在这里我稍加说明:

有n个独立同分布的变量,分别是$( X_1, X_2, X_3 \cdots )$​ , 它们的样本均值为:

$$M_n = \dfrac{1}{n} \sum_i^{n}X_i$$

那么,​$( E[M_n] = \dfrac{1}{n} (E[X_1] + E[X_2] + \cdots + E[X_3]) = \dfrac{1}{n} \sum_{i=1}^{n} E[X_i]= \dfrac{n\mu}{n} = \mu ) ( var(M_n) = \dfrac{1}{n^2} \cdot var(\sum_{n=1}^{n} X_i) = \dfrac{\sum_{i=1}^n var(X_i)}{n^2} = \dfrac{n\sigma^2}{n^2} = \dfrac{\sigma^2}{n} )$

带入Chebyshev不等式,我们有:

$$P(|M_n – \mu| \geq c) \leq \dfrac{\sigma^2}{nc^2}$$

对于一个固定的$(c)​$而言,当$​(n)$ 趋近于无穷大的时候, $( P(|M_n – \mu| \geq c) \leq 0 )$. 当然概率不可以为负,也就是说​$( P(|M_n -\mu|\geq c) = 0 )$:当​趋于无穷大的时候,样本平均值和随机变量期望值的偏差大于任意一个常数的概率都为0. 以上就是我对于弱大数定律的认知,更加严谨的定义和推导应查阅更权威的文本。

关于在WordPress中显示Latex数学公式参考这里

Licensed under CC BY-NC-SA 4.0
Last updated on Jan 18, 2020 19:15 UTC
Built with Hugo
Theme Stack designed by Jimmy