从马尔可夫不等式到弱大数定律

18 Jan, 2020

回过头来看，从马尔可夫不等式到大数定律的推导，乃是概率论到统计学的桥梁。过去一直对这里感到迷茫，但其实稍微整理一下就会很清楚：

首先是Markov不等式。

它是以俄国数学家Andrey Andreyevich Markov的名字命名，同时也有Markov Chain这个在信息论上著名的东西。这个不等式，简单而言，就是我们可以一个随机变量的期望值判断这个随机变量取值的概率：

$$P(X \geq a) \leq \dfrac{E[X]}{a} (given \ X \geq 0)$$

显而易见，随机变量大于更大的(a)的概率会越低。比方说，当 $( a = E[X] )$的时候，我们有$( P(X \geq E[x]) \leq 1 )$ , 这句话没有带来任何信息，因为概率必定小于等于1。但如果$( a = 2E[X] )$, 我们可以得到$( P(X \geq 2E[X]) \leq 0.5 )$, 也就是说随机变量取值大于等于两倍期望值的概率必然不大于50%. 马尔可夫不等式维基百科上举例也清晰易懂:

马尔可夫不等式的一个应用是，不超过1/5的人口会有超过5倍于人均收入的收入。

「概率导论」一书构造了一个随机变量 $(Y_a)$来证明这个不等式:

$$
\begin{equation}
Y_a=
\begin{cases}
0, (X < a) \
a, (X \geq a)
\end{cases}
\end{equation}
$$

那么:

$$E[Y_a] = P(X < a) * 0 + P(X \geq a) * a = a*P(X \geq a)$$

我们考虑到:

$$ \quad X < a: X\geq 0 = Y_a ;\ \quad X \geq a: X\geq a = Y_a;\ $$

显而易见, ( E(X) \geq E(Y_a) )，而上面又说( E(Y_a)= aP(X\geq a) ), 所以:

$$aP(X\geq a) = E(Y_a) \leq E(X) \ P(X \geq a) \leq \dfrac{E(X)}{a} $$

但我们亦容易看出，Markov不等式仅仅用了期望这一个变量进行估计，因此它的上界仍然是保守的。考虑到如果我们也知道随机变量的方差的话，我们可以更准确地对其进行预估，也就是试图把方差$(\sigma^2)$引入上述不等式，我们得到了:

切比雪夫不等式(Chebyshev’s Inequality).

既然试图$(\sigma^2)$把带入Markov，我们就应当去思考哪个地方可以写成方差的形式。事实上:

$$E[(X – E(X) )^2] = \sigma^2$$

构造一个$(Z)$的随机变量，令$( Z = (X – E[X])^2 )$, 显然 $(Z)$也同时满足大于等于$(0)$ 这一条件。我们再写一个关于的Markov方程：

$$P(E(Z) \geq a) \leq \dfrac{E[Z]}{a}$$

考虑到$( E[Z] = E[(X – E[X])^2] = \sigma^2 )$, 把上面的式子稍做转换:

$$P((X-E[X])^2 \geq a) \leq \dfrac{\sigma^2}{a}$$

如果把 $(a)写作(c^2)，把(E[X])记作(\mu )$，则:

$$P((X- \mu)^2 \geq c^2) \leq \dfrac{\sigma^2}{c^2}$$

不要忘了$( (X – \mu)^2 \geq c^2 )$等价于$( |X – \mu| \geq c )$ , 上述式子可以转化为Chebyshev不等式的标准形式:

$$P(|X-\mu| \geq c) \leq \dfrac{\sigma^2}{c^2} \qquad(c \geq 0)$$

它说明了什么呢？在一个我们知晓了期望和方差的随机变量身上，我们可以大致估计它和期望的偏差会是多大的情况。显然，与它的均值偏差越大的概率越小。不过，从上述的推理过程也可知，这两个不等式只是一体两面，无非是下面的不等式知道更多的信息，因此有更精确的结论而已。不难想象，如果我们知道随机变量的模式，我们可以通过这一信息得到更为精确的估计。

尽管从推理的过程来看它们都是trivial的，但它们依旧在看待事物的方式上给人很大的冲击。从切比雪夫不等式推导而来的大数定理就是一例。

弱大数定律

有弱大数定律(Weak Law of Large Numbers)，当然也有强大数定律(Strong Law of Large Numbers). 在分析里，极限的定义颇费章节，但从认识论上，这两者给人的直观感受是一致的，也就是对于独立同分布随机变量的样本均值，在大样本的情况下，与随机变量的均值非常接近。弱大数定律于此处有一限定，是说「有很大的概率」与样本均值非常接近。而强大数定律则直言这一概率为1.

也就是这里，概率论和统计学结合起来了。概率论研究对象乃是理念的，完全的；反过来，统计学的研究对象乃是离散的，残缺的，所谓样本。这一点非常重要，我们最初认识概率往往是从统计的意义上去认识的：我们通过频率去估测和计算概率。我们认为当试验无穷次的时候，概率就是频率。但这样的认知的问题在于，在大数定律之后，我们才可以说频率会趋近与概率这样的结论。比如，我们说硬币正面为的概率为0.5，因为我们认为如果我们进行无数次试验，正面将出现一半次。但这样是不够严谨的，甚至，这样的认知本身就是一种Circular Reasoning（循环论证）？

事实上，现代概率论的概率的认知乃是自Kolmogorov于1933年基于测度论的公理化结果。

从切比雪夫到弱大数定律的变换不难理解，在这里我稍加说明:

有n个独立同分布的变量，分别是$( X_1, X_2, X_3 \cdots )$ , 它们的样本均值为:

$$M_n = \dfrac{1}{n} \sum_i^{n}X_i$$

那么,$( E[M_n] = \dfrac{1}{n} (E[X_1] + E[X_2] + \cdots + E[X_3]) = \dfrac{1}{n} \sum_{i=1}^{n} E[X_i]= \dfrac{n\mu}{n} = \mu ) ( var(M_n) = \dfrac{1}{n^2} \cdot var(\sum_{n=1}^{n} X_i) = \dfrac{\sum_{i=1}^n var(X_i)}{n^2} = \dfrac{n\sigma^2}{n^2} = \dfrac{\sigma^2}{n} )$

带入Chebyshev不等式，我们有:

$$P(|M_n – \mu| \geq c) \leq \dfrac{\sigma^2}{nc^2}$$

对于一个固定的$(c)$而言，当$(n)$ 趋近于无穷大的时候, $( P(|M_n – \mu| \geq c) \leq 0 )$. 当然概率不可以为负，也就是说$( P(|M_n -\mu|\geq c) = 0 )$：当趋于无穷大的时候，样本平均值和随机变量期望值的偏差大于任意一个常数的概率都为0. 以上就是我对于弱大数定律的认知，更加严谨的定义和推导应查阅更权威的文本。

关于在WordPress中显示Latex数学公式参考这里。

#Mathmatics