![统计学习理论与方法:R语言版](https://wfqqreader-1252317822.image.myqcloud.com/cover/449/34061449/b_34061449.jpg)
1.5 经验分布函数
设(X1,X2,…,Xn)是总体X的一个样本。如果是关于样本(X1,X2,…,Xn)的函数并满足如下条件:它总是取样本观察值(x1,x2,…,xn)按从小到大排序后第i个值为自己的观测值。那么就称
,
,…
为顺序统计量。顺序统计量可以简记为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P36_11574.jpg?sign=1739285248-1YMsQngxRDt1IORDv7OYqsMkjky1Oi1y-0-09c5ef6aa865dddbb99a1f61b5530a09)
特别地
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P36_32291.jpg?sign=1739285248-9ZL3AdRcwROPZaTyfg0Y5wJlEqjVgV9P-0-fd352ea09c391a92ab2092e16cdc67f6)
称和
分别为样本的最小值和最大值。并称
为样本的极差。
此外,还可以定义
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P36_32290.jpg?sign=1739285248-jZ8cRTChrQ9GwiUzXLPL7HWiALSl7cKo-0-f09e11d62b36a27ca43029f9d279706d)
为样本的中位数。
基于顺序统计量,我们就可以来讨论经验分布函数(Empirical Distribution Functions,EDF)当概念了。设x1,x2,…,xn是总体X的一组容量为n的样本观测值,将它们按从小到大的顺序重新排列为,
,…
,对于任意实数x,定义函数
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P37_32322.jpg?sign=1739285248-lqpVLd7EHHDzMNyn2Qd9GobcsnIqB9Gw-0-d0dd767bd391f8b0e0cc889679087130)
则称Fn(x)为总体X的经验分布函数。它还可以简记为,其中∗{x1,x2,…,xn}表示x1,x2,…,xn中不大于x的个数。
另外一种常见的表示形式为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P37_32324.jpg?sign=1739285248-og2wHfSioCVSuW3GYpMwSv5JlOYS06kg-0-915ab1dda15a5f27b15352afda23db7b)
其中,I是指示函数(indicator function),即
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P37_32326.jpg?sign=1739285248-OMU8p2EgEmV6nwKvxurUzi3E2PWGLMsm-0-d2d597b478cb4215062e98ab2526fe8f)
因此,求经验分布函数Fn(x)在一点x处的值,只要求出随机变量X的n个观测值x1,x2,…,xn中小于或等于x的个数,再除以观测次数n即可。由此可见,Fn(x)就是在n次重复独立实验中事件{X≤x}出现的频率。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P37_11627.jpg?sign=1739285248-pIUAGa6m27uEinRKqwTHSRvjySMkXPDI-0-965a5acc496b5d357a71c62a7d7b8b1a)
图1-9 经验分布函数的图形
经验分布函数Fn(x)的图形(如图1-9所示)是一条呈跳跃上升的阶梯形曲线。如果样本观测值x1,x2,…,xn中没有重复的数值,则每一跳跃为1/n,若有重复l次的值,则按1/n的l倍跳跃上升。图中圆滑曲线是总体X的理论分布函数F(x)的图形。若把经验分布函数的图形连成折线,那么它实际就是累积频率直方图的上边。这和概率分布函数的性质是一致的。
根据大数定理可知,当试验次数增大时,事件的频率稳定于概率。那么,当试验次数增大时,表示事件{X≤x}出现频率的经验分布函数是否接近于事件{X≤x}出现概率的总体分布函数呢?这个问题可由格利文科定理(Glivenko Theorem)来回答。
格利文科定理:设总体X的分布函数为F(x),经验分布函数为Fn(x),则有
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P37_32328.jpg?sign=1739285248-r61R9KFOxvwo8QN9HZBBApLr5EXtjwXf-0-f11c46f9665d1898c56f265fc420ede1)
该定理揭示了总体X的理论分布函数与经验分布函数之间的内在联系。它指出当样本容量足够大时,从样本算得的经验分布函数Fn(x)与总体分布函数F(x)相差的最大值也可以足够小,这就是用样本来推断总体的数学依据。