![统计学习理论与方法:R语言版](https://wfqqreader-1252317822.image.myqcloud.com/cover/449/34061449/b_34061449.jpg)
3.2 蒙特卡洛采样
在3.1节中,通过求解定积分这个具体的例子来演示了蒙特卡洛方法的基本思想,而其中的核心就是使用随机数。当所求解问题可以转化为某种随机分布的特征数(如随机事件出现的概率,或者随机变量的期望值等)时,往往就可以考虑使用蒙特卡洛方法。通过随机抽样的方法,以随机事件出现的频率估计其概率,或者以抽样的数字特征估算随机变量的数字特征,并将其作为问题的解。这种方法多用于求解复杂的高维积分问题。
实际应用中,所要面对的第一个问题就是如何抽样?注意,在计算机模拟时,这里所说的抽样其实是指从一个概率分布中生成观察值(observations)的方法。而这个分布通常是由其概率密度函数来表示的。前面曾经提过,即使在已知PDF的情况下,让计算机自动生成观测值也不是一件容易的事情。从本质上来说,计算机只能实现对均匀分布的采样。幸运的是,仍然可以在此基础上对更为复杂的分布进行采样。
3.2.1 逆采样
比较简单的一种情况是,可以通过PDF与CDF之间的关系,求出相应的CDF。或者根本就不知道PDF,但是知道CDF。此时就可以使用CDF反函数(及分位数函数)的方法来进行采样。这种方法又称为逆变换采样(Inverse Transform Sampling)。
假设已经得到了CDF的反函数F-1(u),如果想得到m个观察值,则重复下面的步骤m次:
(1)从U(0,1)中随机生成一个值(计算机可以实现从均匀分布中采样),用u表示;
(2)计算F-1(u)的值x,则x就是从目标分布f(x)中得出的一个采样点。
面对一个具有复杂表达式的函数,逆变换采样法真有效吗?来看一个例子,假设现在希望从具有下面这个PDF的分布中采样
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P72_32871.jpg?sign=1739282877-A1XERArZUwHMt3IBq7UgifqYlhpKldnZ-0-f47b765ac4d35a785834a3b52e6a958b)
可以算得相应的CDF为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P72_32872.jpg?sign=1739282877-nDmPE7bBCggNcqXg9xdcwMrqceUqOUDh-0-c7049ba3c9df3d99174f5496fe45c8de)
对于u∈[0,1],上述CDF的反函数为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P72_32873.jpg?sign=1739282877-53QSQFJArY6Y7DxeY9LPxQvZI3DC7M5Z-0-17c3ffbce864fd68dd829faf841bc321)
下面在R中利用上面的方法采样10000个点,并以此来演示抽样的效果。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P72_32866.jpg?sign=1739282877-5ullrEETMfcAy8obeah8TeqniH4UvLct-0-a02a73732aa7466ae9a23bcda0865514)
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P72_13458.jpg?sign=1739282877-823n0nNlOhflDkGg2dQ2fggtXfcGWGqO-0-42422007f755734deb85516c027a563a)
图3-5 逆变换采样举例
将所得结果与真实的PDF函数图形进行对照,如图3-5所示。可见由逆变换采样法得到的点所呈现处理的分布与目标分布非常吻合。
下面再举一个稍微复杂一点的例子,已知分布的PDF如下
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P72_32870.jpg?sign=1739282877-eowEFasaJ133Rm0tLIXtOPTMIc6dlNMj-0-f527ab624ec6f6c4139512d4bf09f9a1)
可以算得相应的CDF为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P73_32877.jpg?sign=1739282877-1XT836U643Q5LhYVDJCVQTftDVenPMKJ-0-161b8c665d7bb13acd43ad133575f2a2)
对于u∈[0,1],它的反函数为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P73_32878.jpg?sign=1739282877-jKKoDAx462L3CvfS7IYmEyZXbsdMtiis-0-0c83d93244d03bfb53f511669ee60f1e)
同样,给出R中的示例代码如下。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P73_32879.jpg?sign=1739282877-7q46zrK6C2xWJJotcDZV0TcR2RUjcx8Z-0-3707065ffcb75beeaa1530a61e2baf2f)
下面这段代码利用R中提供的一些内置函数实现了已知PDF时基于逆变换方法的采样,将新定义的函数命名为samplepdf()。当然,对于那些过于复杂的PDF函数(例如很难积分的),samplepdf()确实有力所不及的情况。但是对于标准的常规PDF,该函数的效果还是不错的。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P73_32880.jpg?sign=1739282877-6D122ZgJe9wKEzhFPKlRh06Szms9A1XX-0-be914e8c1d2a2103d34f9b3e0ab9949f)
下面就用samplepdf()函数来对上面给定的h(x)进行采样,然后再跟之前所得结果进行对比。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P73_32881.jpg?sign=1739282877-6MH8xZxWenZH0EaxHFNKovasQqgIdY43-0-733a1e6a64771651cf70e45ec826fe12)
代码执行结果如图3-6所示。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P74_13571.jpg?sign=1739282877-w1129FGmzrsHediOuxNHpxHJkqIWLX9r-0-4dbf20331900781bc3dc65c12b73c75b)
图3-6 逆采样代码执行结果
3.2.2 博克斯-穆勒变换
博克斯-穆勒变换(Box-Muller Transform)最初由乔治·博克斯(George Box)与默文·穆勒(Mervin Muller)在1958年共同提出。博克斯是统计学的一代大师,统计学中的很多名词术语都以其名字命名。博克斯与统计学的家学渊源相当深厚,他的导师是统计学开山鼻祖皮尔逊的儿子,英国统计学家埃贡·皮尔逊(Egon Pearson),博克斯还是统计学的另外一位巨擘级奠基人费希尔的女婿。统计学中的名言“所有模型都是错的,但其中一些是有用的”也出自博克斯之口。
本质上来说,计算机只能生产符合均匀分布的采样。如果要生成其他分布的采样,就需要借助一些技巧性的方法。而在众多的“其他分布”中,正态分布无疑占据着相当重要的地位。下面这个定理,就为生成符合正态分布的采样(随机数)提供了一种方法,而且这也是很多软件或者编程语言的库函数中生成正态分布随机数时所采样的方法。
定理(Box-Muller变换):如果随机变量U1和U2是独立同分布的,且U1,U2~U[0,1],则
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P74_32885.jpg?sign=1739282877-pphiCZ8LYfCrG8TRJToqUipnCy0ZcBdt-0-2206200c6e6308be9b1955930c1bca75)
其中,Z0和Z1独立且服从标准正态分布。
如何来证明这个定理呢?这需要用到一些微积分中的知识,首先回忆一下二重积分化为极坐标下累次积分的方法
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P75_32896.jpg?sign=1739282877-DyENmuuXlnukjqAsG8pJEuaq63C6BCqQ-0-f0e5f844ac5c04637012ac7ca62fde9a)
假设现在有两个独立的标准正态分布X~N(0,1)和Y~N(0,1),由于两者相互独立,则联合概率密度函数为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P75_32898.jpg?sign=1739282877-z1GWX16kFDWr8xwchlCLfEBxm1vWIYqn-0-0a2be78cb1ff8bef2e12077eaf316ca2)
做极坐标变换,则x=Rcosθ,y=Rsinθ,则有
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P75_32899.jpg?sign=1739282877-rq2E2UETboggTwNEhnlif7wRK3C87hsG-0-584066aec55436b6faae51f10ee0607d)
这个结果可以看成是两个概率分布的密度函数的乘积,其中一个可以看成是[0,2π]上均匀分布,将其转换为标准均匀分布则有θ~U(0,2π)=2πU2。
另外一个的密度函数为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P75_32901.jpg?sign=1739282877-uMmpmxjaPBrodI7wgRARJpQqBQlHH0Gy-0-22d0e390523c7fb0d3e7bec91dc4c914)
则其累计分布函数CDF为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P75_32902.jpg?sign=1739282877-uYTiOqzifXcPafvKUQq5mGXkfsRKDCBS-0-a4e5e4ae56ca3a199bc5603894f7ad16)
这个CDF函数的反函数可以写成
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P75_32903.jpg?sign=1739282877-nmxkwWAcn7IpyKNB9d5hoan6b23TrZeW-0-7cb312298cda1eee1a6a0999756bb5e0)
根据逆变换采样的原理,如果有个PDF为P(R)的分布,那么对齐CDF的反函数进行均匀采样所得的样本分布将符合P(R)的分布,而如果u是均匀分布的,那么U1=1-u也将是均匀分布的,于是用U1替换1-u,最后可得
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P75_32905.jpg?sign=1739282877-5ZGA6RHhguWhiQ4nRMNBd87hOlVN7aa2-0-3ef4fa89a6c302545eba68be564bfa81)
结论得证。最后来总结一下利用Box-Muller变换生成符合高斯分布的随机数的方法:
(1)产生两个随机数U1,U2~U[0,1];
(2)用它们来创造半径和和夹角θ=2πU2;
(3)将(R,θ)从极坐标转换到笛卡儿坐标:(Rcosθ,Rsinθ)。
3.2.3 拒绝采样与自适应拒绝采样
读者已经看到逆变换采样的方法确实有效。但其实它的缺点也是很明显的,那就是有些分布的CDF可能很难通过对PDF的积分得到,再或者CDF的反函数也很不容易求。这时可能需要用到另外一种采样方法,这就是下面即将要介绍的拒绝采样(Reject Sampling)。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P75_13668.jpg?sign=1739282877-fOlXem5e6yilJbzNRs3YUucSptkh7Gth-0-8d988c4b9ae52c5f7d2dccc87a1c15dc)
图3-7 拒绝采样的原理
图3-7阐释了拒绝采样的基本思想。假设对PDF为p(x)的函数进行采样,但是由于种种原因(例如这个函数很复杂),对其进行采样是相对困难的。但是另外一个PDF为q(x)的函数则相对容易采样,例如采用逆变换方法可以很容易对对它进行采样,甚至q(x)就是一个均匀分布(别忘了计算机可以直接进行采样的分布就只有均匀分布)。那么,当我们将q(x)与一个常数M相乘之后,可以实现如图3-7所示关系,即M·q(x)将p(x)完全“罩住”。
然后重复如下步骤,直到获得m个被接受的采样点:
(1)从q(x)中获得一个随机采样点xi;
(2)对于xi计算接受概率(acceptanceprobability)
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P76_32910.jpg?sign=1739282877-yq7Q7FXRXUzG3WbBysYp00idSuC61L02-0-f0906e3b4e1c7e46070888cc4d719a26)
(3)从U(0,1)中随机生成一个值,用u表示;
(4)如果α≥u,则接受xi作为一个来自p(x)的采样值,否则就拒绝xi并回到第一步。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P76_13679.jpg?sign=1739282877-kShYiQaDyH55PFoWvXSTLBrgeah9nlKZ-0-bd62a881a17d949951a5f71e44d1c476)
图3-8 拒绝采样示例
当然可以采用严密的数学推导来证明拒绝采样的可行性。但它的原理从直观上来解释也是相当容易理解的。可以想象一下在图2-7的例子中,从哪些位置抽出的点会比较容易被接受。显然,红色曲线(位于上方)和绿色曲线(位于下方)所示之函数更加接近的地方接受概率较高,即是更容易被接受,所以在这样的地方采到的点就会比较多,而在接受概率较低(即两个函数差距较大)的地方采到的点会比较少,这也就保证了这个方法的有效性。
还是以本章前面给出的那个分段函数f(x)为例来演示拒绝采样方法。如图3-8所示,所选择的参考分布是均匀分布(当然也可以选择其他的分布,但采用均匀分布显然是此处最简单的一种处理方式)。而且令常数M=3。
下面给出R中的示例代码,易见此处采样点数目为10 000。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P76_32914.jpg?sign=1739282877-jwjYK9BojAq5sLVw6RdZyKdJOlgvjPdu-0-2a04dca6851e9e4071de5ffe91395bbf)
上述代码的执行结果如图3-9所示,可见采样结果是非常理想的。
下面的例子演示了对(表达式非常复杂的)beta(3,6)分布进行拒绝采样的效果。这里采用均匀分布作为参考分布。而且这里的Mq(x)所取之值就是beta(3,6)分布的极大值,它的函数图形应该是与beta(3,6)的极值点相切的一条水平直线。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P77_32917.jpg?sign=1739282877-ERfCfCUH7PHZms88wDmxzSV352kPh3B7-0-59ed8033d9374e4513e5921f2487cbf3)
图3-10给出了采样50 000个点后的密度分布情况,可见采样分布与目标分布beta(3,6)非常吻合。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P77_13783.jpg?sign=1739282877-5iNo5KIg9u0cRnioT7rNt1ADGFl6v1Bv-0-53a5ccd68d5484e8e1b5cc996a0f49d3)
图3-9 程序执行结果
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P77_13786.jpg?sign=1739282877-Hzji6z3aFAoSYxfak5j3YgZ1p8THRrbt-0-b61d1823113d8c013bcf7e9edaf198e2)
图3-10 拒绝采样举例
拒绝采样的方法确实可以解决我们的问题。但是它的一个不足涉及其采样效率的问题。针对上面给出的例子而言,我们选择了离目标函数最近的参考函数,就均匀分布而言,已经不能有更进一步的方法了。但即使这种,在这个类似钟形的图形两侧其实仍然会拒绝掉很多很多采样点,这种开销相当浪费。最理想的情况下,参考分布应该跟目标分布越接近越好,从图形上来看就是包裹的越紧实越好。但是这种情况的参考分布往往又不那么容易得到。在满足某些条件的时候也确实可以采用所谓的改进方法,即自适应的拒绝采样(Adaptive Rejection Sampling)。
拒绝采样的弱点在于当被拒绝的点很多时,采样的效率会非常不理想。同时我们也知道,如果能够找到一个跟目标分布函数非常接近的参考函数,那么就可以保证被接受的点占大多数(被拒绝的点很少)。这样一来便克服了拒绝采样效率不高的弱点。如果函数是log-concave的话,那么就可以采用自适应的拒绝采样方法。什么是log-concave呢?还是回到之前介绍过的贝塔分布,用下面的代码来绘制beta(2,3)的概率密度函数图像,以及将beta(2,3)的函数取对数之后的图形。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P78_32919.jpg?sign=1739282877-HCHB6oj48F1WVq4Q5zzhrHwGzQTv16Xv-0-9d1a14a3970831ce68b78d6065d5bc83)
上述代码的执行结果如图3-11所示,其中(a)是beta(2,3)的概率密度函数图形,(b)是将beta(2,3)的函数取对数之后的图形,你可以发现结果是一个凹函数(concave)。那么beta(2,3)就满足log-concave的要求。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P78_13823.jpg?sign=1739282877-sHExWGIYxs1yJ1BDbR7ljhQSbPD6DJ4k-0-e7ef83ca6c8ca5eb23a22a73017449fd)
图3-11 贝塔函数与其取对数后的函数图形
然后在对数图像上找一些点做图像的切线,如图3-12所示。因为取对数后的函数是凹函数,所以每个切线都相当于一个超平面,而且对数图像只会位于超平面的一侧。
同时给出用以绘制图3-12的代码,要知道R语言的一个强项就是绘图。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P78_32920.jpg?sign=1739282877-HshFp1dlpU3j1TI8O9AKbV4sIPaSgAZf-0-195cd61c465c0282eef93fe12bd300fd)
再把这些切线转换回原始的beta(2,3)图像中,显然原来的线性函数会变成指数函数,它们将对应图3-13中的一些曲线,这些曲线会被原函数的图形紧紧包裹住。特别是当这些的指数函数变得很多很稠密时,以彼此的交点作为分界线,其实相当于得到了一个分段函数。这个分段函数是原函数的一个逼近。用这个分段函数来作为参考函数再执行拒绝采样,自然就完美地解决了之前的问题。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P79_13905.jpg?sign=1739282877-slULbwSiQH3oFpxH1O7bqOO6X8g9EwtV-0-1879aa3bb63ead1a81b90e7f17aa54e1)
图3-12 做取对数后的图形的切线
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P79_13908.jpg?sign=1739282877-mTflV3BKjD0VsvT5MxJhW26UBSRNZrqG-0-078b6bb311bf5bb9758701619438e773)
图3-13 切线取指数函数后的变换结果
下面是用来画出图3-13的R语言代码。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P80_32924.jpg?sign=1739282877-9mUkUEjg2SRdTI6UC74uTMBsWYZTgfJN-0-111b94c36c8f7219478f2e81c22925a6)
这无疑是一种绝妙的想法。而且这种想法,在前面其实已经暗示过。在上一部分最后一个例子中,我们其实就是选择了一个与原函数相切的均匀分布函数来作为参考函数。我们当然会想去选择更多与原函数相切的函数,然后用这个函数的集合来作为新的参考函数。只是由于原函数的凹凸性无法保证,所以直线并不是一种好的选择。而自适应拒绝采样(Adaptive Rejection Sampling,ARS)所采用的策略则非常巧妙地解决了我们的问题。当然函数是log-concave的条件必须满足,否则就不能使用ARS。
下面给出一个在R中进行自适应拒绝采样的例子。显然,该例子要比之前的代码简单许多。因为R中ars包已经提供了一个现成的用于执行自适应拒绝采样的函数,即ars()。关于这个函数在用法上的一些细节,读者还可以进一步参阅R的帮助文档,这里不再赘言。此次我们需要指出:ars()函数中两个重要参数,一个是对原分布的PDF取对数,另外一个则是对PDF的对数形式再进行求导(在求导时我们忽略了前面的系数项),其实也就是为了确定切线。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P80_32925.jpg?sign=1739282877-M4lrk2I1pIWAvcqQqSw4Zrq81xIWBbs8-0-419dd1707c900ea0bbf88eeae9d436c5)
上述代码的执行结果如图3-14所示。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P80_13952.jpg?sign=1739282877-2f3wTT0S8O9lvBFYGM6iLoZXIg3UN2Gd-0-5177ba0c65605582caa4d72dfa276c56)
图3-14 自适应采样代码执行结果