考研数学：寻根究底之随机变量篇

来源：网络浏览次数：1946发表于2014-07-29

[摘要] 随机变量之于概率正如矩阵之于线代：矩阵是线性代数的活动基地，线代的核心概念基本上都是用矩阵定义的；而随机变量则是概率统计的活动基地，概率统计的重要概念均以随机变量为载体展开。

寻根究底之随机变量篇（一）

普研数学中概率共五题。如果有时间，看看真题，会发现题目是这么表述的：“设随机变量X…”，“设总体X…”，“设样本X1，X2，…，Xn为来自总体X的简单随机样本…”。可见考研数学概率部分是以随机变量为载体出题的；另外，随机变量之于概率正如矩阵之于线代：矩阵是线性代数的活动基地，线代的核心概念基本上都是用矩阵定义的；而随机变量则是概率统计的活动基地，概率统计的重要概念均以随机变量为载体展开。

随机变量，顾名思义，就是具有随机性的变量。什么叫有随机性？刘老师将带领大家从随机试验开始看起。

所谓随机试验，就是具有如下特征的试验：“可重复”，“结果不唯一”，“无法预知”（试验前无法预知哪种结果出现）。如掷硬币，掷骰子。对于某个随机试验，我们把其结果收集起来构成一个集合，这就构成了该试验的样本空间。而样本空间的子集就是随机事件。所以随机事件即某些试验结果构成的集合。概率第一章的基本概念：样本空间、随机事件、必然事件、不可能事件、基本事件，均可以理解成特殊的集合（由随机试验的结果构成的集合）：全集、子集、全集、空集、单点集。

随机变量是定义在样本空间上的单值函数。例如对于掷硬币这个随机试验，其样本空间为{正，反}，我们可以在这个样本空间上定义一个随机变量：X（正）=1，X（反）=0。

关于随机变量的概念，我们不妨多思考一下，以增进和它的关系。套用一句广告词：你怎么对待随机变量，随机变量就怎么对待你。请思考如下几个问题：

1. 随机变量是个函数，这个函数是不是高数中的函数？

不少同学没有思考过这个问题，那就错过了深入理解随机变量的机会。高数中的函数是什么样子的？起码定义域是实数集或实数集的子集。而随机变量的定义域是样本空间。这说明二者是不同类型的函数。什么？函数还有不同类型？有这种疑惑的同学很可能没有好好看教材，在同济六版高数教材第6页，有一小段话，较为透彻地解答了该问题。大家可以通过翻书或听我唠叨几句这两种方式解决这个问题。ready？go！映射是两个集合A，B之间的对应关系，考虑非空集合A、B，对于集合A中的任一元素，若集合B中有唯一确定的元素与之对应，我们就把这种对应关系称为从A到B的映射。如果集合A、B均为实数集或其子集，我们把这个映射称为函数。如果定义域为一个一般的集合（非实数集或其子集），那么我们把这种映射称为泛函（泛函字面意思为广义的函数）。理解了这些概念后，我们再来看随机变量，不难发现它原来是个泛函（怪不得不好理解呢）。泛函的知识考研不要求，不必深究。

2. 随机变量能否表示随机事件？

这个问题也有不少同学感到困惑。我们以上面定义的这个随机变量为例，{X=1}是个随机事件吗？是。可以有两个理解角度：其一，它可以写成{X=1}={e|X（e）=1}={正}，这是一种反对应：由函数因变量的取值反对应自变量的取值。大家可以体会一下如何用随机变量表示随机事件；其二，X有两种可能的取值0，1，并且以一定的概率取每个值，而可以考虑概率的事件自然是随机事件了。所以以后见到一个随机变量，我们不一定要弄清它是如何定义的（有时这是困难的），只要我们能分析出这个变量有若干种可能的取值，取每个值有相应的概率即可认可其为随机变量，进行下一步分析即可。

类似地，{X<=1}也是随机事件。而且这种方式表示的随机事件有重要应用。正如深挖群众提供的贪腐线索有可能揪出大老虎，深入理解基本概念可能会有意想不到的收获。由{X<=1}为随机事件，不难得到{X<=a}亦为随机事件（其中a为给定的实数）。进一步，{X<=x}是随机事件吗（x为变量，且不具有随机性）？给定x，{X<=x}为一个随机事件；若给定不同的x，就得到不同的随机事件。如果x的取值范围是全体实数，我们就得到了一系列的随机事件。而每个随机事件又可以与一个概率对应。这样，对于每个x，有唯一确定的实数与其对应，这就确定了函数关系。这个函数是与X有关的，我们称其为X的分布函数。是不是有点意外的收获？

走笔至此，我忍不住要说两句“形而上”的东西。为什么有同学感觉课上听懂了，课下却不会做题？一个重要的原因是上课是学生跟着老师的思路走，缺少主动探索和“试错”。我们碰到一道题就像路过一个十字路口，有前后左右四个方向可选，而最终我们会选择其中一个方向走下去。那为什么要选这个方向？很多时候，我们要用主动的试错去减少可能性，用试错去建立自己的经验系统，进而依据经验系统做决策。而这种试错最好在平时完成（在考场上试错就“悲剧”了）。

3. 为什么要引入随机变量？

随机变量是把随机试验的结果与实数对应起来，方便用数学工具处理。没有随机变量的状态，我们已经见识过了，就在概率的第一章。我们可以考虑随机事件，但每次说起来和写起来都不方便：事件中的元素可能是“正”和“反”，也可能是“1点”和“6点”，还可能是“中”和“不中”；相应地算概率可能是P{“正”},可能是P{“掷出偶数点”}，还可能是P{“独立重复地射击10次，击中k次”}。而有了随机变量后，整个概率的世界就不同了：可以用P{X=1}表示掷硬币朝上的面为正面，表示掷骰子掷出偶数点，还可以表示射击命中，只需要修改随机变量X的定义即可；此外，我们可以进一步定义X的分布函数，那么高等数学就可以作为一个工具来为概率统计服务了，比如求极限，求导这些基本计算可以对分布函数进行。

寻根究底之随机变量篇（二）

在弄清了随机变量的含义后，我们思考一个问题：用什么方式去描述它？随机变量有两个要素：取值和取值对应的概率。而分布是描述随机变量的方式。分布包括三种：分布函数，分布律和概率密度。为什么要有三种，这么麻烦，一种多简单？这就像现金可以完成支付，为什么还会有公交卡？因为我们坐公交时刷卡更方便些。分布函数确实可以描述所有随机变量，但对于离散型随机变量，用分布律描述较为方便；对于连续型随机变量，用概率密度描述较为方便。

分布函数是描述随机变量的通用方式。对于随机变量X，我们称F（x）=P{X<=x}，（x属于R）为其分布函数。关于分布函数，前文我们讨论过一种理解角度，此外，我们还可以从以下几个角度理解。

1.F（x）=P{X<=x}= P{X属于（负无穷，x]}，意味着X的分布函数F（x）是随机变量X落入区间（负无穷，x]的概率。

2.对于上面用掷硬币这个随机试验定义的随机变量X，大家动手写一下它的分布函数，不难得到如下结果：当x<0时，F（x）=0；当0= =1时，F（x）=1。我们看一下F（x）的三个函数值是如何得到的：当x<0时，X在x以左没有取值，所以概率为0，进而F（x）的函数值为0；当0= =1时，X的取值0和1在此范围内，所以分布函数把0和1对应的概率含进去，F（x）的函数值为1/2+1/2=1。通过以上分析过程，我们可以得到，离散型随机变量的分布函数可以理解成“概率的累加”，累加的是X落入区间（负无穷，x]的概率。另外，大家动手画一下F（x）的图像，观察其形状，会发现它是一个阶梯形函数。那么是否所有离散型随机变量的分布函数都是阶梯形函数呢？是。大家也可以想想为什么如此？分布函数累加的是（负无穷，x]概率，在随机变量有取值的点，分布函数把该点的概率加进去，函数图像就在该点发生跳跃，跳跃的高度恰为随机变量取该点的概率；在随机变量没有取值的区间，没有概率，分布函数的函数值没有增加，函数图像为一条水平的线段（或射线）。

3.随机变量X不是高数中的函数，那么其分布函数是高数中的函数吗？是。我们观察上面写出的分布函数的表达式和图像，会发现它就是一个普通的分段函数，是高数的中的函数。

在讨论完随机变量后，我们讨论多维随机变量。

先考虑一个问题：什么叫多维随机变量。想一下，咱们在哪个地方提到过“多维”？高数中有二维平面，三维空间。线性代数中向量的维数即向量分量的个数。所谓n维随机变量，就是一个向量，该向量的每个分量是定义在同一个样本空间上的随机变量。或者理解成n个一维随机变量放在一块考虑。

我们学习多维随机变量，要和一维对比起来理解。前面提到，我们是用分布描述一个随机变量的，分布有三种：分布函数，分布律和概率密度。那么，推广一下，就得到了二维随机变量的描述方式。先看分布函数。

一维随机变量的分布函数是个一元函数F（x），它是一维随机变量X落入到一个区间（负无穷，x]的概率；相应地，二维随机变量的分布函数应是一个二元函数F（x，y），它是二维随机变量（X,Y）落入一个平面区域（负无穷，x]乘（负无穷，y]的概率。一维随机变量的分布函数有三条性质：“单调不减”，“0，1之间”，“右连续”。那么推广过来，就得到了二维随机变量分布函数的性质：关于x关于y均为单调不减；函数值在0，1之间；关于x关于y均为右连续。理解起来也不困难：所谓“关于”，就是把一个变量固定让另一个变量变化；分布函数是一个概率，当然在0，1之间，这里与一维有所不同（F（负无穷，y）= F（x，负无穷）=0），只需注意到定义中的逗号是“且”的意思。最后一条性质可以结合图像理解，考得不多。

仍有一个问题：一维随机变量的分布函数的三条性质是充要条件，那么二维随机变量的分布函数的这四条性质是充要条件吗？这个考试不要求。当然，其它类似理解：如F（x）是一维随机变量的通用描述方式，每个随机变量均可对应一个分布函数；相应地，F（x，y）是二维随机变量的通用描述方式，每个二维随机变量均可对应一个分布函数。

理解了二维分布函数的定义和描述方式后，我们看看二维随机变量的类型。回顾一下一维随机变量有哪些类型？离散和连续。推广一下，可以得到二维离散型和连续型随机变量。

什么是一维离散型随机变量？无非是取值为有限或者可列无限个的随机变量。类似的，二维随机变量，若其取值是有限或可列无穷对，则称其为二维离散型随机变量。并且二维离散型随机变量的描述方式与一维一致，也是写出所有可能的取值，写出取值对应的概率即可。差别在于二维的取值是实数对，而一维是实数。

类似地，我们可以得到二维连续型随机变量的定义及性质。

二维随机变量的分布函数、分布律和概率密度统称联合分布。

寻根究底之随机变量篇（三）

多维分布包括三种：联合，边缘，条件。后两种是多维变量独有的分布。我们先从边缘分布看起。先总体把握一下：X,Y放在一块构成一个向量（X,Y），其分布称为联合分布，而X自己作为随机变量，其分布称为（X,Y）关于X的边缘分布。当然分布包括三种：分布函数，分布律和概率密度。前面加上边缘，就得到三种边缘分布。何为（X,Y）关于X的边缘分布函数FX（x）？把握两点即可：一、随机变量自己的分布函数；二、它和联合分布函数的关系：对比FX（x）和F（x，y）的定义，我们发现前者不含y，如何把F（x，y）中的y变没呢？注意到F（x，y）=P{X<=x, Y<=y}中的“X<=x”和“Y<=y”为两个事件，如果我们令y趋于正无穷，则“Y<=正无穷”为必然事件，那么F（x，正无穷）=P{X<=x, Y<=正无穷}= P{X<=x }。如果我们已知X和Y的联合分布函数，要求关于一个随机变量的边缘分布函数，只需求极限即可（令一个变量趋于正无穷）。

弄明白边缘分布函数后，边缘分布律和边缘概率密度就是类似的了。关于边缘分布律，也是把握两点：一、（X,Y）二维离散型随机变量，X自己是一维离散型随机变量，它自己应有分布律，我们把这个分布律称为（X,Y）关于X的边缘分布律。二、边缘分布律和联合分布律的关系。（X,Y）关于X的边缘分布律P{X=xi}=pi（i=1,2，…）中不含j，意味着P{X=xi}=pi对所有的j都成立。故P{X=xi}= P{X=xi,Y=y1}+ P{X=xi,Y=y2}+…也就是说，如果我们知道了联合分布律，要求边缘分布律，做加法即可。反过来，如果我们已知边缘分布律，要求联合分布律。首先要有“已知边缘求联合”的意识，之后我们可以把联合分布律的表画出来，并把边缘分布律写在一边，再结合已知条件，不难把联合分布律的表填完整。对于二维离散型随机变量，其分布问题关键是写出联合分布律，求边缘分布律即做加法，求条件分布律做除法即可。

根据离散和连续的对应关系，我们不难得到边缘概率密度。其概念也是把握两点：一、（X,Y）关于X的边缘概率密度其实就是随机变量X自己的概率密度，这是一维随机变量的概率密度，与第二章讲的概率密度无区别，加上边缘是为了指明它与联合概率密度的关系，当然也是为了区分与二维随机变量相关的两个概率密度（联合与边缘）；二、边缘概率密度与联合概率密度是什么关系？我们可以通过离散型随机变量和连续型随机变量的对应关系来把握。我们通过对联合分布律做加法就得到了边缘分布律，而积分可以理解为“连续求和”，所以我们通过对联合概率密度求积分可以得到边缘概率密度。

以上是对边缘分布的讨论，下面我们来看条件分布。首先，考研[微博]范围内只须考虑条件分布律和条件概率密度，不用管“条件分布函数”。我们以下面的二维离散型随机变量为例，讨论条件分布律。先给出二维随机变量的联合分布律：P{X=0,Y=0}=1/4, P{X=0,Y=1}=1/4, P{X=1,Y=0}=1/2, P{X=1,Y=1}=0。我们考虑下面的概率P{X=0|Y=0}，不难发现这是一个条件概率，我们按照条件概率的定义写出来P{X=0|Y=0}=P{X=0，Y=0}/ P{ Y=0}=（1/4）/（1/4+1/2）。那么这是不是条件分布律呢？不是，条件分布律要给出Y=0的条件下，X的所有可能取值及取这些值对应的概率。所以上面的式子只是给出了条件分布律中的一项。意识到这点，我们不难写出另一个式子P{X=1|Y=0}= P{X=1，Y=0}/ P{ Y=0}=（1/2）/（1/4+1/2）。这两个式子合起来构成一个完整的分布律，我们称其为给定Y=0的条件下X的条件分布律。通过这个小例子，我们思考一下：什么是条件分布律？条件分布律是一些条件概率。我们观察最终结果，不难发现结果是比值，分子是联合分布律中的一项，分母是边缘分布律中的一项。我们可以简单地记成：“联合/边缘=条件”。而实际做题过程中，如果我们能写出联合分布律，写出边缘分布律就是做加法，而写条件分布律就是做除法。实际是联合分布律中的项占该项所在行（或列）的数字的和的比例。我们把上面讨论的内容总结一下，就得到了一般的条件分布律的定义。我们称P{X=xi|Y=yj}=pij （i=1,2，…）为给定Y=yj的条件下，X的条件分布律。在这个定义式中，要分清哪个指标是固定的，哪个指标是可变的。

条件概率密度可以依据离散和连续的对应关系来理解。如对于条件分布律，有“联合/边缘=条件”，那么相应地，条件概率密度等于联合概率密度除以边缘概率密度，即fX|Y（x|y）=f（x,y）/ fY（y）。

下面我们对多维分布做一个小结：多维分布分成三个部分：联合分布，边缘分布和条件分布。这三部分基本的要求是理解定义和性质，其中联合分布函数有四条性质，前三条由一维分布函数推广而来，第四条性质通过画图理解；联合分布律和联合概率密度的性质（非负性和归一性）可作为充要条件；边缘分布函数，分布律和概率密度其实是一维分布，自然满足一维分布的性质；条件分布律和条件概率密度也满足非负性和归一性。多维分布这部分内容对应考研数学两道大题：多维分布的计算和求随机变量函数的分布。有了对基本概念的透彻理解，掌握相应的方法就水到渠成了。

标签： 考研数学（一）寻根究底随机变量篇

分享到：

考研数学：寻根究底之随机变量篇

合作机构友情链接