考研数学:寻根究底之随机变量篇
[摘要] 随机变量之于概率正如矩阵之于线代:矩阵是线性代数的活动基地,线代的核心概念基本上都是用矩阵定义的;而随机变量则是概率统计的活动基地,概率统计的重要概念均以随机变量为载体展开。
寻根究底之随机变量篇(一)
普研数学中概率共五题。如果有时间,看看真题,会发现题目是这么表述的:“设随机变量X…”,“设总体X…”,“设样本X1,X2,…,Xn为来自总体X的简单随机样本…”。可见考研数学概率部分是以随机变量为载体出题的;另外,随机变量之于概率正如矩阵之于线代:矩阵是线性代数的活动基地,线代的核心概念基本上都是用矩阵定义的;而随机变量则是概率统计的活动基地,概率统计的重要概念均以随机变量为载体展开。
随机变量,顾名思义,就是具有随机性的变量。什么叫有随机性?刘老师将带领大家从随机试验开始看起。
所谓随机试验,就是具有如下特征的试验:“可重复”,“结果不唯一”,“无法预知”(试验前无法预知哪种结果出现)。如掷硬币,掷骰子。对于某个随机试验,我们把其结果收集起来构成一个集合,这就构成了该试验的样本空间。而样本空间的子集就是随机事件。所以随机事件即某些试验结果构成的集合。概率第一章的基本概念:样本空间、随机事件、必然事件、不可能事件、基本事件,均可以理解成特殊的集合(由随机试验的结果构成的集合):全集、子集、全集、空集、单点集。
随机变量是定义在样本空间上的单值函数。例如对于掷硬币这个随机试验,其样本空间为{正,反},我们可以在这个样本空间上定义一个随机变量:X(正)=1,X(反)=0。
关于随机变量的概念,我们不妨多思考一下,以增进和它的关系。套用一句广告词:你怎么对待随机变量,随机变量就怎么对待你。请思考如下几个问题:
1. 随机变量是个函数,这个函数是不是高数中的函数?
不少同学没有思考过这个问题,那就错过了深入理解随机变量的机会。高数中的函数是什么样子的?起码定义域是实数集或实数集的子集。而随机变量的定义域是样本空间。这说明二者是不同类型的函数。什么?函数还有不同类型?有这种疑惑的同学很可能没有好好看教材,在同济六版高数教材第6页,有一小段话,较为透彻地解答了该问题。大家可以通过翻书或听我唠叨几句这两种方式解决这个问题。ready?go!映射是两个集合A,B之间的对应关系,考虑非空集合A、B,对于集合A中的任一元素,若集合B中有唯一确定的元素与之对应,我们就把这种对应关系称为从A到B的映射。如果集合A、B均为实数集或其子集,我们把这个映射称为函数。如果定义域为一个一般的集合(非实数集或其子集),那么我们把这种映射称为泛函(泛函字面意思为广义的函数)。理解了这些概念后,我们再来看随机变量,不难发现它原来是个泛函(怪不得不好理解呢)。泛函的知识考研不要求,不必深究。
2. 随机变量能否表示随机事件?
这个问题也有不少同学感到困惑。我们以上面定义的这个随机变量为例,{X=1}是个随机事件吗?是。可以有两个理解角度:其一,它可以写成{X=1}={e|X(e)=1}={正},这是一种反对应:由函数因变量的取值反对应自变量的取值。大家可以体会一下如何用随机变量表示随机事件;其二,X有两种可能的取值0,1,并且以一定的概率取每个值,而可以考虑概率的事件自然是随机事件了。所以以后见到一个随机变量,我们不一定要弄清它是如何定义的(有时这是困难的),只要我们能分析出这个变量有若干种可能的取值,取每个值有相应的概率即可认可其为随机变量,进行下一步分析即可。
类似地,{X<=1}也是随机事件。而且这种方式表示的随机事件有重要应用。正如深挖群众提供的贪腐线索有可能揪出大老虎,深入理解基本概念可能会有意想不到的收获。由{X<=1}为随机事件,不难得到{X<=a}亦为随机事件(其中a为给定的实数)。进一步,{X<=x}是随机事件吗(x为变量,且不具有随机性)?给定x,{X<=x}为一个随机事件;若给定不同的x,就得到不同的随机事件。如果x的取值范围是全体实数,我们就得到了一系列的随机事件。而每个随机事件又可以与一个概率对应。这样,对于每个x,有唯一确定的实数与其对应,这就确定了函数关系。这个函数是与X有关的,我们称其为X的分布函数。是不是有点意外的收获?
走笔至此,我忍不住要说两句“形而上”的东西。为什么有同学感觉课上听懂了,课下却不会做题?一个重要的原因是上课是学生跟着老师的思路走,缺少主动探索和“试错”。我们碰到一道题就像路过一个十字路口,有前后左右四个方向可选,而最终我们会选择其中一个方向走下去。那为什么要选这个方向?很多时候,我们要用主动的试错去减少可能性,用试错去建立自己的经验系统,进而依据经验系统做决策。而这种试错最好在平时完成(在考场上试错就“悲剧”了)。
3. 为什么要引入随机变量?
随机变量是把随机试验的结果与实数对应起来,方便用数学工具处理。没有随机变量的状态,我们已经见识过了,就在概率的第一章。我们可以考虑随机事件,但每次说起来和写起来都不方便:事件中的元素可能是“正”和“反”,也可能是“1点”和“6点”,还可能是“中”和“不中”;相应地算概率可能是P{“正”},可能是P{“掷出偶数点”},还可能是P{“独立重复地射击10次,击中k次”}。而有了随机变量后,整个概率的世界就不同了:可以用P{X=1}表示掷硬币朝上的面为正面,表示掷骰子掷出偶数点,还可以表示射击命中,只需要修改随机变量X的定义即可;此外,我们可以进一步定义X的分布函数,那么高等数学就可以作为一个工具来为概率统计服务了,比如求极限,求导这些基本计算可以对分布函数进行。
寻根究底之随机变量篇(二)
在弄清了随机变量的含义后,我们思考一个问题:用什么方式去描述它?随机变量有两个要素:取值和取值对应的概率。而分布是描述随机变量的方式。分布包括三种:分布函数,分布律和概率密度。为什么要有三种,这么麻烦,一种多简单?这就像现金可以完成支付,为什么还会有公交卡?因为我们坐公交时刷卡更方便些。分布函数确实可以描述所有随机变量,但对于离散型随机变量,用分布律描述较为方便;对于连续型随机变量,用概率密度描述较为方便。
分布函数是描述随机变量的通用方式。对于随机变量X,我们称F(x)=P{X<=x},(x属于R)为其分布函数。关于分布函数,前文我们讨论过一种理解角度,此外,我们还可以从以下几个角度理解。
1.F(x)=P{X<=x}= P{X属于(负无穷,x]},意味着X的分布函数F(x)是随机变量X落入区间(负无穷,x]的概率。
2.对于上面用掷硬币这个随机试验定义的随机变量X,大家动手写一下它的分布函数,不难得到如下结果:当x<0时,F(x)=0;当0=
3.随机变量X不是高数中的函数,那么其分布函数是高数中的函数吗?是。我们观察上面写出的分布函数的表达式和图像,会发现它就是一个普通的分段函数,是高数的中的函数。
在讨论完随机变量后,我们讨论多维随机变量。
先考虑一个问题:什么叫多维随机变量。想一下,咱们在哪个地方提到过“多维”?高数中有二维平面,三维空间。线性代数中向量的维数即向量分量的个数。所谓n维随机变量,就是一个向量,该向量的每个分量是定义在同一个样本空间上的随机变量。或者理解成n个一维随机变量放在一块考虑。
我们学习多维随机变量,要和一维对比起来理解。前面提到,我们是用分布描述一个随机变量的,分布有三种:分布函数,分布律和概率密度。那么,推广一下,就得到了二维随机变量的描述方式。先看分布函数。
一维随机变量的分布函数是个一元函数F(x),它是一维随机变量X落入到一个区间(负无穷,x]的概率;相应地,二维随机变量的分布函数应是一个二元函数F(x,y),它是二维随机变量(X,Y)落入一个平面区域(负无穷,x]乘(负无穷,y]的概率。一维随机变量的分布函数有三条性质:“单调不减”,“0,1之间”,“右连续”。那么推广过来,就得到了二维随机变量分布函数的性质:关于x关于y均为单调不减;函数值在0,1之间;关于x关于y均为右连续。理解起来也不困难:所谓“关于”,就是把一个变量固定让另一个变量变化;分布函数是一个概率,当然在0,1之间,这里与一维有所不同(F(负无穷,y)= F(x,负无穷)=0),只需注意到定义中的逗号是“且”的意思。最后一条性质可以结合图像理解,考得不多。
仍有一个问题:一维随机变量的分布函数的三条性质是充要条件,那么二维随机变量的分布函数的这四条性质是充要条件吗?这个考试不要求。当然,其它类似理解:如F(x)是一维随机变量的通用描述方式,每个随机变量均可对应一个分布函数;相应地,F(x,y)是二维随机变量的通用描述方式,每个二维随机变量均可对应一个分布函数。
理解了二维分布函数的定义和描述方式后,我们看看二维随机变量的类型。回顾一下一维随机变量有哪些类型?离散和连续。推广一下,可以得到二维离散型和连续型随机变量。
什么是一维离散型随机变量?无非是取值为有限或者可列无限个的随机变量。类似的,二维随机变量,若其取值是有限或可列无穷对,则称其为二维离散型随机变量。并且二维离散型随机变量的描述方式与一维一致,也是写出所有可能的取值,写出取值对应的概率即可。差别在于二维的取值是实数对,而一维是实数。
类似地,我们可以得到二维连续型随机变量的定义及性质。
二维随机变量的分布函数、分布律和概率密度统称联合分布。
寻根究底之随机变量篇(三)
多维分布包括三种:联合,边缘,条件。后两种是多维变量独有的分布。我们先从边缘分布看起。先总体把握一下:X,Y放在一块构成一个向量(X,Y),其分布称为联合分布,而X自己作为随机变量,其分布称为(X,Y)关于X的边缘分布。当然分布包括三种:分布函数,分布律和概率密度。前面加上边缘,就得到三种边缘分布。何为(X,Y)关于X的边缘分布函数FX(x)?把握两点即可:一、随机变量自己的分布函数;二、它和联合分布函数的关系:对比FX(x)和F(x,y)的定义,我们发现前者不含y,如何把F(x,y)中的y变没呢?注意到F(x,y)=P{X<=x, Y<=y}中的“X<=x”和“Y<=y”为两个事件,如果我们令y趋于正无穷,则“Y<=正无穷”为必然事件,那么F(x,正无穷)=P{X<=x, Y<=正无穷}= P{X<=x }。如果我们已知X和Y的联合分布函数,要求关于一个随机变量的边缘分布函数,只需求极限即可(令一个变量趋于正无穷)。
弄明白边缘分布函数后,边缘分布律和边缘概率密度就是类似的了。关于边缘分布律,也是把握两点:一、(X,Y)二维离散型随机变量,X自己是一维离散型随机变量,它自己应有分布律,我们把这个分布律称为(X,Y)关于X的边缘分布律。二、边缘分布律和联合分布律的关系。(X,Y)关于X的边缘分布律P{X=xi}=pi(i=1,2,…)中不含j,意味着P{X=xi}=pi对所有的j都成立。故P{X=xi}= P{X=xi,Y=y1}+ P{X=xi,Y=y2}+…也就是说,如果我们知道了联合分布律,要求边缘分布律,做加法即可。反过来,如果我们已知边缘分布律,要求联合分布律。首先要有“已知边缘求联合”的意识,之后我们可以把联合分布律的表画出来,并把边缘分布律写在一边,再结合已知条件,不难把联合分布律的表填完整。对于二维离散型随机变量,其分布问题关键是写出联合分布律,求边缘分布律即做加法,求条件分布律做除法即可。
根据离散和连续的对应关系,我们不难得到边缘概率密度。其概念也是把握两点:一、(X,Y)关于X的边缘概率密度其实就是随机变量X自己的概率密度,这是一维随机变量的概率密度,与第二章讲的概率密度无区别,加上边缘是为了指明它与联合概率密度的关系,当然也是为了区分与二维随机变量相关的两个概率密度(联合与边缘);二、边缘概率密度与联合概率密度是什么关系?我们可以通过离散型随机变量和连续型随机变量的对应关系来把握。我们通过对联合分布律做加法就得到了边缘分布律,而积分可以理解为“连续求和”,所以我们通过对联合概率密度求积分可以得到边缘概率密度。
以上是对边缘分布的讨论,下面我们来看条件分布。首先,考研[微博]范围内只须考虑条件分布律和条件概率密度,不用管“条件分布函数”。我们以下面的二维离散型随机变量为例,讨论条件分布律。先给出二维随机变量的联合分布律:P{X=0,Y=0}=1/4, P{X=0,Y=1}=1/4, P{X=1,Y=0}=1/2, P{X=1,Y=1}=0。我们考虑下面的概率P{X=0|Y=0},不难发现这是一个条件概率,我们按照条件概率的定义写出来P{X=0|Y=0}=P{X=0,Y=0}/ P{ Y=0}=(1/4)/(1/4+1/2)。那么这是不是条件分布律呢?不是,条件分布律要给出Y=0的条件下,X的所有可能取值及取这些值对应的概率。所以上面的式子只是给出了条件分布律中的一项。意识到这点,我们不难写出另一个式子P{X=1|Y=0}= P{X=1,Y=0}/ P{ Y=0}=(1/2)/(1/4+1/2)。这两个式子合起来构成一个完整的分布律,我们称其为给定Y=0的条件下X的条件分布律。通过这个小例子,我们思考一下:什么是条件分布律?条件分布律是一些条件概率。我们观察最终结果,不难发现结果是比值,分子是联合分布律中的一项,分母是边缘分布律中的一项。我们可以简单地记成:“联合/边缘=条件”。而实际做题过程中,如果我们能写出联合分布律,写出边缘分布律就是做加法,而写条件分布律就是做除法。实际是联合分布律中的项占该项所在行(或列)的数字的和的比例。我们把上面讨论的内容总结一下,就得到了一般的条件分布律的定义。我们称P{X=xi|Y=yj}=pij (i=1,2,…)为给定Y=yj的条件下,X的条件分布律。在这个定义式中,要分清哪个指标是固定的,哪个指标是可变的。
条件概率密度可以依据离散和连续的对应关系来理解。如对于条件分布律,有“联合/边缘=条件”,那么相应地,条件概率密度等于联合概率密度除以边缘概率密度,即fX|Y(x|y)=f(x,y)/ fY(y)。
下面我们对多维分布做一个小结:多维分布分成三个部分:联合分布,边缘分布和条件分布。这三部分基本的要求是理解定义和性质,其中联合分布函数有四条性质,前三条由一维分布函数推广而来,第四条性质通过画图理解;联合分布律和联合概率密度的性质(非负性和归一性)可作为充要条件;边缘分布函数,分布律和概率密度其实是一维分布,自然满足一维分布的性质;条件分布律和条件概率密度也满足非负性和归一性。多维分布这部分内容对应考研数学两道大题:多维分布的计算和求随机变量函数的分布。有了对基本概念的透彻理解,掌握相应的方法就水到渠成了。