【摘 要】针对贝叶斯统计的学科特点和教学难点,对后验分布的讲授,由经典统计中的贝叶斯公式引入并推广得到定义,结合案例深入理解,利用数学软件辅助计算,使得学生能够灵活掌握该定义。后验分布在贝叶斯统计中的重要性,在今后的学习中深入体会,培养学生自主学习的兴趣和解决问题的创造思维能力。
【关键词】贝叶斯统计;后验分布;比较法
【Abstract】According to the characteristic and the teaching difficulty of Bayesian statistics, we introduce the definition of posterior distribution by comparing the Bayesian formula in classical statistical. Combining with case study and using mathematics software, students can understand the meaning deeply and calculate quickly. Through the importance of posterior distribution in Bayesian statistics, students could have deep experience in the future study. We should also cultivate students' autonomous learning interest and the ability of creative thinking to solve the problem.
【Keywords】Bayesian statistics;Posterior distribution;Comparison method
贝叶斯统计是统计学专业中唯一一门非经典统计学的学科。英国学者贝叶斯的遗作《论有关机遇问题的求解》,提出了著名的贝叶斯公式和一种归纳推理方法,成为了贝叶斯学派的奠基石。之后,在Jeffreys、Good、Savage、Berger等学者的不断努力下,把贝叶斯方法在观点和理论上不断完善,并在工业、经济、管理等领域获得了成功的应用[1]。目前,贝叶斯学派已发展成为一个有影响的统计学派,打破了经典统计学一统天下的局面,占据了统计学的半壁江山。
1 贝叶斯统计的特点和教学难点
贝叶斯统计是在与经典统计的争论中逐渐发展起来的。其基本思想和观点是:总体分布中的未知参数可以看作随机变量;事件的概率除了用频率解释外,还可用个人经验和历史资料来获得,即承认主观概率;在经典统计所用的总体信息和样本信息外,还充分利用了抽样之前的信息―先验信息,并可根据先验信息获得先验分布。而这些观点在经典统计学看来都是不合理的。实际上,人们在生活中都在不知不觉的运用贝叶斯的思想解决问题。比如,医生在做手术之前会根据病人的病情和自己的经验估计手术成功的概率;免检产品的鉴定需要利用该产品以往的不合格品率的历史资料,若多次在零附近,且每隔一段时间抽查,仍保持该结果,则认定该产品为免检产品。这些实例都是在运用了先验信息后才得到了更好的解决,因此,若能充分利用先验信息,对于解决很多统计问题,无疑是非常有利且有效的。
然而正是由于贝叶斯统计独有的思想和方法,学生在习惯于以往所学的经典统计的课程思路情况下,接受起来有一定的困难。因此,教师在教授过程中一定要深入浅出,运用实例,易于学生理解。将贝叶斯统计与经典统计比较讲授相关内容,让学生从熟悉的知识进入,循序渐进逐步认识贝叶斯方法和理论。
2 比较法引入后验分布定义,案例加深理解,数学软件辅助教学
后验分布的定义是贝叶斯统计中第一章课程的内容,学生刚刚接触,理解起来有一定的难度。可由经典统计中所熟悉的贝叶斯公式引入讲解,比较容易接受。另外通过实用案例,激发学生的学习兴趣,并能更好理解定义。
2.1 贝叶斯公式
这就是概率统计中著名的贝叶斯公式,也叫逆概率公式[2]。我们可将事件B看作是试验结果,A1,A2,…,An看作是导致结果B的原因。则该公式表明了结果B发生条件下由第i个原因导致的概率。即执果索因[3]。
案例1
已知5%的男人和0.25%的女人是色盲,现随机挑选一人,检验为色盲,若男人和女人各占人数的一半,问此人是男人的概率。
设B为随机抽取一人为色盲,A为随机抽取一人为男人,A为随机抽取一人为女人。则P(A)=0.5,P(A)=0.5,且P(B|A)=0.05,P(B|A)=0.0025。故根据贝叶斯公式,有:
在贝叶斯公式中,结果B可认为是已经出现的样本数据x,发生结果的原因Ai可认为是未知的随机变量θ的取值。于是将贝叶斯公式推广可得到后验分布的离散形式定义。
2.2 后验分布的离散形式
设总体x服从分布密度p(x|θ),其中θ为离散型随机变量,取值为有限个或可列个。即θ=θi,i=1,2,…。θ的先验分布为π(θi)=P(θ=θi),i=1,2,…。样本的观察值为x=(x1,x2,…,xn),样本联合分布密度为,则θ的后验分布为:
将离散形式推广得到连续形式的后验分布定义。
2.3 后验分布的连续形式
2.若总体x为离散型随机变量,则总体分布密度p(x|θ)改为分布列P(X=x|θ),后验分布的离散形式和连续形式就不难写出来了。
先验分布π(θ)反映了人们在抽样前对参数θ的认识,而后验分布π(θ|x)则是在获得了样本后,对参数θ的认识,是人们利用总体信息、样本信息(统称为抽样信息)对先验分布π(θ)的认识作调整的结果。
案例2
英国统计学家Savage(1961年)考察一个统计实验:一位常饮牛奶加茶的妇女声称,她能辨别先倒进杯子里的是茶还是牛奶。对此作了10次试验,结果她都说对了。
若不考虑该妇女的经验,则应认为每次她猜对的概率为0.5,则10次猜对的概率为0.510=0.0009766非常小,显然与实际不符,不合理。因此应该充分利用经验,即先验信息。对该妇女的了解,认为有可能她每次猜对的概率为0.95。设θ为她每次猜对的概率,则取值为0.95或者0.5。
可见,抽样前后,对于猜中的概率θ=0.95的可能性从先验概率0.6变为后验概率0.9989,提高了很多,这主要是由于考虑了样本(10次全部猜对)的缘故。后验分布正是在样本参与下对参数θ的认知的改变,这个案例生动形象的说明了后验分布的含义。在进行计算和分析过程中,如上述的后验概率计算,可以运用Matlab等数学软件辅助教学工具。适当安排数学实验课程,使得学生能够很好的掌握有关贝叶斯统计课程的数学软件的使用。
3 后验分布在贝叶斯统计中的地位及作用
后验分布是基于总体信息、样本信息和先验信息三种信息的综合结果,是一个非常重要的定义,在整个贝叶斯统计学中起着基石一样的作用。贝叶斯统计的点估计、区间估计、假设检验及预测等统计推断问题都是建立在后验分布基础之上进行的。而在后验分布引入损失函数之后,便构成了贝叶斯决策理论的基本框架。显然,后验分布在贝叶斯统计中占有举足轻重的地位,可以说任何贝叶斯统计问题都离不开后验分布。因此,在学习该定义之初应使学生能够理解好,并灵活运用定义。在后续其他贝叶斯理论的讲授中应逐步加深对该定义的认识和应用。
4 结束语
贝叶斯统计课程是在统计学花海中的一支独秀。通过对后验分布定义的教学研究探索,我们可以将其方法推而广之,运用到贝叶斯统计中的其他理论知识的讲授中。在教师教学和学生学习的过程中,贝叶斯方法和思维方式都是与其他统计学科非常不同的。因此,可以在与熟知的经典统计学的对照中比较学习,深入浅出,列举实际案例,易于理解。通过案列的讲解还能激发学生的学习兴趣,提高主动思考和解决实际问题的能力,培养学生的创新意识和应用能力。当学生遇到某个问题时,若能不仅局限于经典统计方法,还能考虑到使用贝叶斯方法结合解决,也就具备了贝叶斯思想,那么该课程的开设便达到了目的。若能有部分同学有兴趣进一步拓宽贝叶斯方法的应用领域,深入研究学习,那么我国的贝叶斯统计研究就后继有人了。
【参考文献】
[1]茆诗松,汤银才.贝叶斯统计[M].北京:中国统计出版社,2012:5-6.
[2]李自勇.基于贝叶斯公式及应用数学的认识与实践[J].数学教学研究,2014(3):63-65.
[3]李春娥,王景艳.贝叶斯公式及其应用的教学研究[J].大学数学,2015:119-121.
转载请注明出处学文网 » 贝叶斯统计中后验分布的教学研究与探析