摘 要: FISHER确切概率法是双总体的比率假设检验的重要方法,也是数理统计教学的重要内容,但现有的课本对该方法原理的介绍都过于简略,以致学生往往很难理解和掌握该方法。本文针对这一实际情况,对FISHER确切概率法进行详细系统的证明,并指出了讲解该方法的要点,同时结合MATLAB程序实现该方法, 教师可以在课堂上演示。实践证明,这种深入剖析且可视化的讲解方法,大大提高了学生的学习兴趣,收到了良好的教学效果。
关键词: 比率假设检验 FISHER确切概率法 MATLAB程序算法
前言
双总体的比率假设检验是数理统计学科中比率假设检验的一项重要内容,在大样本的情形下,根据中心极限定理,用正态逼近法进行检验。20世纪英国统计学家FISHER提出了确切概率法,该方法在大小样本的情形下都可以使用。相比较正态逼近法,该方法适用范围广且比较精确,可以检验水平保证不超过给定的α;缺点是计算麻烦。所幸随着计算机的高速发展,计算已然不成问题,但仍存在难以理解其原理的问题。笔者在教学过程中发现,现有的数理统计和医学统计教科书对该方法的介绍都是点到即止,对原理剖析得不够透彻,增加了理解难度,学生普遍反映难以理解该方法。因此笔者在此详细探究FISHER确切概率法的证明过程,以补充教科书的不足;根据学生反馈对难点进行重点讲解;并给出了MATLAB程序实现该方法的的详细算法,教师可在课堂上演示,以加深学生对该方法的理解,提高学生的学习兴趣。
1.FISHER确切概率法[1]
1.1问题的提出
例:某公安局有两个刑侦组,在过去一年内第一组接手25件人命案,结果侦破了23件,第二组接手35件人命案,结果侦破了30件。问:两个组的侦破能力有无区别?
对该问题进行数学解释,设第一组侦破率为p,
X=1表示第一组侦破成功,其概率为p0表示第一组未能侦破成功,其概率为1-p
即X服从均值为p的伯努利分布,X,…,X为来自总体X的样本,n=25。
同理设第二组侦破率为p,
Y=1表示第二组侦破成功,其概率为p0表示第二组未能侦破成功,其概率为1-p
即Y服从均值为p的伯努利分布,Y,…,Y为来自总体Y的样本,m=35。
两两总体X,Y***,x,…,x,y,…,y为对应的观察值,原假设为H∶p=p,则本质为一个双总体的比例假设检验。显然,该问题p=x=0.92,np(1-p)=1.84
事实上,若H成立,当t=x+y固定时,则检验统计量S=∑X是一个服从超几何分布的随机变量[2],该结论在教材上都是直接指出,而没有详细的解释和证明,学生普遍反映不能理解,下面将给出该结论的详细证明。
1.2检验统计量所服从的分布
统计量S=X在t=x+y固定情况下概率是一个条件概率,由条件概率公式可以得出:
P(S=i|S+S=t)=。
而P(S=i,S+S=t)
=P(S=i,S=t-i)
=P(S=i)P(S=t-i)(X,Y***可得)
=cp(1-p)cp(1-p)(由伯努利分布的定义可得)。
在原假设H∶p=P成立时,上式可以化简得到:
P(S=i,S+S=t)
=ccp(1-p)。
原假设H∶p=p成立时,根据伯努利分布有P(S+S=t)=cp(1-p)。
因此,P(S=i|S+S=t)
=
=。
由超几何分布的概率函数可知,检验统计量服从超几何分布。超几何随机变量是离散型的随机变量,它的值可列的。显然,检验统计量S的取值s满足s≥0,s≥t-m,s≤n,s≤t,因此它的范围为[max(t-m,0),max(t-m,0)+1,…,min(n,t)]。
已知了检验统计量的分布,接下来的任务就是根据其分布来确定该统计量的取值出于哪些范围是属于小概率事件,而该范围就是拒绝域,即接下来的任务就是如何确定拒绝域。因为这之前学生接触过的检验统计量一般为正态分布、t分布、卡方分布等连续型的随机变量,很少接触这种离散型的检验统计量,所以学生可能一时不知道该如何确定这种离散型统计量的假设检验拒绝域,这时可以通过借鉴连续型统计量的情形来引导学生推导。
1.3拒绝域的确定
借鉴连续型的情形,对于给定的检验水平α,我们希望找到两个整数c和c,使得P(S≤c|S+S=t)=,P(S≥c|S+S=t)=,类似连续型情形可以确定拒绝域为[max(t-m,0),c]∪[c,min(n,t)](见***1)。
***1 拒绝域的确定
然而这种希望不一定能实现,因为检验统计量是离散的,所以满足P(S≤c|S+S=t)=的c不一定存在。放宽条件,寻找d和d,使得
P(S≤d|S+S=t)≤(1)
P(S≥d|S+S=t)≤(2)
这样的d和d一定存在,但并不唯一,选择满足(1)等式的最大的正整数为e,满足(2)等式的最小的正整数为e,确定拒绝域为{s≤e∪s≥e}。相对于随机取满足(1)(2)的拒绝域{s≤d∪s≥d},前者有较优良的性质,即它们的检验水平都是≤α,但是犯第二类错误的概率前者是小于等于后者的(对这一点学生也需要一点时间去理解,可以举他们熟悉的置信区间在相同的置信度下取区间长度最小进行类比,以便于他们接受)。
1.4拒绝域的转换
虽然已经知道了检验统计量的分布,确定了拒绝域的形式为{s≥e∪s≤e},求出满足条件的e和e肯定是可以的,但在计算上很麻烦。值得庆幸的事,该定义域可以进行等价转换。
将P(S=i|S+S=t)简记为p(i),
则P(S≤e|S+S=t)=p(i)≤,
P(S≥e|S+S=t)=p(i)≤,
显然s≤ep(i)≤(因为e是满足(1)式中最大的正整数),而s≥ep(i)≤(因为e是满足(2)式中最小的正整数。因此拒绝域转换为min(p(i),p(i))≤,等同于2min(p(i),p(i))≤α
1.5问题的解决
对于例题,n=25,m=35,t=53,p(i)=代入公式,2min(p(i),p(i))=2min(0.374,0.878)>0.05,没有落入拒绝域,所以接受原假设,认为两个组的侦破能力(侦破率)无区别。
2.MATLAB程序算法[3][4]
2.1MATLAB简介
Matlab(MatrixLaboratory,即“矩阵实验室”)是最优秀的数值计算软件。主要特点有:功能强大适用范围广;编程效率高;界面友好用户使用方便;语句简单内涵丰富;功能齐备的自动控制软件工具包等。它已经成为线性代数、自动控制理论、数理统计、数字信号分析与处理等高级课程的基本数学工具。
2.2主要算法
整个算法的流程见***2。
***3 子函数P(begin)的算法流程
核心算法是p(i)的计算,采用递推来简化计算。
p(i+1)=
=
=
=×
p(i+1)=p(i)×。
3.结语
鉴于很多教科书上对FISHER确切概率法原理的阐述过于简单,笔者从原假设H∶p=p入手,详细阐述了该方法的原理,并给出了详细的MATLAB算法流程,教师可以在课堂上演示,达到较好的教学效果。对于H∶p≥p和H∶p≤p的情况教师可以让学生参看教科书自行推导,有编程基础的学生可以动手尝试一下写实现包括三种原假设FISHER确切概率法的程序。实践证明,这种诱导型的教育方法可以较好地增强学生的参与性和调动学生的主动性,收到较好的教学效果。
参考文献:
[1]陈家鼎.数理统计学讲义[M].北京:高等教育出版社,2006.
[2]徐勇勇.医学统计学[M].北京:高等教育出版社,2002.
[3]张志涌.MATLAB教程[M].北京:北京航空航天大学出版社,2006.
[4]张瑞丰.精通MATLAB 6.5[M].北京:中国水利水电出版社,2004.
注:南方医科大学公共卫生与热带医学院院长基金(GW200832)
本文为全文原貌 未安装PDF浏览器用户请先***安装 原版全文
转载请注明出处学文网 » 如何讲好FISHER确切概率法