摘 要 广义线性模型是一类有着广泛应用的统计模型,可适用于连续数据和离散数据。而logistic模型作为广义线性模型的一个特例,在实用上,尤其是医药、生物、保险和经济社会数据的统计分析上有重要意义。本文主要介绍logistic模型,并通过解决一个调查实例来体现出logistic模型的适用性。
关键词 广义线性模型 logistic模型 极大似然估计
中***分类号:O212 文献标识码:A
线性回归模型(linear regression model)在定量分析的实际研究中是最流行的统计分析方法了,但线性回归也会受到限制。在过去的几十年里,广义线性模型(GLMs)已经成为了一种常用的统计工具来拟合精算数据。广义线性模型是对经典的线性回归模型的进一步推广。许多社会科学的观察都是分类的而不是连续的,分析分类变量时,通常采用的一种统计方法是对数线性模型(log-linear model)。在本文中,笔者将提供对数线性模型的一种特殊形式——logistic回归模型。
1 理论介绍
1.1 logistic模型
logistic回归,作为广义线性模型的一个特例,一般用来预测二分类变量的情况,其形式为: ( / 1-)=+
其中:,,…,为自变量; 为事件发生的概率,为截距。为回归系数, / 1-被称为事件的发生比(odds)。
在已知和的情况下,某一种特定情况发生的概率可以通过以下等式得到: = exp( + )/1+exp( + )
其中,截距及回归系数由极大似然估计得到。
Logistic回归时最为常用的预测被解释变量为0-1变量的模型,其与普通线性回归的区别在于:logistic回归通过logistic联结函数,将线性模型的预测平面转换为预测曲面。但是一旦取定阈值以后,判别函数其实依然是线性的。
与线性回归估计未知参数时主要采用最小二乘估计不同,logistic回归模型是非线性模型,最常用的是极大似然估计。
1.2 最大似然估计
***性回归分析中,最大似然估计法可以得到与最小二乘法相同的结果,与最小二乘法相比,最大似然估计法既可以用于线性模型,也可以用于更为复杂的非线性估计。Logistic的似然函数形式如下:L(%a)=(1-)1-
然而,使似然函数L(%a)最大化的实际过程是非常困难的,一般是通过使似然函数得自然对数变换式最大的方法,而不是直接对似然函数本身求最大。其logistic回归模型的对数似然值为:[L(%a)]=[(1-)1-]=[()+(1-)]={(+)-[1+exp( +)]}
上式称为对数似然函数。为了估计能使[L(%a)]最大的总体参数和值。先分别对和求偏导数,然后令它等于0;形式为:
, ( 1 )
由式(1)可以得到如下的结果:=
这意味着观测值之和等于预测概率之和。这一性质在评价模型拟合情况时非常有用。最大似然估计得渐进方差和协方差可以由信息矩阵的逆矩阵估计出来。信息矩阵实际上是二阶导数的负值的期望,可以用下列形式表达:(%a)=E[-2ln(L)2/%a2],信息矩阵的逆为:[(%a)]-1。夂徒ソ讲畹墓兰凭褪切畔⒕卣蟮哪娴亩越窍呱显刂担越窍咭酝飧髟刂滴飨畈问涞男讲罟兰啤?
2实例和模型
2.1 例子
在汽车安全性的调查研究中,随机抽取150名男性以及150名女性,进行关于买车时是否将空气调节和动力转向作为重要因素的调查,下表给出他们的性别、年龄及每个人做出的反应。
我们运用R软件及离差分析的方法确定哪个是比较好的模型,并且看看哪个因素影响比较显著。假设为反应重要与不重要的比率,,,表示不同年龄的女性,,,表示不同年龄的男性。
2.2模型1
我们建立只与“性别”有关的广义线性模型,根据R软件的计算结果可知,中间模型与全模型有明显差别。
则模型1的形式为:=exp(1.0116 -0.7433)/1+exp(1.0116 -0.7433)
再有R软件计算结果,根据方差分析可知,常数模型与中间模型有明显的差别。
2.3模型2
我们建立只与“年龄”有关的广义线性模型,根据R的运算结果可知,中间模型与全模型无明显差别。
可得模型2的形式为: =exp( -0.4055+1.2905+2.3179)/1+exp( -0.4055+1.2905+2.3179)
由方差分析可知,常数模型与中间模型无明显的差别。
2.4 模型3
我们建立“年龄”和“性别”线性的广义线性模型,根据R的运算结果可知,中间模型与全模型无明显差别。
可得模型3的形式为: =exp(0.07461 -0.57234+1.25966+224900)/1+exp(-0.07461-0.57234+1.25966+224900)
由方差分析可知,常数模型与中间模型无明显的差别。
通过对三个模型的对比,我们得到模型3是最好的模型并且得到“年龄”的影响比较显著。
3 logistic模型的适用性
首先,一般的判别分析方法要求变量服从多元正态分布,现实中一般达不到这个要求,而logistic回归对于变量的分布没有具体要求,适用范围更广,与现实更吻合;其次,logistic模型建立后,将自变量带入模型得到概率值,给人直观明了的感觉,在实际运用中非常简单、方便;最后,logistic模型适用范围很广,例如在***治经济学的选举问题,社会学和人口研究中人们的行为等等。
转载请注明出处学文网 » Logistic模型实例中的应用