【摘 要】采用最小二乘法配置回归直线,把非线性拟合参数问题加以线性化,进行参数估算,得到回归直线实际应用的数学模型,进行了误差分析,并给出了应用的实例。
【关键词】直线回归;回归方程;方差分析
0.引言
“回归”是个借用已久因而相沿成习的名称。若某一变量Y随另一变量X的变动而变动,则称X为自变量,Y为因变量。这种关系在数学上被称为Y是X的函数,但在其他领域里,自变量与因变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋势,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。
直线回归(linear regression)是用直线回归方程表示两个数量变量间依存关系的统计分析方法,属双变量分析的范畴。如果某一个变量随着另一个变量的变化而变化,并且它们的变化在直角坐标系中呈直线趋势,就可以用一个直线方程来定量地描述它们之间的数量依存关系,这就是直线回归分析。回归分析的方法在园艺植物、医学领域等的生产和科学研究中有着广泛的应用,如利用温度或雨量的变化,预测某种园艺植物的主要物侯期 ( 萌芽、开花 ) 、产量、品质以及病虫害发生;应用实生苗的某些性状,预测成年树的某些性状等。
直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为因变量(dependent variable)和自变量(independent variable),习惯上分别用y和x来表示。其中x可以是规律变化的或人为选定的一些数值(非随机变量),也可以是随机变量,前者称为I型回归,后者称为II型回归。
1.直线回归方程式
将x与y两个变数的n对观察值(x,y),(x,y)...(x,y)分别以坐标点的形式标记于同一直角坐标平面上,作成散点***,如果这两个变数的 n 对观察值在散点***上呈线性,则说明两变数间的数量关系可用直线回归方程来表示。在解析几何上,表示一个平面上的任何直线方程的一般形式为:
=a+bx (1)
上式称为“y依x的直线回归方程”,x是自变量;a是x=0时y的值,也是回归直线在y轴上的截距,叫做回归截距(intercept);b 是回归系数(coefficient of regression),表示x每增加一个单位,y平均将要增加 (b>0)或减少(b
要使(1)式成为实际资料的最佳线性配合,并满足预测要求,必须使观测值yi与回归值偏离达到最小。当变量x取x(i=1,2,・・・,n)时,可以得到=bx+a(i=1,2,・・・,n)。它与实际收集到的yi之间的偏差是y-=y-(bx+a)(i=1,2,・・・,n)。
这样,用这n个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。由于(y-)可正可负,为了避免相互抵消,可以考虑用
y
-代替,但由于它含有绝对值,运算不太方便,所以改用Q=(y-a-bx)・・・(2)来刻画n个点与回归直线在整体上的偏差。
这样问题就归结为:当a,b取什么值时Q最小,即总体偏差最小。为此分别求Q关于a,b的偏导数,并令他们等于零:
Q(a,b)=
(y-a-bxi)(-2)=0
Q(a,b)=
(y
-a-bxi)(-2x)=0
解得
=
=
-b,其中=x,=y.
此时回归直线为=+x。
通过求(2)式的最小值而得回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法。该方程是实际资料的线性最佳配合。
2.直线回归方程式的计算
例1、测得某地10对父子身高(单位:英寸)如下:
表1
如果x与y之间具有线性相关关系,求回归直线方程;如果父亲的身高为78英寸,试估计儿子的身高。
分析:对于两个变量,在确定具有线性相关关系后,可以利用“最小二乘法”来求回归方程。用“最小二乘法”求回归直线方程的关键在于正确地利用回归方程中系数公式求出系数,这样回归方程也就建立起来了。
首先根据实际观测值计算出下列数据:
=∑x/n=668/10=66.8,=∑y/n=670.1/10=67.01
L=∑x-(∑x)/n=44794-(668)/10=171.6
L=∑xy-=44842.4-=79.72
L=∑y-(∑y)/n=44941.93-(670.1)/10=38.529
b===0.465
a=-b=67.01-0.465×66.8=35.948
=35.948+0.465x
所以当父亲的身高为78英寸时,估计儿子的身高约为72.2138英寸。
评注:“最小二乘法”是求回归直线方程常用的方法,在回归直线方程中,a,b是回归直线方程中的系数,其中b是回归直线的斜率,表示自变量变化1个单位时因变量的平均变化值。
例2、某医生研究儿童体重与心脏横径的关系,测得13名8岁正常男童的体重与心脏横径,数据见表。试作回归分析。
(1)以体重作为自变量,心脏横径作为因变量,作散点***,发现呈直线趋势,可拟合直线回归方程。在作回归直线***时,以x变数为横坐标,y变数为纵坐标,并标明名称和单位。若不是以零起始的,要在近原点处划一折断号。划出直线***后,应将实际观察各点标明在***上,且将回归方程以及相关系数(或决定系数)分别标于直线的上方或下方。同时应注意,绘制的回归直线两端不要超出x变数的取值范围。
表2 13名8岁健康男童体重与心脏横径的关系
(2)求回归方程:本例n=13, (下转第92页)
(上接第58页)∑x=301.5,∑x=7072.75,∑y=116.3,
∑y=1044.63,=23.19,=8.95,∑xy=2713.65,
L=∑x-(∑x)/n=7072.75-301.5/13=80.2692,
L=∑y-(∑y)/n=1044.63-116.3/13=4.1923,
L=∑xy-(∑x)(∑y)/n=2713.65-301.5*116.3/13=16.3846,
b===0.2041,a=-b=8.95-0.2041*23.19=4.2121,
回归方程式为=4.2121+0.2041x。
根据直线回归方程可作出回归直线,并不是所有的散点都恰好落在回归直线上,这说明用去估计y是有偏差的。
3.应用直线回归的注意事项
(1)作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途。
(2)直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值。若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性。
(3)进行回归分析时,应先绘制散点***(scatter plot)。若提示有直线趋势存在时,可作直线回归分析;若提示无明显线性趋势,则应根据散点分布类型,选择合适的曲线模型(curvilinear modal),经数据变换后,化为线性回归来解决。
(4)绘制散点***后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。
特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。
【参考文献】
[1]丁勇.直线回归的最小面积法[J].工程数学学报,2003(03).
[2]李平.非等精度测量条件下的一元线性回归[J].大学物理实验,2003(03).
[3]孙彦清.最小二乘法线性拟合应注意的两个问题[J].汉中师范学院学报,2002(03).
[4]吴传生.概率论与数理统计.高等教育出版社,2004,7.