【摘要】近几年来,函数数据分析方法正处于迅猛发展阶段,国内已有一些学者将其应用到拍卖,股票等方面。它的出现带来了统计学分析方法上的一次变革。本文简要介绍了函数数据的概念,基本的分析方法。
【关键词】函数数据 函数数据分析 网上拍卖
近几十年来,由于统计学的不断发展,出现并发展了一些新的方法解决了很多问题。然而,无论获得的是截面数据还是时间序列数据,我们只能进行某一横向研究或纵向研究,同时其前提条件很多不能满足,因此常常导致数据分析结果的不可靠性。虽然面板数据模型将截面数据和时间序列数据结合起来,具有较强的因果推理属性,但是三者存在共同的缺陷:即所建立的模型都是线性的,而在实际应用过程中无法完全保证变量间的线性关系,并且也难以确保数据满足前提假设条件,从而使方法的具体应用及方法适用于数据的类型均具有一定的局限性。函数数据分析是将观测数据当作一个整体(函数),而不是一系列单个离散的观测结果。之所以这样做是因为在研究中我们不仅关心的已得到的数据,更关心未得到的或者无法得到的数据。函数性数据分析(Functional Data Analysis,FDA)的概念,始见于加拿大统计学家J.0.Ramsay和C.J.Dalzell于1991年发表的论文《函数性数据分析的一些工具》。文中提出了适用于研究时间上无限维度的函数型数据一些方法和工具,并使用函数型数据的主成分分析和线性模型对加拿大温度与降水量的关系进行实证研究。此后在1997年J.0.Ramsay和B.W.silverman总结了函数数据分析的理论和方法,出版了《Functional Data Analysis》一书。
虽然函数性数据的来源形式多种多样,但就其本质来说,它们由函数构成。这些函数的几何***形可能是光滑的曲线,也可能是不光滑的蓝线。函数性数据分析的基本思想是把观测到的数据函数看作一个整体,而不仅仅是个体观测值的顺序排列。函数指的是数据的内在结构,而不是它们直观的外在表现形式。实际中,之所以要从函数的视角对数据进行分析是因为:实际中,获得数据的方式和技术多种多样,更重要的是,原本用于工程技术分析的修匀(光滑)和插值技术,可以由有限组的观测数据产生出相应的函数表示;尽管只有有限次的观测数据可供利用,但有一些建模问题,将其纳入到函数范式下进行考虑,会使分析更加全面、深刻;在有些情况下,如果想利用有限组的数据估计函数或其导数,则分析从本质上来看就具有函数性的特征;将平滑性引入到一个函数过程所产生的多元数据的处理中,对分析具有重要的意义。
函数型数据分析有以下优点:打破了连续型数据和离散型数据长期以来的分离状态,实现离散和连续的过渡;可分析大批量的数据,实现从有限维数据到无限维数据的转换,得到的数据信息更丰富、更可靠;很少依赖于模型构建及假设条件;由于假设函数都是可导的,因此可进行微分分析,如:得到位相***,实现动能与势能之间的转换;将多元统计分析方法进一步延伸。
典型的函数数据具有这样的形式:
Y1,Y2,…Yn,其中Yi=(Yi1,Yi2,…Yini)来自第i条曲线,Yij是在时间tij上测量,i=1,…N;j=1,…ni,为了简化,我们通常都假定nij=n,Yij=Xi(tij)+εij,εij是测量误差,E(εij)=0,Var(εij)=σ2。
估计X(t)在函数数据分析中是关键的一步,最常用的两种方法是基展开和平滑判罚。
一、基展开的方法
原理:一组在某种意义下相互***的函数{φk},其线性组合可以逼近任意的函数。
这样函数Xi(t)有如下的基展开
一般情况下,对于周期函数,我们常用Fourier级数来拟合;而对于非周期函数,我们常用样条函数来拟合。
Fourier级数:1,sin(wt),cos(wt),sin(2wt),cos(2wt),…
样条函数:将函数的定义区间用断点序列,τ=(t0,t1,…,tL)(t0与tL:为定义区间两端点)分成L个子区间,在每个子区间上,定义一个阶为m的多项式,这里的阶是指定义多项
式所需的系数个数。相邻多项式要求在断点处连续,并且在定义域上存在m-2次导数,这样样条函数就m-2次可导。
样条函数的自由度=阶数+内点个数。
***条:每个m阶***条基函数只在不超过m个相邻子区间上取正值,在其他定义域上取0,这种紧支集性质就给了***条基函数良好的数值计算性质。
Bi,1(t)=1 ti≤t≤ti+10 else
二、平滑判罚
在基展开方法中,平滑参数K的选择比较麻烦,我们可以获得更好的结果多选一些基但加一个粗糙度判罚来控制模型复杂度。
通常选择J(x)为二阶导数的积分
三、函数数据的主成分分析
在多元统计分析中,记录的是同一时期或时点上对每一观测对象多个变量的数据信息.为了达到简化数据的目的,通常是把大量的原始变量综合为少数几个综合变量。
函数性数据记录了每个观测对象的同一个变量某个区间上很多个时刻的数据信息.如果将时间看作多元数据对应的变量(变化因素) ,则发现函数性数据分析面临更大的"维数灾难"基于这种特点,可以将多元主成分分析的技术引入到函数性数据分析中,称为函数性主成分分析。
四、函数性数据分析的基本步骤总结
(1)原始数据的收集、整理和组织。
(2)将离散数据转换成函数型数据。采用基函数的线性组合,常用的***条基和傅立叶基。
(3)拟合函数型数据以及光滑化。常用非参数拟合法则――粗糙惩罚法。
(4)函数型数据分析方法的应用。具体有函数型显著性检验、函数型线性模型、函数型主成份分析、函数型因素分析、函数型聚类分析、函数型主微分分析等。