数据类型篇1
【关键词】空间数据库存取结构数据类型
所谓空间数据库,是指地理信息系统在计算机物理存储介质上存储的与应用相关的地理空间数据的总和,针对传统空间数据库,其主要针对简单对象的数据存储和管理,而空间数据库可以是支持复杂对象的数据存储和管理,包括***形、***像的存储。
一、 空间数据库存储管理系统特点分析
采用GIS技术开发的空间数据库管理系统,其是空间数据库的核心软件,空间数据库管理系统主要是基于SQL Server语言来实现的,对于空间数据存储管理,空间数据库管理系统是实现空间数据的平台,也是实现空间数据、属性数据的统一管理,并且也为数据库查询提供了快速、可靠的支持环境,当需要在空间数据库管理系统中进行数据查询,只需要输入SQL语言就可以对其进行空间查询,总的来说,空间数据库管理系统具有空间运算、查询快速可靠的特点。
二、 空间数据库类型分析
基于SQL Server的空间数据模型,其是一种可伸缩性和高性能的大型关系数据库管理系统,其不仅支持大量用户的数据查询,也实现了自动锁功能,使用户在安全、高效的系统中访问数据,其中,空间数据模型具有结构统一和面向记录的特点,其可以采取数值存储方式和二进制存储方式来将空间数据存储在几何表中,空间基本数据类型则属于点、线、面构成的空间数据类型,点、线、面是空间数据模型的基本构成单元,在SQL Server数据库中,其主要以***层的方式来组织和表达,分析传统的关系数据库管理系统(DBMS),其只能处理一些较为简单的数据类型,如结构数据类型、时态数据类型等,然而,基于SQL Server的空间数据库可以应用在不同的领域中,例如针对面向空间实体的数据类型,第一,如一家医院所占空间在地***上的大小面积,总所周知,地形***尺寸比例较小,若需要在计算机绘制医院的所占空间比例大小,则给数字划线带来了一定的困难,而空间数据库可以有效解决此类问题,其主要将一个对象抽象成一个点模型,即利用数字划线数据将空间物体的大小直接抽象为空间点线面的实体,并采用坐标的形式来找准空间物体的位置和形状,这种空间实体的数据类型主要是来自于地形测***的原理来实现的抽象点模型,当需要绘制空间点模型的地***时,其可以根据空间实体的宽度和线型来表示空间位置,这种方式不仅有利于计算机表达,也有助于利用抽象***形来表达空间数据实体;第二,对于面向空间实体的影像数据类型,其主要包括遥感影像和航空影像,影像数据的空间数据类型在现代化经济中发挥着重要作用,其不仅可以提供丰富的数据资源,也可以直观的表达地表的自然现象,同时也可以详细的记录所观察到的自然现象,其具有生产效率高的特点,因此,人们可以利用数据影像来获得更多的信息,通过利用空间数据库中的数字划线数据功能来进行信息的加工处理,对于采用GIS技术开发的数据影像,则需要进行集合加工处理和灰度加工处理,从而得到具有定位信息功能的数字正射影像。另外,对于空间数据类型,还包括编制转换函数、扩充传统数据和编程模拟等空间数据类型。
三、空间数据库存取结构分析
与传统结构化数据模型相比,空间数据库具有更强大的功能,空间数据库属于关系数据库模型,其主要表现为关系-对象型存取结构,由于关系-对象型存取结构具有丰富的数据语义特点,因此,空间数据库具有两个不同的概念,包括对象类属性、关系类型属性等,其比较适用于半结构化数据的存储和管理,半结构化的空间数据是以管理对象为基础,例如空间规则***形的存储与管理,通过利用关系型数据库中的二值***像存储的四叉树来表示空间规则物体的八叉树,从而实现空间半结构化数据在关系型数据库管理系统中的存储与管理;对于空间数据库中的空间半结构化数据的存储与管理,还包括GIS领域中的拓扑型数据结构、R树和栅格数据结构,其中,拓扑型数据结构称为点-线-面结构,但是,这些空间数据存取结构具有局限性,大多数关系-对象型存取结构只能适用于某一领域,或只适用于某几种应用领域。总的来说,空间数据库因不同的应用需求有不同的存取结构形式,因此,在选择数据库模型中,应根据用户的不同应用需求来选择最优的数据模型和存取结构,但是,应注重空间数据库模型之间的统一管理,注重地理实体之间的相互联系,将地理实体的一个对象抽象成一个点模型,使空间数据库广泛应用在不同领域中。
结束语:
当前,空间数据库在不同领域中得到广泛应用,与传统数据库系统相比,空间数据库具有处理空间信息的功能,分析空间数据库的存取结构和数据类型,使人们对空间数据库的应用有一定的了解。
参考文献:
[1]沈敬伟,周廷刚,温永宁,罗洁琼,孙晨阳. 基于面向对象数据库的空间数据
数据类型篇2
双字则为DWORD,也就是四个字节。
深度是指树的层数。
数据类型在数据结构中的定义是一个值的集合以及定义在这个值集上的一组操作。
变量是用来存储值的所在处,它们有名字和数据类型。变量的数据类型决定了如何将代表这些值的位存储到计算机的内存中。在声明变量时也可指定它的数据类型。所有变量都具有数据类型,以决定能够存储哪种数据。
数据类型篇3
Applied Categorical Data
Analysis and Translational
Research
2010, 399pp.
Paperback
ISBN: 9780470371305
John Wiley
Chap T. Le著
转化型研究一般是指将基础科学发现应用到***或预防疾病或损伤,其价值通常是基于探索或发展可产生有效疗法的可能性。现代生物医学将应用研究拓展到转化型研究,本书介绍的是生物医学领域中分类数据的处理新方法与转化型研究,为读者提供了生物医学运用统计方法的指南,这些统计方法包括分类数据处理以及解决实际问题的具体步骤。
本书通俗易懂,介绍了本领域的最新研究方法,并扩大了研究方法的涵盖范围。内容包括9章,具体为:1. 引言;2.列联表方法;3.对数线性模型;4.Logistic回归模型;5.数据匹配方法;6.数据记录方法;7.分类数据与转换型研究;8.分类数据与诊断医学;9.分类数据到生存数据的转换。
为了更加突出本书的应用性,书中提供了生物医学、流行病学等许多实例,此外还包含了现代公众健康研究的详细案例。作为再版,书中保留了第一版的风格,同时探讨了转化型研究的重要性,这是因为转化型研究涉及到临床实践中的基础科学研究成果。与第一版相比,本书主要做了如下调整:①增加了关于转化型研究与实践过程分类数据关系的一章内容;②增加了关于分类数据与诊断医学一章;③修订了关于Logistic回归模型应用于简单和多重回归分析一章;④增加了关于量子生物测定相关内容;⑤对每章后的习题做了调整。
本书作者Chap T. Le博士是美国明尼苏达大学癌症中心杰出教授、生物统计系主任,目前从事分类数据与生存数据的研究。另外Chap T. Le博士还编著了《A Problems-Based Introduction to Biostatistics, Third Edition》(《基于问题的生物统计学导论:第三版》);《Applied Survival Analysis》(《应用生存分析》)。
本书提供了分类数据与转化型研究方法,在同类书中独具特色。可作为本科生和研究生应用统计学与生物统计学课程的教科书,也可供研究人员和在生物医学和公共卫生领域的从业人员参考。
赵树森,
博士生
(中国科学院力学研究所)
数据类型篇4
随着我国信息化建设的不断深入,信息资源在档案的行***事业管理中不断需要加强,以保证档案的管理和利用能够健康快速地发展。由于档案工作牵扯到的社会信息以及业务工作非常多,因此对于档案信息资源的开发和利用已经成为国企档案工作发展的基本目标,是适应国企改革发展需要进行的时代性的创新和变革。新时期档案实业要达到健康持续的发展,需要对各类文件、会议资料、电传等等加以管理,还有与企业发展有关的技术资料、科研报告、论文资料等,以及企业的立式档案,线性文件等都要加强管理。不同的应用领域,其侧重点也不尽相同。档案的管理系统涉及到的内容众多,当前运用计算机辅助管理系统,对档案的信息和实体进行管理,是非常有必要的。
1 数据库类型
数据库的管理平台包含了档案的管理系统的全部内容,从当前档案管理的数据库的发展里程来进行数据库的类型分类,可以看到:
从档案的发展初期,采用手工录入的方式,建立档案目录表,要求档案管理人员参照档案的放归规定,将各类纸质实体档案加以收集、整理、立卷和归档。进入计算机辅助档案目录管理之后,采用***的计算机管理的方式,将档案的目录加以整理,形成了桌面式的?稻菘獾蛋改柯脊芾砥教ā5搅嘶チ?网时代,依托网络建立大中型关系数据库,将数据平台中的扫描功能加以利用,形成了档案实体的扫描管理体系。
如今,数据库的全文检索功能,能够对档案的目录以及全文等加以扫描和管理,电子文件、多媒体文件等等,都可以进入非结构化数据管理体系中,而且通过管理结构的不断调整和优化,数据库管理已经达到了全文数据管理和数字检索的发展阶段[1]。
当前,国企的档案挂历I软件已经实现了数字化的接收、整理和编目的技术。通过计算机管理将档案的利用和移交全程加以运行,网络的查询以及调档等,通过服务,实现了管理系统的运行,即便是海量的信息,全文数据库技术通过OCR档案管理识别技术、电子文件全文内容索引和存储技术等,都能达到高效快捷的档案的索引和存储,提高了档案的查全率和查准率,能够将全文检索手段予以提高,对于档案的利用水平来说是十分高效和便捷的。但是,由于后台数据平台的数据库的类型的不同,在物理原理上,档案的数据物理储存的功能不尽相同,因此也不能保证数据段的一致性以及完整程度。这两类数据库的开发结构不同,因此在系统开发的难度上有所增加,增加了数据库维护的成本。
两类数据库的类型,分为传统的关系型数据库管理系统以及现代信息检索系统,前者的缺点在于不具备数据处理效率,灵活性一般,后者需要结构化数据以及元数据的支持。因此,在集成传统数据库管理系统的基础上建立新的数据库管理平台,体现数据存储的管理非结构化,将数据的关系特性和全文特性予以表现,构成档案管理的新课题。混合型数据库就应运而生,在当前国企档案管理系统中发挥着重要的作用。
2 数据库应用以及技术特点
1)数据库采用的是拥有自主知识产权的数据管理系统,支持关系数据模型以及强大的多语种核心语法集,能够进行高扩展性和稳定性的多语种检索全文,遵照标准化和开放性的原则,在数据访问中能够做到跨平台和标准化,为企业服务接口服务。
2)该系统的特点首先是能够对数据进行半结构化和非结构化的混合统一管理,对于海量的数据,从检索技术和数据库管理技术的角度出发,保证数据库管理技术中的事务性和完整性,对全文进行检索的数据查询功能利用的是非结构化索引融合,采用的是多种查询方式和相互操作的
实现[2]。
3)OCR识别技术,通过对暗、亮的模式的扫描,采用扫描仪等设备对字符进行识别,然后将形状识别为计算机文字,形成文本资料和***像文件进行分析处理。
4)PDF技术是通过设备的分辨,将文字、字型等封装在一个文件中,设置超文本连接或者动态影像等电子信息,提高集成度和安全可靠性。
5)全文信息自动抽取技术,是将文件的无关信息进行过滤,然后得到全文数据库的索引等的自动加载,将电子文件以附件的形式入库,提供原版的浏览。
3 系统架构
由数字化扫描将档案生成目录数据或者是电子文件,通过OCR识别技术生成档案,加载到档案资源库中,生成数据导入数据表,自动挂接电子文件,通过全文信息技术的抽取,建立全文索引。
用C/S和B/S相结合的模式提供档案信息的管理和利用,其中以C/S方式提供档案信息管理和维护功能,以B/S方式提供档案信息的检索和利用功能。
应用平台调用业务层数据访问接口,在不影响其他功能模块的前提下,构建五大业务功能模块客户端,各业务功能模块再通过数据层数据访问接口,采用混合型数据库管理系统,提供访问接口的服务:档案维护、档案管理、档案利用、系统检索利用和Web管理,只需更各业务功能模块和档案系统利用平台(Browser)相应的模块,就能通过档案系统管理平台(Client)问业务功能模块统一访问和操作数据库。整个系统可存放档案目录,可在支撑平台和安全保障的支持下对用户信息、日志信息、系统设置等系统数据进行维护,确保全文、电子文件等档案信息能够被安全、访问和利用,并在数据库平台中加以封装,并稳定、可靠地运行。
数据类型篇5
本文会讲解在多种类型文档进行数据处理时所采用的关键词抽取的相关技术和数据格式转换技术的调研和使用。拟用C/S结构开发,采用JAVA作为开发工具,在Eclipse环境下,实现对多种类型文档进行数据处理的模拟。
关键词:格式转换;关键词抽取
1 设计方案
1.1文档格式转换方案
因各类文档的转换方法类似,而word文档转换为pdf文档是最常用的。所以设计方案用实现word文档转换为pdf文档的作为例子,详细方案如下。
方案1:
首先利用程序直接打开Word文档,从原文档中获取文字和***像的内容以及它们的相关属性(因word文档对文字和***像的属性设置过多,只能获取部分关键属性),再直接生成PDF文档并按照Word文档的对应属性把对应的文字内容和***像内容分别输入到相应的位置上,最后关闭文件。
但是,因为需要从文档中直接获取其中的内容和对应属性,如果要采用此方案,就必须精通Word以及PDF的文档的结构。但是Word和PDF的文档的结构非常复杂(单单文档的规则就有几千条,时间会浪费在阅读和使用规则上)。这就意味着,在读取Word文档的时候不但要获取Word文档的文本内容,而且还要获取到对应的字体格式、颜色、背景***像以及表格的位置等等。又因为微软的office软件和Adobe Acrobat Professional都不是开源软件,没有它们的源代码,就很难保证在定义Word和PDF文档对应属性、设置文档格式时不会遇到非开源的部分。综上所述,此方案体实现困难。
方案2:
对于方案1中存在的问题,微软公司和第三方公司提供了操作Word、Excel和PDF的类库、接口和组件,这就有了解决方案。第二种方案就是先制作一个中间件,即将word文档先转换成Ps文档,然后再把Ps文档转换成PDF文档。最终编写***形界面,上传文档并利用代码使用这个中间件完成文档转换。
方案3:
为了提高多种类型文档的数据处理的稳定性和安全性,本方案对方案2进行修改,取消使用件。方案2调用提供的相应组件和类库的使用是在中间件中实现的,每当对中间件打包处理时,只能把中间件打包,而对于其中所调用的组件和类库等无法打包,若用方案2开发模拟数据处理的模拟程序必受到软件环境的制约。所以方案3放弃使用中间件,采用PDFBOX、POI类库。考虑到需转换的文n具有很多的规范,且不易直接操作的特点,同时为了数据处理模拟程序的通用性,因此决定使用方案3进行模拟。
1.2关键词抽取方案
在文档被统一的转换为同一类文档后,接下来就需要对文档进行关键词抽取。
1.利用ANSJ中文分词对转换后文档进行处理,将文档中所有词汇和词性放入数组中存储。
2.统计特征值。创建一个哈希表。里面需要有词汇所在位置(标题,摘要,正文,句首,句尾)和出现总次数等等。
3.从正文的开始处,若开头不是虚词也不是符号,若相连的两个词都不是,计算这两个词连续出现的次数。如果计算的次数大于设定的阈值,就把这两个词或者合并到一起并修正词性为new(表示为名词),再从这个重新组成的词作为开始,循环以上操作;若相连两个词的出现的次数小于设定的阈值,或有虚词、符号,则跳过。然后寻找下一个不是虚词或者符号的实词。直至正文内容的结尾。
4.根据修改的数组重新遍历。重新整理哈希表的信息。修改原来的新词汇new和里面的特征值。
以上步骤能够重新切分出一些新词。这些新词可以作为关键词提取的一个特征值,它们会起很大的作用。
2 程序模拟
按照方案3进行程序模拟的结果如下***所示:
参考文献
[1] 田学***.PDF文件格式及其转化方法探讨[J],荆门职业技术学院学报,2005,(3):5-31.
数据类型篇6
关键词:测绘数据;误差;统计
由于测量原理的局限性或近似性、测量方法的不完善、测量仪器的精度限制、测量环境的不理想以及测量者的实验技能等诸多因素的影响,所有测量都只能做到相对准确。随着科学技术的不断发展,人们的实验知识、手段、经验和技巧不断提高,测量误差被控制得越来越小,但是绝对不可能使误差降为零。因此,作为一个测量结果,不仅应该给出被测对象的量值和单位,而且还必须对测量值的可靠性做出评价,一个没有误差评定的测量结果是没有价值的,测绘工作得到的数据也是如此。下面简单介绍一下测绘数据误差主要分类及原因:
一、系统误差
系统误差的特征是具有确定性, 它的来源主要有以下几个方面:
(一)仪器因素;
(二)理论或条件因素:由于测绘所依据的理论本身的近似性或实验条件不能达到理论公式所规定的要求而引起误差。例如,称物体质量时没有考虑空气浮力的影响,用单摆测量重力加速度时要求摆角θ 0,而实际中难以满足该条件。
(三)人员因素:由于测量人员的主观因素和操作技术而引起误差。
二、随机误差
在相同条件下,多次测量同一物理量时,即使已经精心排除了系统误差的影响,也会发现每次测量结果都不一样。测量误差时大时小,时正时负,完全是随机的。在测量次数少时,显得毫无规律,但是当测量次数足够多时,可以发现误差的大小以及正负都服从某种统计规律。这种误差称为随机误差。随机误差的特征是它的不确定性,它是由测量过程中一些随机的或不确定的因素引起的。例如,人的感受(视觉、听觉、触觉)灵敏度和仪器稳定性有限,实验环境中的温度、湿度、气流变化,电源电压起伏,微小振动以及杂散电磁场等都会导致随机误差。
三、过失误差
过失误差是由于实验者操作不当或粗心大意造成的,例如看错刻度、读错数字、记错单位或计算错误等。过失误差又称粗大误差。含有过失误差的测量结果称为“坏值”,被判定为坏值的测量结果应剔除不用。实验中的过失误差不属于正常测量的范畴,应该严格避免。
四、误差处理
(一)发现系统误差的方法
系统误差一般难于发现,并且不能通过多次测量来消除。人们通过长期实践和理论研究,总结出一些发现系统误差的方法,常用的有:
1.理论分析法:包括分析实验所依据的理论和实验方法是否有不完善的地方;检查理论公式所要求的条件是否得到了满足;量具和仪器是否存在缺陷;实验环境能否使仪器正常工作以及实验人员的心理和技术素质是否存在造成系统误差的因素等。
2.实验比对法:对同一待测量可以采用不同的实验方法,使用不同的测绘仪器,以及由不同的测量人员进行测量。对比、研究测量值变化的情况,可以发现系统误差的存在。
3.数据分析法:因为随机误差是遵从统计分布规律的,所以若测量结果不服从统计规律,则说明存在系统误差。我们可以按照规律测量列的先后次序,把偏差(残差)列表或作***,观察其数值变化的规律。比如前后偏差的大小是递增或递减的;偏差的数值和符号有规律地交替变化;在某些测量条件下,偏差均为正号(或负号),条件变化以后偏差又都变化为负号(或正号)等情况,都可以判断存在系统误差。
(二)系统误差的减小与消除
知道了系统误差的来源,也就为减小和消除系统误差提供了依据。
1.减小与消除产生系统误差的根源。对实验可能产生误差的因素尽可能予以处理。比如采用更符合实际的理论公式,保证仪器装置良好,满足仪器规定的使用条件等等。
2.利用实验技巧,改进测量方法。对于定值系统误差的消除,可以采用交换法、替代法、异号法等方法减小测绘数据系统误差。此外,用“等距对称观测法”可消除按线性规律变化的变值系统误差;用“半周期偶数测量法”可以消除按周期性变化的变值系统误差等等,这里不再详细介绍。在采取消除测绘数据系统误差的措施后,还应对其它的已定系统误差进行分析,给出修正值,用修正公式或修正曲线对测量结果进行修正。对于无法忽略又无法消除或修正的未定系统误差,可用估计误差极限值的方法进行估算。
(三)测绘随机误差处理
实验中随机误差不可避免,也不可能消除。但是,可以根据随机误差的理论来估算其大小。为了简化起见,在下面讨论随机误差的有关问题中,并假设系统误差已经减小到可以忽略的程度。采用算术平均值作为测量结果可以削弱随机误差。
(四)测绘数据坏值的剔除
在一列测量值中,有时会混有偏差很大的“可疑值”。一方面,“可疑值”可能是坏值,会影响测量结果,应将其剔除不用。另一方面,当一组正确测量值的分散性较大时,尽管概率很小,出现个别偏差较大的数据也是可能的,即“可疑值”也可能是正常值,如果人为地将它们剔除,也不合理。因此要有一个合理的准则,判定“可疑值”是否为“坏值”。一般来说,我们对于测绘数据应确定测绘数据的置信区间,一般为[-3σ, 3σ]这个区间,其置信概率为99.7%,即在1000次的重复测量中,随机误差超出[-3σ, 3σ]的平均只有3次。对于一般有限次测量来说,测量值超出这一区间的可能性非常小,因此常将±3σ称为极限误差。对于超出这个范围的误差数据应给与剔除。
数据类型篇7
关键词:CBERS-02B星 CCD多光谱影像数据 生态制*** 环境影响评价 植被类型分布***
自HJ/T19.1997《环境影响评价技术导则非污染生态影响》(以下称《导则》)实施以来,“3S”(GIS、GPS和RS)技术在生态环境影响评价工作中的应用日趋成熟,按照《导则》的要求,生态影响评价一级评价“应利用卫星遥感照片、工程地形***绘制相应的生态环境影响分析***件”,二级评价“对重要敏感区域宜采用卫星遥感技术进行生态制***”。
以往生态制***工作中采用的卫星遥感影像(RS)主要是LandsatTM、ETM+或者SPOT HRV数据,而利用中巴地球资源卫星CCD数据开展相关工作的较少。2007年9月19日,我国成功地发射了中巴地球资源卫星02B星(CBERS-02B),除CCD相机和WFI相机外,还配置了高分辨率HR相机,可满足不同空间尺度、开展周期性、连续性的资源环境调查、评价与监测的应用,保持了中巴资源卫星数据的继承性,实现了资源卫星连续、稳定、可靠的长期运行,影像质量较CBERS-01星和CBERS-02星有较大提高,在国土资源、农业、环境、城市规划、测绘等方面发挥了重要作用。
本次研究利用中国资源卫星应用中心提供的2009年7月24日CBERS-02B~CCD数据,以其在罗源湾北岸铁路支线生态环境影响评价中的应用为例,对植被类型分布***的制***工作开展研究,对中巴卫星数据的推广应用具有一定的意义。
1.研究材料和方法
1.1研究区概况
罗源湾北岸铁路支线位于福建省罗源县东北部罗源湾北岸,工程所在区域主要为沿海丘陵及沿海滩地滨海相沉积地貌,滩地地段内地形平坦,多数被围垦为养殖鱼塘或开发为工业用地,沿海丘陵区高程一般在20~400m,山体地形坡度多在20~40度,冲沟较发育,丘顶呈浑圆状和平顶状,植被较发育。本区域植物区系属泛北极植物区向古热带植物区的过渡地带,种类较为丰富,以亚热带区系成分为主,原生植被为常绿阔叶林,受人类开发建设活动的影响,原生植被消失殆尽,现以人工次生林、经济林和农作物为主。
本次研究的范围确定为:罗源湾北岸铁路支线工程设计外侧轨道用地界向外300m以内区域,生态敏感区域根据地形地貌做适当扩大,总面积2458.36 hm2。
1.2研究材料
本次研究采用的影像数据为中国资源卫星应用中心提供的CBERS.02B星CCDⅡ级产品数据,做过辐射校正和系统的几何校正,***像采集日期为2009年7月24日,***像分幅号为Path 366/Row70。
1.3研究方法
对原始遥感影像进行格式转换、多波段组合、几何精校正等预处理,采用423波段模拟假彩色合成卫星影像***,切出研究区,以遥感(RS)与地理信息系统(GIS)技术为基础,在GPS支持下,根据实地考察和收集到的有关文字与***形资料,建立起地物原型与卫星影像之间的直接解译标志,通过非监督分类和人工目视解译相结合的方法,对研究区植被类型进行判读,得到表示植被类型分布的专题***,并应用CroelDRAW、Photoshop等***像处理软件,添加地***要素,最终完成植被类型分布***制作。采用的遥感***像处理软件为ERDAS IMAGINE 8.7;数据统计通过Aer view 3.2软件进行,主要工作流程如***1,成果***见***2。
2.结果分析
2.1信息提取
在野外实地踏勘和卫片解译的基础上,结合生态评价区地表植被覆盖现状和植被立地情况,根据植物群落的特征,参照吴征镒教授《中国植被》对植被类型的分类系统,将研究区植被划分为针叶林、阔叶林(含针阔混交林、杂木林)、灌丛和灌草丛、经济林、农作物等六种主要类型,同时考虑水域水生藻类所具有的实际生产能力,具体见表1。
2.2精度分析
按照专题***中植被类型面积的级别进行分级,与分类结果进行比较,检查错分和漏分情况。根据制***规范,在纸质地***上的最小***斑为2mm×2mm,所以在1:5万、1:1037、1:25万地***中最小***斑代表的面积分别为1hm2、4hm2、25 hm2。
本次研究对植被类型面积分级按照小于1hm2,1~4hm2,4~25hm2,大于25hm2等4个级别,以检验对不同比例尺地***中的植被类型专题信息提取的精度各级别的分类结果精度,并根据各级别的面积比例确定整体分类精度。具体见表2。
通过对专题***提供的信息和目视判读结果进行比较发现,当植被拼块的面积小于4000m2时,遥感***像上就很难将它与其背景区分开,很容易导致错分和漏分。而且,对于面积较小的植被拼块,由于***像的栅格相对较大,反映的地物不精细,边界很难确定,与其周围地物形成的混合像元与纯像元的差异较大,所以分类结果精度较低。经分析,错分的部分主要是相互间光谱特征相近的经济林和阔叶林、农作物和灌草丛等与其他地物相互混合像元,漏分的部分主要是滩涂和新近开发区域。
3.论与讨论
(1)借助CBERS-02B星CCD多光谱影像,采用非监督分类和目视解疑相结合的方法,操作比较简单、应用比较方便。没有必要像监督分类那样选择训练样本,能够对研究区植被类型分布情况进行比较准确的判读,借助gis分析软件,可定量计算相关数据,从而为建设项目生态环评提供技术支撑。
(2)利用CBERS-02B CCD***像提取地表植被信息,对面积大于1hm2的拼块分类效果较好,当面积小于1hm2时,受***像的分辨率限制,其边界很难精细地反映出来,所以分类效果较差。而对1:5万及小于1:5万比例尺的专题***制***来说,小于1hm2的***斑达不到上***的最小面积。所以获取地表植被信息的用户精度和制***精度要分别高于81.4%和77.9%,因此,对1:5万及小于1:5万比例尺的专题***,要求获取植被信息的精度较高时才能能够满足制***要求。
(3)CBERS-02B星CCD二级产品数据虽经过辐射校正和系统的几何校正,但是其坐标信息不准确,须重新加以几何精校正;此外,CBRES-02B星的Band 5与其他4个波段存在比较大的偏移量,要与其他波段进行配准后才能使用。中巴资源卫星数据还存在噪声、条纹现象和一定的不稳定性,在一定程度上影响了***像的分辨率和清晰度及判读结果。
2.结果分析
2.1信息提取
在野外实地踏勘和卫片解译的基础上,结合生态评价区地表植被覆盖现状和植被立地情况,根据植物群落的特征,参照吴征镒教授《中国植被》对植被类型的分类系统,将研究区植被划分为针叶林、阔叶林(含针阔混交林、杂木林)、灌丛和灌草丛、经济林、农作物等六种主要类型,同时考虑水域水生藻类所具有的实际生产能力,具体见表1。
2.2精度分析
按照专题***中植被类型面积的级别进行分级,与分类结果进行比较,检查错分和漏分情况。根据制***规范,在纸质地***上的最小***斑为2mm×2mm,所以在1:5万、1:1037、1:25万地***中最小***斑代表的面积分别为1hm2、4hm2、25 hm2。
本次研究对植被类型面积分级按照小于1hm2,1~4hm2,4~25hm2,大于25hm2等4个级别,以检验对不同比例尺地***中的植被类型专题信息提取的精度各级别的分类结果精度,并根据各级别的面积比例确定整体分类精度。具体见表2。
通过对专题***提供的信息和目视判读结果进行比较发现,当植被拼块的面积小于4000m2时,遥感***像上就很难将它与其背景区分开,很容易导致错分和漏分。而且,对于面积较小的植被拼块,由于***像的栅格相对较大,反映的地物不精细,边界很难确定,与其周围地物形成的混合像元与纯像元的差异较大,所以分类结果精度较低。经分析,错分的部分主要是相互间光谱特征相近的经济林和阔叶林、农作物和灌草丛等与其他地物相互混合像元,漏分的部分主要是滩涂和新近开发区域。
3.论与讨论
(1)借助CBERS-02B星CCD多光谱影像,采用非监督分类和目视解疑相结合的方法,操作比较简单、应用比较方便。没有必要像监督分类那样选择训练样本,能够对研究区植被类型分布情况进行比较准确的判读,借助gis分析软件,可定量计算相关数据,从而为建设项目生态环评提供技术支撑。
数据类型篇8
数据挖掘 数据解析 网络业务类型划分 聚类算法
1 引言
21世纪信息和通信技术高速发展,技术的进步给人们的日常生活带来了诸多便利。通讯是社会交往中的重要纽带,推动着数字信息的发展。通信行业的大数据应用,能够优化移动通信网络,开拓更丰富的服务业务,为移动用户提供更精准、更便捷的服务。
Gn数据是Gn口原始码流解析得到的数据,主要反映用户使用各类数据业务的详细情况。在传统的Gn数据解析过程中,流量类型里“未识别TCP流量业务”、“未识别UDP流量业务”和“DNS解析流量业务”等类型均被划为未知服务。这样的计算模型会导致解析结果里未知服务的占比很高。
本文针对原始Gn数据,提出了一种新的网络业务分类方法:利用大数据并行计算模式解析DNS业务里的URL,解析结果通过挖掘算法(基于密度的聚类算法)模型处理,以确立新的网络业务类型。
2 技术介绍
2.1 大数据处理步骤
大数据的飞速发展已经影响到了各行各业,其中信息、互联网和通信行业受到的影响最大。大数据的到来恰逢通信行业的转型过渡阶段,给这个行业注入了新鲜的血液。
大数据处理方法通常为四步,分别是原始数据的采集、数据导入和预处理、数据的统计和分析以及数据挖掘。下面将按照这四个步骤的顺序进行阐述。
(1)数据采集
数据的采集阶段是指用数据库来接收以Web、App等形式传送的数据,在大数据的采集过程中,最主要的问题是处理高并发数,同一时间c可能会有上万条申请操作。而采集阶段通常采用的优化方式是在这些数据库之间进行分时分片管理和负载均衡。
(2)数据导入和预处理
数据导入指的是将原始数据导入到分布式存储集群,并且在导入过程中,对数据做去除噪声点、筛选特定条件等清洗工作。导入和预处理过程中面临的主要效率瓶颈是网络带宽和磁盘IO。
(3)数据统计和分析
大数据场景下的统计与分析主要通过分布式计算集群来对数据进行分析和分类汇总等,在这一阶段,最常用的两个计算框架是Hadoop和Spark。统计与分析遇到的主要问题是,分析时所涉及的数据量通常很大,其对系统资源会造成极大的占用。
(4)数据挖掘
数据挖掘阶段是一个知识发现的过程,一般没有预先设定好的主题。比较典型的算法有用于聚类分析的K-means算法、用于统计学习的SVM算法和用于分类的Na?ve-Bayes算法。该过程的特点主要是用于挖掘的算法一般比较复杂,考虑到系统资源的开销,需要选择合适的计算框架。
2.2 基于聚点密度和距离的高效聚类算法
把一个数据集分割成不同的类或簇,使得同簇内数据对象的相似性尽可能大,不同簇中数据对象的差异性也尽可能地大,通常采用聚类算法。从传统的聚类分析方法来看,在进行聚类之前都需要先确定要聚类的类别数目,然而在现实运营数据的分析过程中,聚类的类别结果通常是未知的,一般要经过多次实验来获得相对合适的聚类数目。考虑到本文中要分析的数据是多维度的结构化数据,且聚类结果不需要人工干预,可以参考Alex Rodriguez和Alessandro Laio提出的新的聚类算法,下面对此聚类算法做简要介绍。
该算法假设所确定的类簇中心点是由一些局部密度相对其较低的点所环绕,并且这些点与其他高局部密度点(其他类簇中心点)的距离都比较大。首先定义两个值:局部密度ρi以及到其他高局部密度点的距离δi。
ρi=Σj X(dij-dc) `(1)
(2)
公式中dc是一个临界变量值,是一个预先设定的参数。从公式(1)和(2)可以得出,ρi相当于和点i的距离差值小于dc的点的个数。由于该算法只对ρi的相对值敏感,所以面对大数据量时,为了算法的健壮性,对dc的选择最好使得平均每个点的邻居数为所有点数量的1%~2%。
δi=minj:ρj>ρi (dij) (3)
根据公式(3),δi用来表示点i和点j直接的距离,其中ρj>ρi。对于ρ值最大的点,设置其δi=maxj (dij)。
局部密度ρi和据其他中心点距离δi的值均很大的点被认为是类簇的中心。局部密度较小但是δi较大的点则是异常点。在确定了类簇中心之后,非中心点属于其距离最近的类簇中心所代表的类簇。
***1是以ρ为横坐标、以δ为纵坐标的决策***。可以看到,1号和10号两个点的ρi和δi都比较大,可以作为聚类焦点。11、12、13三个点的δi比较大,但是ρi较小(周围点密度太小),所以是异常点,在聚类过程中将被清洗掉。
3 服务类型划分系统模型设计
传统的Gn数据解析过程中,在流量类型字段里,将“未识别TCP流量业务”、“未识别UDP流量业务”和“DNS解析流量业务”划为未知服务。这样的计算模型导致Gn数据解析后,业务类型里会有很高占比的未知服务。解决大量的“未知服务”的分类结果,既可以最大化地利用原始数据,又可以在多维度的情况下,细分用户的网络业务。系统采用分布式集群架构,如***2所示,分为数据获取、数据清洗、数据解析、数据云存储、数据模型挖掘、挖掘结果分析几个步骤。
数据获取阶段,将Gn接口数据通过FTP的方式将数据传送给数据清洗模块。
数据清洗主要是完成无效字段的替换,将RNC解析流量对应URL为空的记录删除,并完成目标数据的选取,将Gn原始数据类型中流量类型为RNC解析流量的记录截取出来。
数据解析,如***3所示,所映射的URL包括查询的域名及查询类型。解析URL需要解析协议(如http、https)、域名或IP、端口号(如7001、8080)、Web上下文、URI,请求资源地址等。此处需要解析出域名,并将其存储为一个新的字段。做一个URL映射表,将访问域名进行归类映射,例如SINA映射为新闻咨询浏览,tianya映射为讨论类论坛,weibo映射为社交网络等。
数据云存储阶段,将解析后的数据以Parquet文件块的形式存储在HDFS上,作为数据挖掘接入口。
数据挖掘模型采用2.2节介绍的基于聚点密度和距离的高效聚类算法。将解析后的数据作为输入端,通过挖掘模型计算,自动生成聚类结果。此处需要注意的是,由于算法中dc变量值(表示测量点临界间距)需要事先设定好,所以为了得到合理的结果,需多次对数据进行训练,找到一个符合业务分析需求的特定值。另外,根据用户实际使用情况,同一种业务在不同时间段会产生不同的用户体验需求,以及每个人会有不同的使用习惯等,将输入参数定为业务发生时间、RNC解析URL域名、年龄这三个字段。
4 计算结果分析
经过多次训练,得到聚类分析结果,分别为:
(1)深夜(22:00―24:00),年龄
(2)中午(11:00―13:00),26
传统方式的Gn数据解析后,服务型分为流媒体业务、***业务、即时通信、浏览业务和未知服务五类。结合聚类分析的结果可以初步判断,在未知服务内会有大部分人喜欢深夜使用社交网络服务,以及会有很多青年人会选择在中午的时候浏览新闻咨询。可以尝试在服务类型中将第五类未知服务新分出一类:社交网络服务,其确定的方法可以按照聚类的方式倒推,即匹配其解析后的URL。
5 结束语
本文对比传统的Gn数据解析方式,提出了一种基于数据挖掘的网络业务类型划分方法。在实际应用中,该方法在处理大规模数据和高维数据时性能有待于提高。针对这种情况,有学者提出一种在高维空间挖掘映射聚类的方法PCKA,它能从多个维度中筛选出相关的维度,并根据相关维度进行聚类。另一方面,如需要对全国范围的Gn数据业务分类,应使用更全面的数据进行模型训练。
参考文献:
[1] 陈宇. 京广高铁GPRS业务Gn接口数据监测的应用[J]. 郑铁科技, 2013(1): 23.
[2] 韩宇. 基于数据挖掘的联通运营监控模块的设计与实现[D]. 沈阳: 东北大学, 2011.
[3] 陈平,郭兰珂,方俊湘. 微信业务的识别方法研究[J]. 移动通信, 2013,37(18): 80-83.
[4] 郑桂凤. 移动互联网的用户行为分析系统的设计与实现[D]. 北京: 北京邮电大学, 2010.
[5] 闫春荣,牟宏蕾,郝亚飞. 移动通信大数据信息在决策分析平台中的应用方案研究[J]. 移动通信, 2016,40(10): 24-28.
[6] 李玲俐. 数据挖掘中分类算法综述[J]. 重庆师范大学学报: 自然科学版, 2011(4): 44-47.
[7] 刘明吉,王秀峰. 数据挖掘中的数据预处理[J]. 计算机科学, 2000,27(4): 54-57.
[8] 胡志风. 大数据在职务犯罪侦查模式转型中的应用[J]. 国家检察官学院学报, 2016(4): 144-153.
[9] 郑雅丽. ***书馆应用大数据的策略研究[J]. 科技视界, 2015(12): 163-164.
数据类型篇9
数据库管理数据,具有数据结构化,共享性高,冗余度低,易扩充,数据***性高等优点。对于文章拟采用的文件与数据库结合管理文物保护工程中数据的方法,更具有以下优点:(1)数据文件采用文件管理模式管理。对数据存储路径和数据命名进行规范化,制定命名规则和存储方案,便于理解数据之间的层次关系,为数据查询及数据库设计提供条件,而且此种存储方法不破坏数据的数据结构,仍可采用先进的三维点云数据处理软件对数据进行处理。(2)数据库管理数据文件间的关系并补充完善其属性数据,利用数据库和数据编程语言,编写合适的查询界面,实现数据的属性查询,存储位置查询等,提高数据查询使用效率。
2数据文件管理
由于文物保护工程中文物范围很大,为了数据采集方便,需根据工程特点及实际操作便利程度将文物进行分区,对文物信息进行分区域数据采集,另外需要将文物中具有代表性特点的对象进行单独的数据采集和存储。据此可以将文物三维数字化工程在文件管理中按照整体、区域、对象进行分类,若对象较多且复杂,可再根据工程需要分为若干子对象。以大足石刻千手观音虚拟修复工程为例,根据千手观音的整体结构特征,将其划分为9行11列,共99个区域,各区域以“行号-列号”命名(如***2);将具有代表性的对象进行分类,分为主尊、肋侍、手、法器,并以此命名文件夹。根据各对象特点,各肋侍命名为肋侍1、肋侍2、肋侍3、肋侍4,手以“所属区域行号-所属区域列号-手编号”的方式命名,法器以其类别名称命名。根据划分区域、对象的提取及各文件夹命名,千手观音虚拟修复工程数据的文件管理结构如***3所示。该工程中涉及的数据类型有纹理数据、点云数据、模型数据、真三维模型数据、正射影像***、数字线划***、剖面***,在整理好的文件管理结构各个子文件中存储该对象或区域的各类数据。
3数据库管理
数据库主要存储上述文件管理结构,对于工程中涉及的各类空间数据,需存储各类数据间的关系及数据属性信息。3.1文件结构在数据库中的实现该工程中的文件管理结构在数据库中主要通过编码的方法实现,即按目录层次编码,每层2位编码,则每个目录最多有99个子目录,由于千手观音有近1000只手,所以在手数据目录层编码设置3位,可以存储999个子目录,可满足工程需要。上述文件结构编码如***4所示:在数据库中,该文件结构可由表1实现,记录各文件目录Id及名称,父目录名称,所属层级及编码号,在查询文件结构时,可根据父目录名称查询该文件夹下的文件夹名称和数目,也可以根据编码查询文件结构。3.2数据类型管理利用三维激光扫描仪器获取文物的三维信息,根据点云数据的基本处理流程,工程中的四类基本数据类型为:点云数据、纹理数据、模型数据、真三维模型数据。根据这四类基本数据,还可以得到一些其他类型的数据,为了满足日后数据管理的需要,在数据库中设计数据类型管理表,用来管理工程中涉及的各类数据,表2列出了该工程中的4种数据类型,由于各工程中的数据类型不止这4种,所以可以根据需要,向数据类型管理表中继续添加数据类型。数据类型管理实体与各类数据类型实体之间是分类管理的关系,四类基本数据类型来源及关系总结如下:点云数据通过三维激光扫描仪获取;纹理数据利用高分辨率数码相机获取;模型数据是由点云数据经配准、去噪、融合、建模等处理得到的数据,所以点云数据与模型数据是多对一的关系;模型数据经纹理贴***后得到真三维模型数据,所以真三维模型数据与模型数据是一对一的关系,与纹理数据是一对多的关系。数据类型管理实体与各类数据的关系及各类数据之间的关系可表示为***5所示。在千手观音虚拟修复工程中,利用这四类基本数据生成了正射影像***、数字线划***、剖面***三类数据。该工程中涉及的这三类数据来源为:正射影像***由多张纹理***数据经软件纠正所得,所以正射影像***与纹理数据是一对多的关系;数字线划***是正射影像***经软件描绘提取得到的,所以数字线划***与正射影像***是一对一的关系;剖面***是利用三维模型,经软件剖切获得的,由于剖面可以有不同的方位,所以剖面***与模型数据是多对一的关系。在实体关系中,有一对一和多对一的关系。对于关系中,一对一的关系,在其中一个实体表中设置外键,如纹理数据和***像数据关系中,可在纹理数据表格中设置***像数据编号外键,实现两者一对一的关系;多对一的关系,在前者表中设置外键,如纹理数据与真三维模型数据是多对一的关系,在纹理数据表格中设置真三维模式数据编号外键,以此实现两者多对一的关系。数据类型实体属性及关系设置如***6(E-R***)所示:3.3数据库实现根据上述数据库关系模型***,设计各数据表格和数据模式,将表的字段表示为数据库支持的数据类型。利用Oracle数据库管理系统,在User表空间下,创建Spatial用户,并创建各表数据,建立各表之间的关系。数据加载方式有多种,本次实验中,已有表格数据利用SQLdeveloper导入Excel数据,部分实验数据采用手工录入方式,其他数据采用程序开发的方式导入。数据库查询:利用创建的数据库,可以根据工程需要,查询文物信息采集状况、成果数据完成情况等,如某区域数据是否进行数据采集,是否符合工程标准;还可利用线划***数据名称查找相关正射影像***数据等。
4数据管理系统设计及实现
为了方便日常数据管理,便于无数据库相关基础知识人员对数据进行相关查询,设计如下数据库管理系统,对数据进行简单查询调用。本系统以Microsoftvisualstudio2010为开发平台,利用c#开发语言,ADO.NET连接Oracle数据库。Ora-cle数据连提供程序是.NETFramework的一个插件,提供了访问Oracle数据的功能[6]。为了方便数据录入,编写数据入库界面实现点云数据、模型数据等空间数据的导入操作。各项数据存入数据库后,可根据需要进行各项数据查询,方便数据管理,提高管理效率。另外,为方便无数据库知识背景人员对数据进行查询,设计了数据查询界面(如***7所示),可实现特定数据类型的通过数据对象名称进行的查询。
5结语
数据类型篇10
【关键词】 PMS系统 数据质量 数据检测
电公司生产管理系统(PMS)于2013年正式上线运行,生产管理系统(PMS)是国家电网公司“SG186工程”业务应用之一,以提高输电、变电、配电设备可靠运行为目标,实现电网生产的规范性、标准化和精细化管理,提高电网安全生产管理水平[1]。PMS系统中维护的设备类型包括输电设备16种类型;变电设备32种类型;配电设备36种类型,数据类型繁多、数据量大。PMS系统数据质量分析工具较缺乏、运维工作量大、自动化水平低[2]。目前系统据质量标准体系不完整,缺乏有效的数据治理机制,在数据生命周期之中容易流入一些不一致、不准确、不可靠的数据,数据质量存在隐患。同时数据运维人员每日面对多种设备类型数据,按照现行的人工核对方式难以从容应对,即使加班加点维护、管理也不能满足现在数据随时间变化更新的步伐;缺乏有效的数据质量标准、分析和监控等自动化运维工具,在数据变化时,运维人员手工比对,难以做到数据变化,及时对数据迭代清洗更新[3]。
为此本文通过对各类设备台账的校验规则进行分析,归纳出一种基于正则表达式的台账校验规则表达方法,并以此方法为基础研制了PMS数据质量检测工具,以支撑PMS系统数据质量提升工作的标准化实践。
1 基于正则表达式的数据检测工具研制
工具统一管理设备类型和数据标准定义,并以运行过程数据质量分析和数据监控为主线,以数据质量体系为支撑,实现数据质量持续提升管理。
1.1 设备类型管理
通过界面方式对PMS系统所属设备进行分类型管理。包括输电设备、变电设备、配电设备等三大类设备。
1.2 设备类型数据标准定义
实现不同设备类型属性数据的数据标准定义,通过此功能可以满足数据标准定义随实际需要方便变更。通过对台账字段的正确规则进行分析,将数据标准定义类型分为:选择类型、手工类型、计算类型、拼接类型、关联类型等。选择类型针对该属性内容是某个内容集合的子集,例如:电压等级包含交流1000kV、交流500kV、交流220kV;手工类型针对属性内容为指定正则表达式内容;计算类型针对属性内容直接表达式计算,例如:额定电流=额定容量KVA/(电压等级*1.732);拼接类型针对属性内容中包含其他属性内容关系,例如:设备型号中应含有字符或者数字加上容量及电压等级信息;关系类型针对属性内容包含负责的关系运算,例如:相数是单相,相别可以是A相、B相、C相;相数是三相,相别可以是ABC相等。如***1所示。
1.3 数据质量分析管理
依据定义好的数据标准,对设备类型数据进行数据质量分析,给出数据分析中异常数据的结果。同时能导出EXCEL文档异常数据,在文档数据中标示出了异常数据并对异常数据给出了整改说明。分析的结果会存储系统日志,为以后数据监控和考核提供依据。如***2所示。
1.4 数据质量监控管理
数据质量监控管理提供同一设备类型在数据标准定义下,不同时间整改后的异常数据数量统计,为数据质量提升提供考核依据。监控管理人员通过***形化界面监控过程中数据质量提升管理工作,更好的为数据质量提升做好决策支持。
2 结语
通过PMS数据质量检查工具的研制,黄山供电公司进一步完善了数据质量管理流程和日常基础业务管理制度,实现了PMS系统数据质量管理的制度化、规范化、标准化和精细化,PMS数据质量得以有效提升,数据管理水平得以明显提高。
参考文献:
[1]赵晓锋,周庆捷.PMS实用化分析评价体系和数据质量提升的研究[J].电力信息与通信技术,2015,13(7):101-106.