大数据智能分析技术研究

摘要:文章介绍了一种用于大数据智能分析平台的数据分析方法及实现技术,介绍了这种方法的需求和意义;和该方法的总体架构,以及在数据传输、数据清洗和数据分析的实现;概述了这种技术高并发、大数据量的优化措施和跨平台的实现。

关键词:大数据;数据分析;数据挖掘

1综述

1.1简介

在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。

1.2需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。

2功能设计

2.1总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如***1所示。

2.2***数据

***数据***通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:***数据、或归档数据。本平台中采用:Storm或SparkStreaming框架进行实现。SparkStreaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。

2.3归档数据

归档数据是***存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。

2.4非结构化数据

通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、***象、声音、影音、各类应用软件产生的文件。针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。

2.5结构化数据

结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。本平台中主要使用HadoopImpala和SparkSQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而SparkSQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。

2.6准实时数据

通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用SparkSQL结合高速缓存Redis的技术来实现。SparkSQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。

2.7非实时数据

非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、***计算、数值拟合等。非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。

2.8范式化模型

范式化模型主要是针对关系型数据库设计范式,通常数据是采用第三范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。

2.9基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用HadoopImpala来进行实现。Im-pala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。

3应用效果

本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。

4结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

作者:蓝科 李婧 单位:1.中国科学院成都计算机应用研究所 2.中国科学院成都文献情报中心

参考文献

[1]孙明,李素蕊.高性能计算机的海量数据处理平台实现与评测[J].电子技术与软件工程,2015(04).

[2]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015(01).

大数据智能分析技术研究

转载请注明出处学文网 » 大数据智能分析技术研究

学习

METALLICA 那支当得起“金属”之名的金属乐队

阅读(51)

本文为您介绍METALLICA 那支当得起“金属”之名的金属乐队,内容包括金属乐队metallica代表作,一分钟了解metallica乐队。Metallica这个名字代表什么含义?不同国家、不同地区、不同时代的歌迷,都会有各自的理解。但对于中国摇滚乐迷来讲,Met

学习

中国第37张直销牌照的背后

阅读(23)

5月30日,商务部公布天福天美仕(厦门)生物科技有限公司获得直销牌照,批准的直销产品为化妆品类8种茶微分子产品。至此,中国内地已经有37家公司获得直销牌照。而就在半个月前的5月16日,商务部刚刚公布珠海圣原获得直销牌照。2013年1月到6月,商务

学习

网络危机公关探析

阅读(51)

网络危机公关是指对由网络虚拟世界里形成的网络危机事件所引发的、对现实世界产生实际影响的公关危机(网络公关危机)的预防、识别和处理。通过对网络危机事件、网络公关危机和网络危机公关的分析,探讨了网络公关危机管理之道。关键词:公共关

学习

VSD简介及其在骨科方面的运用

阅读(560)

本文为您介绍VSD简介及其在骨科方面的运用,内容包括vsd手术流程,vsd平时要注意什么。1VSD的(vacuumsealingdrainage)简介1.1主要组成部分VSD主要由VSD敷料、多侧孔引流管、三通管、负压源和生物透性薄膜组成。VSD敷料为多聚乙烯醇,形似海

学习

情报学报

阅读(18)

本文为您介绍情报学报,内容包括情报学研究生冷门吗,情报学报期刊怎么样。基于集成学习的自动标引方法研究章成志基于领域本体实现全网信息的智能搜索方法研究朱恒民,马静,黄卫东,樊黄稀基于查询扩展和词义消歧的语义检索王瑞琴,孔繁胜基于句

学习

靳羽西的家

阅读(43)

本文为您介绍靳羽西的家,内容包括靳羽西的个人资料,靳羽西的简历。靳羽西简介美籍华人、学者、作家、记者、电视人、社会活动家及企业家。靳羽西出生于中国桂林;其父靳永年是岭南派一位著名的画家,后来他们全家定居香港。靳羽西毕业于夏威

学习

沈阳药科大学学报

阅读(207)

本文为您介绍沈阳药科大学学报,内容包括沈阳药科大学学生入党时间,沈阳药科大学学报编辑部。1.雌二醇鼻用壳聚糖纳米粒的制备及体外性质的考察王晓梅,陈坚,迟娜,唐星,WANGXiao-mei,CHENJian,CHINa,TANGXing2.热熔挤出法制备联苯双酯固体分散体

学习

高瑞彬减到最后剩下的都是精华

阅读(23)

“我们会不断地简化操作程序和操作界面,或者增加某些功能来简化使用者的生活。在这种情况下,让用户觉得我们在做减法,在这个背后,我们要给这个手机的功能做加法。”记者:现代社会人们常常觉得负担很重、每天忙碌,有太多其实不需要的内容填塞在

学习

设计师马可:破茧而出 觅无用新生

阅读(28)

她用三个月的时间,呈现了一幅幅惊艳世人的气柔相间之美。近日红透网络的“style”牵动着世人的瞩目,从俄罗斯到非洲,从出舱亮相到出席活动,从服装到皮包,第一夫人的独特气质展露无遗,这股质朴清新之风不仅树立了第一夫人的沉稳优雅,更将中国国

学习

小学生写错别字的原因及解决对策

阅读(27)

小学生写错别的原因有遗忘、因书写习惯而写错别字、未做字形的辨析练习、乱用同音字。因遗忘而使学生写错别字就要强调学生及时复习巩固、加强记忆;学生因书写习惯写错别字,要告诉学生写错别字的危害;教师给学生教完每一课生字都应给学生做

学习

别和自己过不去

阅读(18)

本文为您介绍别和自己过不去,内容包括别跟自己过不去的文案,别和自己过不去免费阅读。〔关键词〕矛盾;和自己过不去;认识规律在生活中,经常会遇到这样的现象:某人经常和别人发生矛盾,刚开始以为是人际之间的小摩擦,但时间久了,就发现这个人和很

学习

平煤十矿采掘工作面煤与瓦斯突出特点及规律浅析

阅读(20)

本文在对煤与瓦斯突出的一般规律及特征的研究基础上,结合平煤(集团)公司十矿51次煤与瓦斯突出事故进行统计分析,总结出该矿采掘工作面突出的特点、规律和原因,对该矿采掘工作面煤与瓦斯突出综合治理具有重要的意义。关键词:煤与瓦斯突出规律特

学习

制冷空调新技术

阅读(24)

[论文关键词]制冷与空调新技术[论文摘要]我国现代化过程中面临能源短缺的问题。因此,目前国家倡导节能减排提倡使用清洁优质高效能源,大力推广节能环保新技术。对于制冷与空调行业,应注重新技术的研发和应用,以及制冷空调技术与相关技术的融

学习

鲍蕙荞 站在时代漩涡里微笑

阅读(35)

在狂风骤雨中,她被损耗的太多……她是这样的人――像弹簧,压力越大,反弹力越大,也压不垮春天的画展,又见鲍蕙荞。穿着粉色毛衣,眼睛眯着笑意,在中国美术馆的展厅内,一张一张看过去,很认真。看背影,略瘦弱,很专注。间或有人和鲍蕙荞打招呼,有的听到她

学习

《大卫.科波菲尔》中的女性形象比较与分析

阅读(22)

本文为您介绍《大卫.科波菲尔》中的女性形象比较与分析,内容包括大卫科波菲尔人物形象分析及作用,大卫科波菲尔女性形象对比分析。狄更斯在《大卫・科波菲尔》中成功塑造了不同性格、不同品德的女性形象,并详细描绘了大卫与她们之间的关

学习

A股上市公司报分析

阅读(15)

本文为您介绍A股上市公司报分析,内容包括a股上市公司价值趋势报告发布,a股上市公司前三季度报。截至3月31日,深沪两市已有625家A股上市公司公布2006年报。年报统计显示,A股公司业绩全线飘红,部分优势品种的盈利更是远超市场预期。在年报披

学习

汉英颜色词“黑色”和“BLACK”象征意义分析

阅读(22)

本文为您介绍汉英颜色词“黑色”和“BLACK”象征意义分析,内容包括英汉基本颜色词的对比分析,英汉颜色词文化内涵及翻译。颜色是一种客观存在的事物,它的物理属性对各民族都是一样的,但不同语言对颜色的反应,特别是赋予它的象征意义却不尽

学习

农村初中学生辍学问题分析

阅读(35)

摘要农村初中生辍学问题一直都存在,国家为解决这个问题也颁布了一些法律法规,但收效不大。甚至近年来,农村初中学生辍学率又出现上涨势头,这种反弹不仅破坏了"两基"成果,也阻碍了义务教育的普及。本文从现状、危害及原因对这一现象进行分析,以

学习

后锚固技术的设计\施工质量控制措施技术分析

阅读(20)

本文对后锚固的种类和适用范围,后锚固的设计与构造要求及其施工工艺流程做了详细阐述,同时对施工质量的控制做了分析,提出后锚固技术因具有安装方便快捷、经济成本低、锚固安全可靠、施工灵活的优点,在建筑工程的中受到了越来越多的青睐。关

学习

都市圈边缘城市居民出行特征分析

阅读(20)

本文为您介绍都市圈边缘城市居民出行特征分析,内容包括都市圈交通发展规划,都市圈综合交通体系。随着我国区域经济圈和都市圈的建设,处于都市圈边缘的城市一方面接受都市圈内核心城市的辐射带动,另一方面自身的人才等资源流入核心城市,形成

学习

火电厂汽轮机组经济运行分析

阅读(24)

热耗率是发电厂汽轮发电机组每发出1kw.h电能所需要的热量,它不仅反映出汽轮机结构的完善程度,也是衡量汽轮发电机组热力循环和运行情况的主要经济指标。热耗率越高,则表示越不经济,发电成本也越高。本文分析了影响机组经济性的几大因素,并结

学习

某工程道路修复方案的分析

阅读(19)

本文结合工程项目实例,分析了项目道路的实际情况,并在此基础上有针对性的提出可行的道路修复方案,为其它类似工程提供参考。关键词:道路;路面修复;路基;措施一、前言城市道路是城市公共服务载体和通道,它的质量好坏问题不仅仅影响城市的正常交通