基于分布式的海量数据存储解决方案

摘 要:在海量数据存储模型设计和数据并行查询存储技术的基础上,基于MPP架构的存储架构系统,实现了具有良好的扩展性和大规模并行处理的优势的海量数据存储解决方案。

关键词:海量数据存储;分布式数据库;MPP架构;并行处理

目前海量数据处理还是一个比较新的研究方向,大多数都是各公司或者是组织各自研究自己的处理方法,国际上没有通用的标准,研究的方式和结果也都是各有千秋。针对项目中带有复杂业务逻辑的海量数据存储,主要从容量扩展和并行处理两个方面考虑。前文己论述过NoSQL分布式数据库由于其数据结构简单、不善于做JOIN连接等复杂操作,存在数据迁移问题,并不适用于本项目,所以本解决方案依旧从关系型数据库入手。其次为了支持多样的切分策略,本论文将实现range、list、consis

tent-hash模式。最后系统借鉴MPP并行处理架构,使得整个项目能部署在便宜的PC集群上,不仅能保证稳定性,还节省项目成本。

物理设施包含数据库服务器的基础架构、web服务器的选择,以及资源分配管理服务器的选择。这三者分别负责数据的存取、数据的分析处理以及资源工作的均衡分配,它们协同合作,共同搭建一个高效的协同的后端服务管理,使存储系统均衡工作、高效运行。

作为解决海量数据的存储方案,首要必须考虑是存放海量数据的需求。根据前文可知,分布式数据库的出现其根本原因是解决存放不下数据的问题,故而将数据依照策略存放在不同的数据库服务器上,存放数据的策略以及数据之间的并行查询处理是研究的重点。第二个问题是分布式处理方案,现有技术从各个方面进行过尝试,有的基于关系型数据库提出了多种shard

ing方案。将关系型数据库迁移到非关系型数据库上代价太大,所以本解决方案基于关系型数据库的系统。

根据以上的设计思路与实现目标,设计出分布式海量数据存储解决方案。该系统主要包含以下四个模块:

SQL解析模块。SQL语句复杂、格式多样、形式多变,解析结果作为数据切分的依据。解析SQL语句的方法是编译成字节码,生成语法树,这种方式的优点是准确率高、数据层次清晰、结构正确,但设计到相关语法树知识,比解析字符串更难以理解。

数据分发模块。如果集群系统中没有进行数据切分,则多台数据库服务器存储的是完全一样的数据,这实际上是对硬件资源的浪费,也在同步数据保持一致上浪费了更多的时间和效能。而且一旦数据再上升一个等级,很可能一台服务器就无法存储下大量数据。所以合适的数据切分策略是迟早的,本解决方案将结合现有的数据切分策略,结合业务逻辑,提供多样的切分策略,并且预留切分接口使用户灵活地自定义自实现,系统的可用性更高。

并行处理模块。由分发服务器和多台数据库服务器构成。相对于集中式数据库来说,分布式询代价需要考虑以下因素:

CPU处理时间,I/O消耗时间,还有数据在网络上的传输时间。在设计系统的时候,应该根据分布式数据库中各个数据库的地理位置的不同情况来设计。在局域网且传输率高的系统中,通信代价和局部处理的开销差别不大,在优化中则应平等对待;在数据传输率较低和通信网速度较慢的系统中,网络传输可能会比花费在查询中的CPU及I/O的开销更大,则应首要考虑优化网络通信。

汇总处理块。结果汇总大致分为两种情况:单机单库情况下,直接返回结果;多机多库的情况则需要在转发节点处进行一个汇总。

基于架构的工作流程大致如下:首先,转发节点收到客户端发来的SQL语句,将依据各个解析节点当前工作量、预计完成解析工作的时间、本条查询语句预估需要时间、历史响应需求时间等因素,将SQL语句转发给各个解析节点,对其进行语法解析。当所有的工作量都经过这个转发节点的时候,必然会产生高并发的问题。在存在多个分发节点的情形下,为了消除单个转发节点的性能瓶颈,本文设计多个分发节点,每个节点都可以将任务转发到不同的解析节点。采用RoundRobin策略将任务依次分发给每个解析节点,让工作量保持均衡。其次,解析节点解析本次查询的SQL语句,生成便于理解的SQL对象,通过调用相应的接口方法可以实现对SQL语句的操作。最后,各个数据库服务器执行了 SQL语句,便对查询结果进行一个汇总并返回,划分倘若是单机查询,那么处理的结果可直接返回给客户端。

SQL解析、数据切分以及转发归并的工作都由以上四个模块协同完成。

基于MPP架构的设计了关系型数据库的海量数据分布式存储解决方案。本章采用解析SQL语句、分发SQL语句,并行处理、归并汇总处理结果的方式完成整个框架。与MySQL

Cluster的区别在于采用的存储引擎就是MySQL,适应于本身就用MySQL进行存储的集中式数据库的改造,或是业务逻辑复杂的报表展示等,无论是业务的扩展,迁移都十分方便。

参考文献:

[1]姜宇鸣.海量数据存储系统研究.《电脑知识与技术》2011年08期

[2] 李文虎.分布式数据库系统的设计浅析.科技资讯,2009年第34期

转载请注明出处学文网 » 基于分布式的海量数据存储解决方案

学习

麻醉护士在麻醉日常准备工作中的作用

阅读(22)

麻醉护理工作是近年来为适应现代麻醉学科的发展而建立的一项护理内容,麻醉护士在品与耗材请领、设备的准备、消毒隔离、资料归档等方面的管理,取得了满意效果,从而确保品与物品的供应,设备高效正常运转及麻醉资料的完整。关键词:麻醉护士麻醉

学习

关于安全帽帽壳材质对安全帽性能的影响

阅读(22)

随着近年来塑料安全帽的广泛应用,对于安全帽帽壳的材质有着多样的选择,这些材料中的哪些作为安全帽帽壳材料更为优秀,一直是业内不断改进的目标,对于安全帽帽壳的材料选用,要根据使用环境进行选择与优化,达到更好保护劳动者的目的。关键词:帽壳

学习

压疮的分级护理

阅读(39)

【摘要】目的:探讨运用分级护理管理对压疮的影响。方法:实行三级监控,采用表格及制定一系列措施。结果:压疮好转,治愈率明显提高,难免压疮发生率下降。结论:分级管理护理模式对压疮监控效果良好。【关键词】分级管理;压疮监控;影响【Abstrace

学习

热控设备管理要点探析

阅读(17)

随着社会的不断发展,我国的用电量每年都在飞速增长,因此热控设备的重要性也愈加凸显。但是在实际的生产过程中,热控设备在投入使用之后经常因为各种原因出现缺陷,影响发电系统的正常运转,甚至埋下不小的安全隐患。因此,为了保证热控设备的正常

学习

供水管网的维护

阅读(20)

本文为您介绍供水管网的维护,内容包括供水管网维护管理规范,供水管网怎么维护。【摘要】供水的根本任务是向用户提供富裕高质的饮用水,连续供应有压力的水。配水管网直接面向用户,是供水系统中的一个重要环节。居民饮用水的清洁状况如何,直

学习

点菜的门道――清炒鳝糊

阅读(46)

吃鳝鱼在我国已有一二千年的历史,大约在汉朝时期就已经有文字记载。到唐代以后,吃鳝鱼的名堂就更多了。或炸或炒或烩,或片或丝或段,或咸鲜或麻辣或酸甜,百花齐放,各有千秋。过去,上海对鳝鱼的吃法多是红烧,浓油赤酱。后来受到其他菜系的

学习

浅析钢琴曲《平湖秋月》的演奏技巧

阅读(29)

【内容摘要】中国传统乐曲《平湖秋月》用明快清新、古朴优美的旋律描绘了杭州西湖十大景点之一“平湖秋月”的悠远淡泊与幽静迷人的意境,至今为广东音乐中的佳作。中国钢琴艺术已历经近百年的发展历程,中国作曲家们一直以来都在使用这种西

学习

解析配方奶粉的配方

阅读(15)

给宝宝买奶粉妈妈们会看得眼花缭乱,各种新成分层出不穷,这些配方奶粉中的配方到底对宝宝都有什么用呢?DHA奶粉中DHA具体成分是二十二碳六烯酸,又称脑黄金。对宝宝大脑和视网膜的发育起着非常重要的作用。如果缺乏,会导致宝宝神经系统发育迟

学习

南蒂罗尔的珍珠

阅读(21)

初入福纳斯山谷,满眼鲜嫩苍翠,山路九曲十八弯,像一条条丝柔缎带缀入山间,森林错落有致,四周青山环抱,有种爱丽丝梦游仙境的感觉阿尔卑斯最奇特的山脉,不是那几座名声显赫的山峰,而是意大利北部南蒂罗尔山区的多洛米蒂山脉。置身多洛米蒂山谷,才发

学习

二维码技术论文范文精选

阅读(15)

二维码技术论文篇1针对物流运送信息管理的业务流程,数据库设计涉及到多用户,多层次的关联,需要对普通用户、运货人,派送人、业务管理员、系统管理员等多角色进行定义。根据需求设计了多个关系数据表,包括用户表、订单表、运单表、货物信息表

学习

试论STC89C52单片机

阅读(21)

【摘要】本系统以STC89C52单片机为核心,辅以步进电机驱动、键盘、LCD显示、光电传感器数据采集、RS232电平转换等电路组成,实现了由一个主站控制多个从站的液体点滴速度监控系统。该设计较好地实现了液体点滴速度监控装置的所要求的功能。

学习

想说爱你不是很容易的事

阅读(38)

本文为您介绍想说爱你不是很容易的事,内容包括想说爱你也不是很容易的事原唱,爱你并不是很容易的事。写文章谈爱情,是件吃力不讨好的事情。不过,在电视上看有关婚姻爱情方面的电视剧、娱乐节目,倒也是很多人茶余饭后的乐事。记得多年前,北京

学习

2011:新版《倩女幽魂》诞生

阅读(29)

各个时代的《倩女幽魂》有各个时代的特点。1960年版画面唯美,1987年版以武打动作见长,而到了2011年,《倩女幽魂》的精彩特效成了它的新标签。《聂小倩》给人想象空间像徐克、程小东当年翻拍李翰祥版《倩女幽魂》一样,叶伟信的此次翻拍也饱受

学习

庞中华:中国“硬笔书法大王”的潮起潮落

阅读(64)

“我从来不认为硬笔书法退潮了。”年过六旬、头发花白的庞中华,操着一口“川味普通话”说,“有些不了解情况的人可能会这样认为,但我要说的是,以前是暴风骤雨,现在是和风细雨,你们很快就会看见新的大潮涌起。”热潮:全民练书法,字帖卖过

学习

CNGI分布式娱乐平台构建方案

阅读(24)

CNGI(中国下一代互联网)网络基础建设成果得到肯定的同时,还应更加关注应用项目的推进与商用。CNGI分布式影音娱乐平台就是一个应用实验专项。今年6月,在“中国下一代互联网示范工程技术论坛”上,CNGI所有项目首次集体亮相,这是自2003年CNGI项

学习

分布式光伏发电研究

阅读(22)

随着社会经济的迅速发展,石化能源已无法满足人们的日常生活所需,开发利用可再生资源由此越来越收到人们关注。太阳能作为一种清洁能源,越来越多的人投入到对其使用中。在此,本文针对分布式光伏发电这一问题做如下论述。关键词:分布式电源;光

学习

常见数据存储方式比较

阅读(25)

本文为您介绍常见数据存储方式比较,内容包括数据存储方式有哪几种,存储数据用什么类型的硬盘。【摘要】随着计算机系统的迅速发展,存储系统体系结构先后经历了“直接存储(DAS,DirectAttachedStorage)体系结构、网络附加存储(NAS,NetworkAttach

学习

分布式文件系统NTFS概述

阅读(72)

本文为您介绍分布式文件系统NTFS概述,内容包括ntfs分布式文件系统,dfs分布式文件系统作用。摘要:NTFS(NewTechnologyFileSystem)是WindowsNT操作环境和WindowsNT高级服务器网络操作系统环境下的文件系统。文件系统是操作系统用于明确磁盘

学习

数据存储备份

阅读(21)

本文为您介绍数据存储备份,内容包括数据存储与容灾备份全集,数据备份存储位置。[摘要]针对当前网络环境下企业信息系统数据易感染病毒或遭受黑客攻击,为确保企业信息系统数据的安全,应对企业数据进行备份,本文就企业数据的存储备份及灾难恢

学习

分布式网络管理综述

阅读(35)

本文为您介绍分布式网络管理综述,内容包括分级式网络管理优缺点,分布式网络管理体系结构。摘要:网络管理技术是保证网络能够健康运行的前提和条件。分布式网络管理技术将管理应用和被管元素都看作分布对象,对象之间进行交互实现网络管理,淡

学习

分布式光伏发电效率研究

阅读(55)

本文为您介绍分布式光伏发电效率研究,内容包括分布式光伏发电效率,天津分布式光伏发电效率。摘要:在分布式光伏高渗透率的嘉兴地区,选取多个典型的分布式光伏并网项目,研究分析其发电效率、运行特性,为项目规划布局,电网改造提供更加可靠的技

学习

海量阅读范文精选

阅读(17)

本文为您介绍海量阅读范文精选,内容包括精品文章范文,海量阅读征文稿范文。海量阅读篇1一年级在“海量阅读儿歌”中识字,可以诵读千首童谣。课文的朗读与生字书写不是同步进行的。二三年级在“海量阅读”中诵读、积累。四五六年级可以海