多源异构数据整合系统在医疗大数据中的应用

摘要:随着医院信息系统的快速发展,为医院带来了海量数据。对这些数据的有效利用、分析,挖掘其中隐含的信息,能为医院管理提供更好的决策支持。但如何从医院信息化进程中产生的海量多源异构数据中甄选出高质量数据,是医疗大数据领域首当其冲的问题。文章在尽量不影响改变医院现有系统的基础上,利用数据中间件的形式,对多源异构数据进行清洗转换,为上层应用提供标准数据集。

Abstract: The rapid development of hospital information system has brought huge amounts of data for the hospital. The effective use of these data, analysis, and to mine the hidden information, can provide better decision support for hospital management. But how to select high quality data from the massive multi-source heterogeneous data in the process of hospital information is the most important problem in the field of big medical data. This paper is trying to make use of the form of data middleware to clean and convert multi-source heterogeneous data, and provide the standard data set for the upper application on the basis of not changing the existing hospital system.

关键词:大数据;多源异构数据;模式匹配

Key words: big data;multi-source heterogeneous data;pattern matching

中***分类号:TP311.5;P208 文献标识码:A 文章编号:1006-4311(2017)08-0080-03

0 引言

信息技术及互联网的高速发展和全球的数字信息资源的急剧增加,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片。在“大数据时代”我们所要做的事情就是对隐藏于大数据中有价值的信息进行分析与挖掘[1],将分散的数据变为有用的信息,再加以创新和积累形成知识。只有形成了知识的数据才具有资产价值。我们面临的第一个挑战就是如何采集高质量的数据。高质量的数据集需满足以下5种特性:精确性、一致性、完整性、同一性和实效性。精确性指数据符合规定的精度,不超出误差范围;一致性指数据之间不能存在相互矛盾;完整性指数据的值不能为空;同一性指实体的标识是唯一的;时效性指数据的值反映了实际的状态。此外,还需考虑到人为因素,即数据不能是人工伪造的。

数据质量问题在医疗行业中表现得尤为突出。医院信息化在近三十年的飞速发展过程中,信息系统的建设规模越来越大,应用越来越复杂多样。这些系统因其处理的业务和采用的技术架构不同,其采集、处理、存储和交换数据的标准均存在较大的差异。从数据的结构形式来看,分为结构化数据、半结构化数据和非结构化数据。例如:PACS和心电监护系统等产生视频、音频等以多媒体格式存储的非结构化数据;HIS和LIS产生患者档案、医嘱处方、化验单等以标准表单形式存储的结构化数据;电子病历又以产生半结构化数据为主。另一方面,从信息记录的模式来看,同一实体可能在多个系统均有记录,但是其具体属性集合可能各有不同。就算是同一属性,其命名或数据更是可能在交互过程因为系统或者手工记录的原因发生错误从而存在相互矛盾冲突的地方。

从以上现象我们不难看出,医疗行业中的数据呈现出一种多源异构性,而且该特征会产生严重的数据质量问题。“失之毫厘谬以千里”,这种不良的数据会对医疗大数据的后续应用产生极为不利的影响。为解决这个问题,我们必须对这些多源构的数据集进行收集和整合,转换为新的高质量的数据集,从而为上层的大数据分析应用打下良好的基础。

1 系统设计

如果采用传统的数据仓库策略,我们的方法简单说来可以分为以下几步:先抽取原始数据,再根据业务规则对其进行清洗和转换,最后按标准的格式将数据装载到数据仓库中。其简称为ELT。这种策略可以提供有力的决策支持,但是也存在一些不足之处。首先,数据仓库的策略多为离线处理,面对海量的实时数据处理,处理效率不高。其次,这种策略在抽取之前就需要定义好规则和标准,难以应对可能随时会变更的需求。最后,如果想要在不中断在用生产系统即无增量数据产生的前提下,对海量的存量数据进行一次性的ELT,成本太高。针对以上的不足,本文提出的解决方案如下。

系统的结构***如***1所示。在不影响医院在用的生产系统的基础上,增加数据实时采集子系统和增量式映射管理平台两个中间件。生产系统上的实时数据和历史数据,先经过数据采集子系统进行采集和过滤,然后将这些数据分发至备份数据存储集群进行存储,再由映射管理平台对这些异构数据进行实时整合,建立缓存库和知识库,并为大数据分析平台提供标准化的数据接口。

1.1 数据实时采集子系统

1.1.1 数据采集模块

该模块的功能可分为历史数据采集和实时数据采集。其中,历史数据的采集采用设置规则过滤后全量导入的方式;实时数据的采集采用基于数据库日志解析的方式来获取增量变更实现数据的同步,这种方法对在用的生产系统几乎不会产生任何负面的影响。

1.1.2 数据预处理模块

该模块负责对数据进行以下预处理:

①无效信息过滤。识别并剔除错误数据和重复数据,提高处理效率和整合的准确度[3]。

②数据加密。为保障数据安全,对原始数据进行加密。

③数据压缩。对原始数据采用无损的压缩处理,提升存储空间利用率和传输效率。

1.2 增量式映射管理平台

该平台包括查询处理模块、模式匹配模块、语义转换模块、知识库管理模块、缓存管理模块及缓存库和知识库。该平台的工作流程如下[3]:

①查询处理模块接到数据查询请求,首先查找缓存管理模块中是否己经整合过该请求。如查找成功,对于已缓存了数据集的,直接返回结果;对于未缓存数据集的查询,进入步骤④。如果查找失败,则进入步骤③。

②调用模式匹配模块,根据查询需求对各异构数据与标准目标数据进行匹配,建立映射关系。

③根据模式的映射关系,转换查询请求并下发到各匹配的异构数据源。

④查询处理模块整合返回的结果数据集,并调用语义转换模块对部分结果进行语义转换并通过知识库管理模块更新知识库。

⑤查询处理模块通过同一数据接口标准向上层系统提供查询结果。

为提高系统效率,各个模块在必要情况下会对部分数据或中间结果进行缓存,而不是每次都重新计算或者重新查找。系统会随着中间计算结果和映射的缓存不断扩大,知识库的不断丰富,不断提升查询的效率跟精确度。

以下对系统的关键处理模块――模式匹配模块和语义转换模块进行介绍。

1.2.1 模式匹配模块

该模块的匹配流程如***2所示。

***中,进行模式匹配的依据为属性的相似度,其简易的度量公式(模式匹配算法公式)如下:

sim(S1.ei,S2.ej)=AGG(simf(S1.ei,S2.ej))

其中,ei与ej是分属于模式S1和S2的两个属性,simf是基于特征f的相似度算法。AGG为聚合函数。该公式根据一定的聚合规则,综合考虑多个相似度算法的结果,得出两个属性的最终相似度。目前国内外正在研究的相似度算法即属性匹配器有:基于单词相似度的属性匹配器,基于单词编辑距离的属性匹配器,基于数据类型的属性匹配器,基于数据实例的属性匹配器。在实际应用场景中,还可以根据业务实际情况,添加自定义的属性匹配器,通过各属性匹配器的合理搭配使用,提高属性近似度的精度。

1.2.2 语义转换模块(详见***3)

该模块主要负责将各异构数据源的属性数据转换成标准数据。例如,上层分析系统可能需要获取医嘱的具体内容,而某些数据源中仅仅包含医嘱代码。这时,语义转换模块就可以根据知识库中医嘱代码与医嘱具体内容的映射关系,将医嘱代码转换为医嘱内容。我们设定一个阀值T,当在一个数据表中成功匹配到T及以上个样例数据则匹配成功。如***3所示的匹配过程中,我们设定的T值为1,经过第一轮匹配,我们发现table1中存在样例数据(“qd”“每日一次”),table2中存在样例数据(“bid”“每日两次”),即从知识库中匹配到了两个数据表。根据tablel和table2中的数据,继续转换query中 “advice_code”属性未转换的数据。tablel中存在“qid”与“q2h”的数据,table2中存在“qn”与“qh”的数据,可直接转换。但是query中“M.D.S”却没有找到对应的结果。进行第二次迭代匹配,l现了table3并在其中找到了“M.D.S”对应的转换结果[3]。以上示例过程中,我们通过增加迭代匹配的次数,来提高转换率。但是这种处理会导致执行时间的延长。因此,在实际场景中,我们需要对转换率和执行时间做一个折衷。另外,还可以通过机器学习、人为干预等方式,丰富我们的知识库,从而提高其支撑的语义转换模块的转换率。语义转换最理想的目标是使得所有转换只需一次匹配就能完成所有查询数据的转换。

2 结语

本文针对医疗数据中的多源异构特征产生的数据质量问题,提出了初步的解决方案。但是文中提到的几个处理过程相对简单,存在很大的改善空间,比如可利用云计算技术,采用分布式的采集和存储提高效率。其依赖的模式匹配器的算法也需要对国内外的研究进展保持跟踪,不断进行优化调整。此外,对医院存在的大量非结构化数据的处理,以及对冲突数据的处理,也是本系统可以扩展的一个研究点。

参考文献:

[1]邹北骥.大数据分析及其在医疗领域中的应用[D].计算机教育,2014(7).

[2]李晓菲.数据预处理算法的研究与应用[D].西南交通大学,2006.

[3]叶茂伟.大规模异构数据即时整合系统的研究与实现[D].浙江大学,2016.

转载请注明出处学文网 » 多源异构数据整合系统在医疗大数据中的应用

学习

云南·德钦 梅里雪山

阅读(28)

本文为您介绍云南·德钦 梅里雪山,内容包括德钦梅里雪山探险基地,云南迪庆德钦梅里雪山。“这美丽的香格里拉,这可爱的香格里拉,我深深的爱上了她,我爱上了她……”神秘而美丽的香格里拉,一直是我向往的地方,向往那里蓝色纯净的天空,向往那里

学习

故乡,关于冬天的记忆

阅读(41)

本文为您介绍故乡,关于冬天的记忆,内容包括故乡没有春夏秋只剩下了冬天,故乡的冬天的文案。关于故乡冬天的记忆,就似一坛佳酿,埋藏在我的心底多年,从未敢轻易的去搬弄和开启。在这个狂风骤雨将至的午后,心血来潮,情不自禁的一下子敞开记忆之

学习

解析礼服的文化与时尚

阅读(30)

本文为您介绍解析礼服的文化与时尚,内容包括关于礼服的文化意义,时尚cosmo女明星礼服。春晚万众瞩目,特别是女主持人的礼服也成为大家关注的焦点。春晚留给服装的空间也是有限的,包括服装的色彩选择、度、风格的夸张度,都是有一定界限的,透

学习

为什么鲸鱼会喷水?

阅读(33)

本文为您介绍为什么鲸鱼会喷水?,内容包括鲸鱼头上为什么会喷水,动物世界鲸鱼喷水。快比大海好大,海水好蓝!(鲸鱼喷水声2秒)乐茜看,那边有条大鱼在喷水!爷爷呵呵,那是鲸鱼。巧格博士爷爷,为什么鲸鱼会喷水啊?爷爷喷水是鲸鱼的一个显著的特征。爷爷

学习

保育猪饲养管理技术

阅读(36)

摘要断奶仔猪进入保育阶段,常由于各种原因受疾病危害,为此,介绍了保育猪的饲养管理措施,以促进养猪业的持续发展。关键词保育猪;饲养管理;疾病预防仔猪断奶进入保育阶段,由于饲养环境、饲料形态及营养的改变、母源抗体的下降或消失,都会

学习

试论房地产租赁的利与弊

阅读(32)

【摘要】本文首先对房地产租赁经营内涵进行了介绍,并对房地产租赁的形式进行了分析,随后对房地产租赁所发挥的作用进行了阐述,提出房租价格的快速提高是由于房地产租赁经营所导致的,最后对房地产租赁市场的规范经营提出了相关建议。【关键词

学习

爸爸,您别这样作文200字

阅读(31)

本文为您介绍爸爸,您别这样作文200字,内容包括我想对爸爸说200字作文,写信给爸爸200个字作文。我有一个爱我疼我的爸爸。他回来经常给我带回一包我爱吃的果冻。可是,他每一回家就抽着烟,看着电视。我和妈妈也经常劝爸爸不要吸烟了。可劝了

学习

卖报纸 第1期

阅读(33)

本文为您介绍卖报纸 第1期,内容包括卖报纸能赚多少钱,山里的汉子卖报纸。“阿姨,今天新出的《扬子晚报》一元一份,要买吗?”此时,我正在狮山菜场里卖报。卖报?你可能会产生疑问,这都啥年代了,还有卖报童存在啊?其实,我是在进行我人生中第一次社会

学习

规范权力运行工作方案

阅读(41)

本文为您介绍规范权力运行工作方案,内容包括规范权力运行方面存在的问题,扎紧制度笼子规范权力运行。一、工作目标通过依法依规科学确权,规范完善权力流程,全面公开权力信息,加强权力监督制约,建立健全决策权、执行权、监督权既相互协调又相

学习

商标侵权行为界定标准

阅读(59)

本文为您介绍商标侵权行为界定标准,内容包括商标侵权赔偿一般赔多少钱,商标侵权纠纷最佳解决方法。编者按:本论文主要从什么是商标侵权行为;如何认定商标侵权行为;商标侵权行为的表现形式;认定商标侵权行为时应注意的问题等进行讲述,包括了有

学习

转运蛋白:农作物的生长 “调理师”

阅读(31)

近日,全球12位著名的植物生物学家在5月2日出版的《自然》杂志上指出,他们最近发现了植物转运蛋白的重要属性,转运蛋白不仅会穿过农作物的生物膜来对抗有毒的金属和昆虫,也能提高农作物的抗盐性和耐旱性、控制水分流失并存储糖分,最新发现将对

学习

孩子多大才可以跟他们说离婚的事

阅读(32)

不要跟12岁之前的孩子谈离婚的原因;12岁之后的孩子,男孩和女孩也有不同的说法??34岁的小霞因离婚问题来找我求助。我挺诧异,忍不住打量面前这位女性,她穿着得体的职业装,五官算不上漂亮,但是面目、眉眼间的舒展让她显得非常自信。因为婚姻感情

学习

浅谈海洋大气环境中钢铁的防腐蚀

阅读(57)

《海洋世界》2016年第12期针对海洋大气环境中钢铁表面腐蚀的形成机理以及当前最有效的防腐方式进行分析,旨在探讨适合各类海洋环境中钢铁表面的防腐蚀方案。关键词:海洋大气环境;钢铁表面;防腐蚀引言钢铁易受腐蚀的特性是人类无法逃避的现实

学习

浅析快速发展的网上零售市场

阅读(32)

[摘要]网上零售对应着电子商务中的B2C模式,即消费者通过网络向厂商小批量、频繁地购买商品或服务。伴随着网络购物环境的逐步改善,网上零售模式的多样化、网上购物和网下购物充分结合等优势,我国网上零售市场的营业额呈现高速增长的态势。

学习

管理数据生命周期 防止信息失窃

阅读(32)

本文为您介绍管理数据生命周期 防止信息失窃,内容包括数据管理规则与机制,数据管理应贯穿其整个生命周期。实施数据生命周期保护,可以帮助企业在数据保护方面走向成熟。虽然这可以明显降低隐私泄露的风险,但并不能完全消除。根据(美国)

学习

大数据精准营销与网络营销策略

阅读(28)

本文为您介绍大数据精准营销与网络营销策略,内容包括大数据精准营销的策略有哪些,大数据网络营销的方法。内容随着互联网用户的大幅度增加及各种电商网站的发展,企业掌握了越来越多的消费者数据。在此背景下,大数据技术应运而生,并被部分企

学习

基于HTML5的异步数据传输

阅读(36)

本文为您介绍基于HTML5的异步数据传输,内容包括html5提供的数据存储,html5读取后台数据。为优化B/S系统结构与网络数据负载,本文在HTML5的WebStorage和WebSocket技术基础上,设计了一种异步数据传输方案。它将部分业务逻辑移交到客户端执行

学习

易传媒:用大数据实现营销人的梦想

阅读(41)

一线品牌客户正在尝试用技术掌控大数据营销,他们希望拥有私有的数据管理和程序化交易平台。作为数据营销技术提供商,与阿里联手后的易传媒,将在产品与数据上助力更多品牌客户释放大数据营销的价值。业界有句话叫,得数据者得天下。谁能坐拥大

学习

SQL SERVER数据完整性及约束

阅读(35)

本文为您介绍SQL SERVER数据完整性及约束,内容包括sqlserver从入门到精通,sqlserver完整性机制配置。【摘要】所谓数据完整性,实际上是衡量数据库中数据质量好坏的一种标志,是确保数据库中数据一致,正确以及符合企业规则的一种思想,本文以详

学习

街景数据采集员:最开眼界的互联网职业

阅读(30)

本文为您介绍街景数据采集员:最开眼界的互联网职业,内容包括百度数据分析师工作前景,数据采集职业。上榜理由:扛得了摄像机,耐得住寂寞,挺得起腰板儿,行得了千里路,拍得了五岳山川。这,就是一名街景数据采集员的日常工作。从业者说:辛苦并幸福

学习

浅谈税收大数据时代的金税三期工程

阅读(64)

本文为您介绍浅谈税收大数据时代的金税三期工程,内容包括金税三期对个人税收的影响,最新税收基础知识。[摘要]将大数据技术应用于金税三期工程中,对实现经济、税收和纳税人全面协调发展带来了新的机遇和挑战。本文就金税三期工程优势亮点

学习

中国移动集团专线:贵州企业的专用数据通道

阅读(35)

本文为您介绍中国移动集团专线:贵州企业的专用数据通道,内容包括移动公司数据专线业务详解,贵州移动集团专线。某金融企业外部联系非常多,同时对外部的数据交换也是每天很重要的一项工作,每天的数据交换量非常大,每个月的通讯支出都是非常