基于UMLS的医学资源库语义扩展检索系统架构

摘要:基于UMLS的医学资源库的搜索模块通过将搜索关键词的映射到UMLS超级叙词表中相关概念的词串,经过“OR”运算,进行语义扩展的搜索。可以提高查准率和查全率。可以使用MetaMap映射工具,也可以直接访问超级叙词表;可以采用本地数据访问和使用WEB服务两种方式的系统架构来访问UMLS。

关键词:UMLS;资源库;语义扩展;搜索

中***分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)01-0163-03

1 医学资源库的知识组织及检索的不足

在医学资源库中,资源以视频、音频、动画、文档、PPT、积件等多媒体形式存在。资源入库必须以人工标注的方式进行元数据标注。传统的医学资源库的资源检索采用的是关键词匹配。有的检索系统会在关键词匹配的基础上增加类别限制、时间限制、作者限制等范围限制来提高搜索的精确性。但是语言常常具有多义性、同义性、模糊性,比如Aspirin(阿司匹林)和Acetylsalicylic acid(乙酰水杨酸)、Cancer(癌症)和Malignant of neoplasm(恶性肿瘤)、Scar(伤疤)和Cicatrix(疤痕)分别都是同义词,但是各自都是完全不同的关键词。所以按照关键词搜索不可避免的会影响搜索的查全率和查准率。

在生物医学领域中,名词和术语比较多,一词多义现象和多词一义现象很多。除此之外,还有大量的术语之间的语义联系,比如词的上下位关系,关联关系,难以通过关键词搜索表现出来。所以,在搜索模块中,有必要引入一个生物医学领域统一的可控术语表,进行语义扩展的搜索。

2 UMLS(一体化医学语言系统)及其语义网络介绍

一体化医学语言系统 (Unified Medical Language System,UMLS),由美国国立医学***书馆(NLM)研制并维护。UMLS是生物医学概念所构成的一部广泛全面的叙词表和本体,是对生物医学科学领域内许多受控词表的一部纲目式汇编。UMLS提供的是一种位于这些词表之间的映射结构,使这些不同的术语系统之间能够彼此转换。 UMLS主要由超级叙词表、语义网络、专家词典三个组件构成。

超级叙词表是UMLS的基础。是由来自各种受控词表的概念和术语以及它们之间的关系所构成的集合; 超级叙词表中收录100多万个生物医学概念和500多万个概念名称。概念源自UMLS收录的100多部受控词表和分类系统。

超级叙词表之中的每个概念都指定有至少一种“语义类型(Semantic type)”。某些“语义关系”可以存在于多种语义类型的成员之间。语义网络正是这些语义类型和语义关系所构成的一种网络式目录。这是一种相当宽泛的分类;目前,其中共计有135种语义类型和54种语义关系。

3 基于UMLS的医学资源库语义搜索系统架构

利用UMLS做语义扩展恰好能弥补资源搜索中关键词匹配种种局限。因此,该文设想在医学资源库的搜索模块中将UMLS的超级叙词表作为搜索模块的后控词表。UMLS本身提供了SKR(语义知识表达)工具,可以以交互模式和批处理模式两种进行自然语言处理。其中,MTI (Medical Text Indexer)可以进行文章的自动标引;MetaMap用来将自由词映射到UMLS超级叙词表中的词汇;SemRep用来提取生物词汇和短语中的语义类型。UMLS提供了WEB API来访问这三个工具,也可以***这些工具的安装程序本地安装使用。在这些工具中,MetaMap是SKR工具的核心,可以作为用户和超级叙词表之间的桥梁。

除了上述工具以外,UMLS的超级叙词表和语义网络中的数据可以通过两种方式直接访问,一种是安装MetamophorSys程序,同时将词表文件及语义关系文件***到本地,导入到MySQL数据库或者Oracle数据库,使用UMLS提供的JAVA API进行本地访问;另一种是通过SOA服务访问,UMLS提供了WEB服务访问的接口,可以使用JAVA API基于WEB服务接口访问,实现基于服务的系统架构。

综合以上分析,基于UMLS的医学资源库的搜索模块可以有四种形式的架构:(1)***安装MetaMap映射工具,使用JAVA API访问本地MetaMap程序来使用超级叙词表;(2)使用WEB API访问MetaMap WEB服务来使用超级叙词表;(3)安装MetamophorSys程序,使用JAVA API直接访问超级叙词表;(4)使用美国国立***书馆提供的WEB API直接访问UMLS的WEB服务。。该文以使用MetaMap映射工具为例给出基于UMLS的搜索的流程,如***1所示。

4 基于UMLS的搜索效果分析

下面对基于UMLS的搜索结果进行理论分析,以术语“lung cancer(肺癌)”的搜索为例。

1) 使用MetaMap工具映射到超级叙词表,其搜索流程如***2所示。

MetaMap的自动文本映射主要步骤有文本解析、变量产生、入选叙词、对入选叙词赋值、映射构造。在入选虚词赋值这一步骤中,MetaMap基于向心度、变异度、覆盖度、和内聚性四个因素进行综合考虑,每个因素按照不同的权值进行计算,计算结果在0到1000以内,1000表示最佳匹配。Lung cancer经过MetaMap的映射结果如下:

Meta Candidates (Total=13; Excluded=5; Pruned=0; Remaining=8)

1000 Lung Cancer (Malignant neoplasm of lung) [Neoplastic Process]

1000 LUNG CANCER (Carcinoma of lung) [Neoplastic Process]

861 Cancer (Malignant Neoplasms) [Neoplastic Process]

861 Lung [Body Part, Organ, or Organ Component]

861 LUNG (Structure of parenchyma of lung) [Tissue]

861 Cancer (Cancer Genus) [Eukaryote]

861 Lung (Entire lung) [Body Part, Organ, or Organ Component]

861 Cancer (Primary malignant neoplasm) [Finding]

805 E Pulmonary (Pulmonary:-:Point in time:^Patient:-) [Clinical Attribute]

805 E Pulmonary (Pulmonary (qualifier value)) [Qualitative Concept]

768 E Pneumonia [Disease or Syndrome]

768 E Pulmonary Arteries (Pulmonary artery structure) [Body Part, Organ, or Organ Component]

768 E Pulmonary artery (Entire pulmonary artery) [Body Part, Organ, or Organ Component]

我们可看到,系统给出13个候选的叙词,其中前两个,“Malignant neoplasm of lung”和“Carcinoma of lung”是最佳匹配。我们也可以选择将最佳匹配的词做“OR”运算,最终lung cancer的搜索转换成[lung cancer] OR [Malignant neoplasm of lung] OR [Carcinoma of lung]。很明显,这样可以增加搜索的查全率和查准率。

***2

2) 直接查询UMLS超级叙词表。

直接搜索超级叙词表有几种方式,有词匹配、精确匹配、模糊匹配等。在词匹配的方式中,lung cancer除了匹配“Malignant neoplasm of lung”和“Carcinoma of lung”以外,还在语义上包含了很多上位关系词、下位关系词、相关关系词、同义关系词等。

RO | | MTH | Carcinoma of lung | C0684249

RO | | MTH | Neoplasm, uncertain whether benign or malignant | C0677041

RO | | MTH | Carcinoma, Small Cell | C0262584

RO | | MTH | Malignant neoplasm lung: [of bronchus or lung NOS] or [lung cancer] | C1578781

RB | | MTH | Squamous cell carcinoma of bronchus | C1314696

RO | | MTH | respiratory | C0521346

RB | | MTH | Bronchogenic Carcinoma | C0007121

RB | | MTH | Non-Small Cell Lung Carcinoma | C0007131

RB | | MTH | Adenocarcinoma of lung (disorder) | C0152013

RN | | MTH | Respiration Disorders | C0035204

RN | | MTH | Respiratory Tract Diseases | C0035242

RB | | MTH | Metastatic Carcinoma to the Lung | C0238254

RB | | MTH | Lung cancer stage unspecified (excl metastatic tumours to lung) | C0852936

RN | | MTH | Neoplasms | C0027651

RB | | MTH | Small cell carcinoma of lung | C0149925

RO | | MTH | Malignant neoplasm of bronchus or lung, unspecified | C0348343

RO | | MTH | Pulmonary Lunatism | C0815311

RO | | MTH | lung or tumor neoplasm | C0815116

RB | | MTH | Primary malignant neoplasm of lung | C1306460

RN | | MTH | Lung Neoplasms | C0024121

很明显,词匹配方式可以更加增加系统的查全率,但是查准率有时候会有一定程度的下降,因为用户有的时候希望的是精确匹配,只要求同义词而并不要求语义的向上、向下以及关联的扩展。而精确匹配的结果就和使用MetaMap最终映射的结果是一样的,各种模式可以由系统开发人员决定,灵活性更高。

3) 基于Pubmed搜索引擎进行语义扩展搜索、主题词搜索、关键词搜索三种模式的搜索效果比较。选取疾病类、药物类的术语进行实验,选取“lung cancer”、“antibiotics”,“scar”,“gastric ulcer”, “acetylsalicylic acid”,“rash”,“insomnia”几个术语。分别在搜索细节里改变搜索的模式,例如,“scar”在语义扩展搜索中,最终搜索的形式是"cicatrix"[MeSH Terms] OR "cicatrix"[All Fields] OR "scar"[All Fields];在关键词搜索中,最终搜索的形式是"scar"[All Fields];而在主题词搜索模式中,最终的搜索形式是"scar"[All Fields]。三种模式搜索结果如表1:

表1

[检索词\&UMLS\&MeSH\&关键字\&lung cancer\&229725\&166485\&146230\&antibiotics\&589945\&256320\&160775\&scar\&49422\&29287\&27421\&gastric ulcer\&53158\&23370\&41206\&acetylsalicylic acid\&55029\&37073\&8046\&rash\&21427\&4494\&17674\&insomnia\&15205\&8489\&11937\&]

从上述搜索结果可以看到,基于UMLS的语义扩展搜索结果明显要比基于医学主题词和关键词搜索要多,可以明显提高搜索的查全率。而基于医学主题词和基于关键词的搜索结果各有优势,原因是医学语言中大量的同义词和近义词存在,标引人员的选择不同造成了标注的词不同。

5 总结

利用UMLS提供的MetaMap工具访问超级叙词表和直接访问超级叙词表都可以进行医学资源库的语义扩展查询,理论上可以增强查准率和查全率。使用本地程序访问和使用WEB API访问各有利弊,本地程序访问可以提高速度,但词表需要手动更新,利用WEB API通过WEB服务访问可以简化本地的配置,并且数据是实时更新的。同时,基于SOA的粗粒度系统模型减少了开发人员的工作量,减少了程序模块之间的耦合度,增加医学资源库系统本身的灵活性和***性。

参考文献:

[1] 白海燕,王莉,梁冰.UMLS及其在智能检索中的应用[J].现代***书情报技术,2012(4).

[2] 邱君瑞.论一体化医学语言系统(UMLS)知识表达的语义学特点[J].中华医学***书情报杂志,2002(7).

[3] 赵沛沛,谢竞博,王国.基于UMLS和Lucene的集成检索模型[J].计算机科学,2010(10).

[4] 李丹亚,胡铁***,李亚子.UMLS多词表整合机制研究[J].数字***书馆论坛,2012(4).

[5] 董小芸.于一体化医学语言系统(UMLS)的语义检索实验研究[D].上海大学,2005.

[6] 王孝宁,陈海青,崔雷.利用MetaMap 抽取科研项目概念分析学科领域研究热点的尝试[J].中国医学科研管理杂志,2008(6).

[7] 张晗,任志国,于倩,等.基于UMLS医学本体的挖掘文献间的潜在联系的设计与实现[J].现代***书情报,2007(9).

[8] http://skr.nlm.nih.gov/interactive/index.shtml.

[9] http:///wiki/UMLS.

基于UMLS的医学资源库语义扩展检索系统架构

转载请注明出处学文网 » 基于UMLS的医学资源库语义扩展检索系统架构

学习

新时代戏曲发展趋势研究

阅读(50)

本文为您介绍新时代戏曲发展趋势研究,内容包括社会主义新时代的戏曲电影,中国戏曲音乐发展趋势。[摘要]戏曲作为中华传统文化中重要的一部分,流传至今已有几千年的历史。如今在新时代背景下,戏曲发展也应顺应形势、直面挑战,积极寻找现代化转

学习

《魏书》中的表序法

阅读(25)

本文为您介绍《魏书》中的表序法,内容包括旧本魏书目录序,魏书目录序译文。关键词:《魏书》序数词称数法

学习

不想让你离开

阅读(22)

本文为您介绍不想让你离开,内容包括不再让你离开小说,不想让你离开我小说免费阅读。他们是一对阿根廷老夫妇,他们的孙子――一名自由摄影师,用镜头将他们的日常生活记录了下来。在互联网上,我通过几十张照片,看到并认识了他们。我被他们的生

学习

动物分类学报

阅读(33)

本文为您介绍动物分类学报,内容包括动物分类的文献综述,经济动物学报。拟小豆螺属一新种记述(中腹足目,盖螺科)程由注吴小平李莉莎(896)

学习

19世纪浪漫主义文学“世纪病”形象初探

阅读(23)

本文为您介绍19世纪浪漫主义文学“世纪病”形象初探,内容包括18世纪浪漫主义文学作品,19世纪外国文学浪漫主义脉络整理。19世纪法国浪漫主义作家由于对现实的强烈不满,把人的精神生活看得至高无上,偏重表现主观理想,抒发强烈的个人情感。主

学习

冷冻鱼糜生产工艺改进之法

阅读(26)

本文为您介绍冷冻鱼糜生产工艺改进之法,内容包括冷冻鱼糜生产过程,冷冻鱼糜生产中漂洗工序的重要性。摘要鱼糜生产旧工艺中漂洗槽的连续漂洗和回旋筛的预脱水将会流失掉大量的水溶性蛋白质和固形物,新工艺采用管道化一次漂洗的方法,并用

学习

对子君与涓生的爱情分析

阅读(28)

本文为您介绍对子君与涓生的爱情分析,内容包括涓生与子君的爱情悲剧的原因分析,对子君和涓生的爱情的理解。摘要:子君和涓生的爱情以悲剧告终,读之让人扼腕叹息。那么,二人悲剧的真正原因是什么?表面看都是同居惹的祸。实际上是由于二人相爱

学习

现代篮球运动中的体育美

阅读(28)

摘要:篮球运动是一项技巧与力量、集体和个人智慧相结合,高强度激烈对抗的体育竞赛项目。它己成为影响力仅次于足球的“第二体育运动”,其原因之一在于篮球本身巨大的美学欣赏魅力。本文通过对篮球美学特征分析,以进一步提高篮球的审美和观赏

学习

文昌琼海万宁人文化精神等

阅读(24)

海南人的文化精神是“海”:豁达、包容,率真。海南岛大海摩荡于外,人们心胸开阔,坦率真诚。古代忠国勤王的君民,以博大的情怀接受了流放来的臣吏,并建起五公祠。

学习

中国古典诗歌意象概念

阅读(16)

本文为您介绍中国古典诗歌意象概念,内容包括古典诗歌的意象有哪些,中国古典诗歌的意象和情感。摘要:“意象”概念在中国源远流长。西方的“意象”概念与中国有很多不同,尤其是西方理论话语中的意象概念。本文对二者作一比较,以审美的眼光探

学习

站立作文1000字

阅读(17)

本文为您介绍站立作文1000字,内容包括站立为题的作文,站立作文800字初三。站立是一种姿势,也是一种信念。—题记灾难2008年5月12日14时28分,这个让世界为之一颤的时刻。大地强烈晃动,黄沙滚滚,滑坡,泥石流,倒塌声,呼救声,尖叫声夹杂在一起,那一瞬

学习

现代汉语介词的语义功能与重要作用

阅读(117)

本文为您介绍现代汉语介词的语义功能与重要作用,内容包括现代汉语介词的使用和规范,汉语介词的语义特征。摘要:中国汉语博大精深,虽然介词的数量在汉语的词类系统中占有非常轻的地位,但是介词在使用上却是语法极为重要的组成部分,所以本文选

学习

数的概念——语义、语法及语用

阅读(26)

本文为您介绍数的概念——语义、语法及语用,内容包括数的语法意义,数与符号的内容理解。摘要:数的概念在不同的语言系统中会有不同的表现形式,具备原子概念的功能,体现一定的语法意义,并表现出模糊或清晰的语用化倾向。在实际言语交际过程中

学习

东北方言后缀“巴”的语义研究

阅读(341)

本文为您介绍东北方言后缀“巴”的语义研究,内容包括东北方言程度副词老字的研究,方言词汇研究。摘要:东北方言的后缀十分丰富,本文以东北方言后缀“巴”为研究对象,从《东北方言大词典》中收取带后缀“巴”的词语44个,对其进行语义研究和语

学习

可视化技术简述

阅读(27)

本文为您介绍可视化技术简述,内容包括可视化简述模板,简述可视化编程。摘要:可视化理论历经二十多年的发展,形成了众多的方法和技术,每一种分类方法都难以概其全貌。《可视化简述》从现有的分类方法入手,介绍每一种分类方法的特点,帮助读者厘

学习

语义翻译和交际翻译的区别

阅读(28)

本文为您介绍语义翻译和交际翻译的区别,内容包括交际翻译和语义翻译的区别论文,语义翻译与交际翻译属于什么。对于翻译标准,古今中外的提法颇多,直译、意译、泰特勒的三原则、严复的信达雅,五花八门。英国翻译理论家纽马克认为,翻译标准必须

学习

店名“X吧”的语义发展探析

阅读(16)

摘要:“X吧”是西方引进的新式店名,如今使用的领域相当广泛,对它的研究正在逐渐增多,但仅局限在其语法特征,以及“X吧”逐渐泛化的方法,并且对它吸收快的特点的解释仅停留在人们求新求异的层面上,没有展开。文章旨在分析新词“X吧”中涉及的“