摘要:基于UMLS的医学资源库的搜索模块通过将搜索关键词的映射到UMLS超级叙词表中相关概念的词串,经过“OR”运算,进行语义扩展的搜索。可以提高查准率和查全率。可以使用MetaMap映射工具,也可以直接访问超级叙词表;可以采用本地数据访问和使用WEB服务两种方式的系统架构来访问UMLS。
关键词:UMLS;资源库;语义扩展;搜索
中***分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)01-0163-03
1 医学资源库的知识组织及检索的不足
在医学资源库中,资源以视频、音频、动画、文档、PPT、积件等多媒体形式存在。资源入库必须以人工标注的方式进行元数据标注。传统的医学资源库的资源检索采用的是关键词匹配。有的检索系统会在关键词匹配的基础上增加类别限制、时间限制、作者限制等范围限制来提高搜索的精确性。但是语言常常具有多义性、同义性、模糊性,比如Aspirin(阿司匹林)和Acetylsalicylic acid(乙酰水杨酸)、Cancer(癌症)和Malignant of neoplasm(恶性肿瘤)、Scar(伤疤)和Cicatrix(疤痕)分别都是同义词,但是各自都是完全不同的关键词。所以按照关键词搜索不可避免的会影响搜索的查全率和查准率。
在生物医学领域中,名词和术语比较多,一词多义现象和多词一义现象很多。除此之外,还有大量的术语之间的语义联系,比如词的上下位关系,关联关系,难以通过关键词搜索表现出来。所以,在搜索模块中,有必要引入一个生物医学领域统一的可控术语表,进行语义扩展的搜索。
2 UMLS(一体化医学语言系统)及其语义网络介绍
一体化医学语言系统 (Unified Medical Language System,UMLS),由美国国立医学***书馆(NLM)研制并维护。UMLS是生物医学概念所构成的一部广泛全面的叙词表和本体,是对生物医学科学领域内许多受控词表的一部纲目式汇编。UMLS提供的是一种位于这些词表之间的映射结构,使这些不同的术语系统之间能够彼此转换。 UMLS主要由超级叙词表、语义网络、专家词典三个组件构成。
超级叙词表是UMLS的基础。是由来自各种受控词表的概念和术语以及它们之间的关系所构成的集合; 超级叙词表中收录100多万个生物医学概念和500多万个概念名称。概念源自UMLS收录的100多部受控词表和分类系统。
超级叙词表之中的每个概念都指定有至少一种“语义类型(Semantic type)”。某些“语义关系”可以存在于多种语义类型的成员之间。语义网络正是这些语义类型和语义关系所构成的一种网络式目录。这是一种相当宽泛的分类;目前,其中共计有135种语义类型和54种语义关系。
3 基于UMLS的医学资源库语义搜索系统架构
利用UMLS做语义扩展恰好能弥补资源搜索中关键词匹配种种局限。因此,该文设想在医学资源库的搜索模块中将UMLS的超级叙词表作为搜索模块的后控词表。UMLS本身提供了SKR(语义知识表达)工具,可以以交互模式和批处理模式两种进行自然语言处理。其中,MTI (Medical Text Indexer)可以进行文章的自动标引;MetaMap用来将自由词映射到UMLS超级叙词表中的词汇;SemRep用来提取生物词汇和短语中的语义类型。UMLS提供了WEB API来访问这三个工具,也可以***这些工具的安装程序本地安装使用。在这些工具中,MetaMap是SKR工具的核心,可以作为用户和超级叙词表之间的桥梁。
除了上述工具以外,UMLS的超级叙词表和语义网络中的数据可以通过两种方式直接访问,一种是安装MetamophorSys程序,同时将词表文件及语义关系文件***到本地,导入到MySQL数据库或者Oracle数据库,使用UMLS提供的JAVA API进行本地访问;另一种是通过SOA服务访问,UMLS提供了WEB服务访问的接口,可以使用JAVA API基于WEB服务接口访问,实现基于服务的系统架构。
综合以上分析,基于UMLS的医学资源库的搜索模块可以有四种形式的架构:(1)***安装MetaMap映射工具,使用JAVA API访问本地MetaMap程序来使用超级叙词表;(2)使用WEB API访问MetaMap WEB服务来使用超级叙词表;(3)安装MetamophorSys程序,使用JAVA API直接访问超级叙词表;(4)使用美国国立***书馆提供的WEB API直接访问UMLS的WEB服务。。该文以使用MetaMap映射工具为例给出基于UMLS的搜索的流程,如***1所示。
4 基于UMLS的搜索效果分析
下面对基于UMLS的搜索结果进行理论分析,以术语“lung cancer(肺癌)”的搜索为例。
1) 使用MetaMap工具映射到超级叙词表,其搜索流程如***2所示。
MetaMap的自动文本映射主要步骤有文本解析、变量产生、入选叙词、对入选叙词赋值、映射构造。在入选虚词赋值这一步骤中,MetaMap基于向心度、变异度、覆盖度、和内聚性四个因素进行综合考虑,每个因素按照不同的权值进行计算,计算结果在0到1000以内,1000表示最佳匹配。Lung cancer经过MetaMap的映射结果如下:
Meta Candidates (Total=13; Excluded=5; Pruned=0; Remaining=8)
1000 Lung Cancer (Malignant neoplasm of lung) [Neoplastic Process]
1000 LUNG CANCER (Carcinoma of lung) [Neoplastic Process]
861 Cancer (Malignant Neoplasms) [Neoplastic Process]
861 Lung [Body Part, Organ, or Organ Component]
861 LUNG (Structure of parenchyma of lung) [Tissue]
861 Cancer (Cancer Genus) [Eukaryote]
861 Lung (Entire lung) [Body Part, Organ, or Organ Component]
861 Cancer (Primary malignant neoplasm) [Finding]
805 E Pulmonary (Pulmonary:-:Point in time:^Patient:-) [Clinical Attribute]
805 E Pulmonary (Pulmonary (qualifier value)) [Qualitative Concept]
768 E Pneumonia [Disease or Syndrome]
768 E Pulmonary Arteries (Pulmonary artery structure) [Body Part, Organ, or Organ Component]
768 E Pulmonary artery (Entire pulmonary artery) [Body Part, Organ, or Organ Component]
我们可看到,系统给出13个候选的叙词,其中前两个,“Malignant neoplasm of lung”和“Carcinoma of lung”是最佳匹配。我们也可以选择将最佳匹配的词做“OR”运算,最终lung cancer的搜索转换成[lung cancer] OR [Malignant neoplasm of lung] OR [Carcinoma of lung]。很明显,这样可以增加搜索的查全率和查准率。
***2
2) 直接查询UMLS超级叙词表。
直接搜索超级叙词表有几种方式,有词匹配、精确匹配、模糊匹配等。在词匹配的方式中,lung cancer除了匹配“Malignant neoplasm of lung”和“Carcinoma of lung”以外,还在语义上包含了很多上位关系词、下位关系词、相关关系词、同义关系词等。
RO | | MTH | Carcinoma of lung | C0684249
RO | | MTH | Neoplasm, uncertain whether benign or malignant | C0677041
RO | | MTH | Carcinoma, Small Cell | C0262584
RO | | MTH | Malignant neoplasm lung: [of bronchus or lung NOS] or [lung cancer] | C1578781
RB | | MTH | Squamous cell carcinoma of bronchus | C1314696
RO | | MTH | respiratory | C0521346
RB | | MTH | Bronchogenic Carcinoma | C0007121
RB | | MTH | Non-Small Cell Lung Carcinoma | C0007131
RB | | MTH | Adenocarcinoma of lung (disorder) | C0152013
RN | | MTH | Respiration Disorders | C0035204
RN | | MTH | Respiratory Tract Diseases | C0035242
RB | | MTH | Metastatic Carcinoma to the Lung | C0238254
RB | | MTH | Lung cancer stage unspecified (excl metastatic tumours to lung) | C0852936
RN | | MTH | Neoplasms | C0027651
RB | | MTH | Small cell carcinoma of lung | C0149925
RO | | MTH | Malignant neoplasm of bronchus or lung, unspecified | C0348343
RO | | MTH | Pulmonary Lunatism | C0815311
RO | | MTH | lung or tumor neoplasm | C0815116
RB | | MTH | Primary malignant neoplasm of lung | C1306460
RN | | MTH | Lung Neoplasms | C0024121
很明显,词匹配方式可以更加增加系统的查全率,但是查准率有时候会有一定程度的下降,因为用户有的时候希望的是精确匹配,只要求同义词而并不要求语义的向上、向下以及关联的扩展。而精确匹配的结果就和使用MetaMap最终映射的结果是一样的,各种模式可以由系统开发人员决定,灵活性更高。
3) 基于Pubmed搜索引擎进行语义扩展搜索、主题词搜索、关键词搜索三种模式的搜索效果比较。选取疾病类、药物类的术语进行实验,选取“lung cancer”、“antibiotics”,“scar”,“gastric ulcer”, “acetylsalicylic acid”,“rash”,“insomnia”几个术语。分别在搜索细节里改变搜索的模式,例如,“scar”在语义扩展搜索中,最终搜索的形式是"cicatrix"[MeSH Terms] OR "cicatrix"[All Fields] OR "scar"[All Fields];在关键词搜索中,最终搜索的形式是"scar"[All Fields];而在主题词搜索模式中,最终的搜索形式是"scar"[All Fields]。三种模式搜索结果如表1:
表1
[检索词\&UMLS\&MeSH\&关键字\&lung cancer\&229725\&166485\&146230\&antibiotics\&589945\&256320\&160775\&scar\&49422\&29287\&27421\&gastric ulcer\&53158\&23370\&41206\&acetylsalicylic acid\&55029\&37073\&8046\&rash\&21427\&4494\&17674\&insomnia\&15205\&8489\&11937\&]
从上述搜索结果可以看到,基于UMLS的语义扩展搜索结果明显要比基于医学主题词和关键词搜索要多,可以明显提高搜索的查全率。而基于医学主题词和基于关键词的搜索结果各有优势,原因是医学语言中大量的同义词和近义词存在,标引人员的选择不同造成了标注的词不同。
5 总结
利用UMLS提供的MetaMap工具访问超级叙词表和直接访问超级叙词表都可以进行医学资源库的语义扩展查询,理论上可以增强查准率和查全率。使用本地程序访问和使用WEB API访问各有利弊,本地程序访问可以提高速度,但词表需要手动更新,利用WEB API通过WEB服务访问可以简化本地的配置,并且数据是实时更新的。同时,基于SOA的粗粒度系统模型减少了开发人员的工作量,减少了程序模块之间的耦合度,增加医学资源库系统本身的灵活性和***性。
参考文献:
[1] 白海燕,王莉,梁冰.UMLS及其在智能检索中的应用[J].现代***书情报技术,2012(4).
[2] 邱君瑞.论一体化医学语言系统(UMLS)知识表达的语义学特点[J].中华医学***书情报杂志,2002(7).
[3] 赵沛沛,谢竞博,王国.基于UMLS和Lucene的集成检索模型[J].计算机科学,2010(10).
[4] 李丹亚,胡铁***,李亚子.UMLS多词表整合机制研究[J].数字***书馆论坛,2012(4).
[5] 董小芸.于一体化医学语言系统(UMLS)的语义检索实验研究[D].上海大学,2005.
[6] 王孝宁,陈海青,崔雷.利用MetaMap 抽取科研项目概念分析学科领域研究热点的尝试[J].中国医学科研管理杂志,2008(6).
[7] 张晗,任志国,于倩,等.基于UMLS医学本体的挖掘文献间的潜在联系的设计与实现[J].现代***书情报,2007(9).
[8] http://skr.nlm.nih.gov/interactive/index.shtml.
[9] http:///wiki/UMLS.
转载请注明出处学文网 » 基于UMLS的医学资源库语义扩展检索系统架构