【摘 要】本文介绍WordNet的来源与发展,阐述以半自动方法设计WordNet,讨论了意义排歧过程的复杂性,最后展望WordNet的发展趋势与应用。
【关键词】语义;本体;同义词;排歧
0.引言
随着信息技术的发展,对电子计算机依赖的群体越来越大,更多的人都希望自己编写的自然语言能够与计算机直接对话,而实际上要使计算机能够接受这些自然语言或者伪代码,必须让计算机本身具备语法、语义、词法、句法等语境,而词汇语义的构建就是基于WordNet的,WordNet一直是知识工程研究的重点,下面对它分别做一些分析和讨论。
1.WordNet的来源与发展
WordNet[1]原本是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是把单词以字母排列顺序为原则,而是基于心理学和语言学的数据库,组织形式是用户在认知过程中所表现出的义类原则即词以义聚,按照单词的意义组成一个“单词的网络”。 它是一个覆盖范围宽广的英语词汇语义网,以一种“网“的形式来描述词语的意义,可以是利用语义成分表示语义[2],也可以是利用关系表示语义,比如:“碗”(bowl)和“餐具”(tableware)代表两个节点(node),而这两个节点之间有一个箭头(dart)来表示这样的命题:碗是一种餐具(a bowl is a kind of tableware),即“Is-A-KIND-OF”这样的语义关系 , 名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,即在词的形式和意义之间建立起映射关系(mapping)用于描述词汇矩阵,并且这些集合之间也由各种关系连接。一个多义词就有可能出现在它的每个意思的同义词集合中,对于这样一个复杂的词库该如何创建呢,是手工编制还是机器自动生成,选择手工构建词典的优点之一是便于创建更为丰富的词条信息;其次是便于控制,下面我们将阐述以非手动的方式来设计WordNet。
2.半自动方法设计WordNet
人工编制显然工程浩大,必然时间长,要花费大量的人力、物力、财力,而对于机器完全自动生成,就是让机器本身***判断一个个的概念,准确的定位各种关系,这样产生的结果往往是准确性不高,在目前多方面受限制的前提下可以试着以本体半自动的设计方法。
在设计方法前先讲述“本体”和“关系”概念。
本体:本体目前还没有规范化的统一定义,它是一种概念模型的明确规范说明,而这个概念模型又是共享的,它主要表达了四个方面的含义:概念模型、明确、形式化、共享。概念模型指通过抽象出客观世界中一些现象的相关概念而得到的模型;明确是指所使用的概念及使用这些概念的约束都有明确的定义;形式化指必须是计算机可读的;共享指概念模型所体现的是共同认可的知识,反映的是相关领域中公认的概念集。
关系:Hypernyms关系表达的是目标词汇作为实体的隶属关系,表示目标词汇与上类词汇是一种a kind of 关系。
Holongms关系表达的是目标词汇作为一部分所隶属的上位关系,表示目标词汇与上系词汇是一种 a part of 关系。
Meronyms关系表达的是目标词汇作为一个实体的一个部分,表示下位词与目标词汇的是一种a part of 关系。
Coordinate terms关系表达的是哪些与目标词汇有相同上类词的词汇,表示的是同族关系;
Troponyms关系表达的是目标词汇的近义词,表示的是近义关系。
Antonyms关系表达的是与目标词汇相反的关系。表示的是反义关系。
2.1抽取核心子本体、扩展、编辑以达到完善本体的方法
以领域数据字典为依据,从wordnet中抽取一个子本体,从wordnet抽取world本体核心概念为示例,这个过程其实就是一个概念发现的过程,必须有本体雏形作为抽取子本体的基础,也就是通常所说的middle-out方法;在抽取出的子本体基础上,对其进行扩展与分析,wordnet是一部同义词典,其有jwordnet和JWNL API作为词典的访问函数,wordnet只具有上下位等关系,没有objectproperty这种关系,概念可以抽取出来,关系的获取还有一定的困难,通过抽取出的种子概念的相关概念为候选概念,利用种子概念与候选概念出现的概率,运用语料库推算两种子紧密度,以此确认候选概念是否扩展到本体中,wordnet获取本体其实已经获取了本体的关系,而无分类关系的可利用的方法是关联规则挖掘法;最后用可视化工具protégé处理,这也是目前应用最广泛的本体编辑工具[3]。
2.2其它方法简述
上述的方法是基于语义字典的生成本体的方法,其实生成本体的方法也可以基于文本甚至是基于知识库的,如果是基于文本的话可以利用聚类算法把相关词集合在一起,选择使用频率高的词代表这个类,而基于知识库的则是先构建知识库,运用知识库已有的规则组合小型本体,运用的方法是自然语言处理、统计分析、数据挖掘等等。
3.意义排歧过程的复杂性
构建的wordnet由于是作为语义知识创建的,几乎没有句法信息,它是用同义词的集合体表达词汇的概念,并描述词汇的矩阵,即在词性与意义上建立起了一一对应,在一篇文章中,取某一个多义词的意义的排歧的过程却是相当的复杂,只有通过内部结构本身利用概念密度加以计算才能排歧,使用目标周围的词来确定本词的意义,一般说来主要有三种方法可以实现[4、5]。
方法一,通过选择约束性规则来确定词汇在文章的不同位置的词义进行选择,可以是选择性限定规则(selectional restriction)、决策树(decision trees)、决策表(decision lists)等,当然这一定性的方法在理论上依赖语言学知识库的,实际操作构建这个知识库并不是意见简单的事。
方法二,通过统计每个词汇候选词汇在文章出现的概率权值,这种基于定量的方法,是将最大概率权值的词汇作为结果,可能是***于语言学的,局限性是统计数据稀梳是基于带标语的人工构造获取知识。
方法三,将方法一与方法二结合起来,主要依靠的是统计学算法处理文字的文本切分和词性标注问题,可以是根据语言学对词汇进行首次划分,再应用统计学的算法进行二次划分,推算段落起点终点。
4.WordNet的发展趋势与应用
说到底,wordnet的构建还是需要创建一个知识库,包含无数的概念的,但在关系上很难顺利进行直接推理,比如:在饥饿(hungry)与厨房(kitchen)之间存在一条路径,因为这两个词在食物(food)这个节点上有碰撞,从而可以把饥饿(hungry)与厨房(kitchen)间接联系在一起进行常识判断。对于wordnet的更深层次的研究与应用还是很有意义的,尽最大的可能去解决语意分类的全球化处理与众多的词义排歧,力求全局范围内准确的处理语言信息,在未来的发展上检索方式正朝着越来越多的方向发展,对于模糊检索、同义检索更是方便用户,真正做到以语义为本体,聚集与词目在语义关联的所有词汇,实现以词为中心的、发散式的、描述词目所有基本语义关系的语义网络集。 [科]
【参考文献】
[1]梁健,吴丹.种子概念方法及其在基于文本的本体学习中的应用[J].***书情报工作,2006,50(9):l8-21.
转载请注明出处学文网 » WordNet应用问题研究