WordNet应用问题研究

【摘 要】本文介绍WordNet的来源与发展,阐述以半自动方法设计WordNet,讨论了意义排歧过程的复杂性,最后展望WordNet的发展趋势与应用。

【关键词】语义;本体;同义词;排歧

0.引言

随着信息技术的发展,对电子计算机依赖的群体越来越大,更多的人都希望自己编写的自然语言能够与计算机直接对话,而实际上要使计算机能够接受这些自然语言或者伪代码,必须让计算机本身具备语法、语义、词法、句法等语境,而词汇语义的构建就是基于WordNet的,WordNet一直是知识工程研究的重点,下面对它分别做一些分析和讨论。

1.WordNet的来源与发展

WordNet[1]原本是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是把单词以字母排列顺序为原则,而是基于心理学和语言学的数据库,组织形式是用户在认知过程中所表现出的义类原则即词以义聚,按照单词的意义组成一个“单词的网络”。 它是一个覆盖范围宽广的英语词汇语义网,以一种“网“的形式来描述词语的意义,可以是利用语义成分表示语义[2],也可以是利用关系表示语义,比如:“碗”(bowl)和“餐具”(tableware)代表两个节点(node),而这两个节点之间有一个箭头(dart)来表示这样的命题:碗是一种餐具(a bowl is a kind of tableware),即“Is-A-KIND-OF”这样的语义关系 , 名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,即在词的形式和意义之间建立起映射关系(mapping)用于描述词汇矩阵,并且这些集合之间也由各种关系连接。一个多义词就有可能出现在它的每个意思的同义词集合中,对于这样一个复杂的词库该如何创建呢,是手工编制还是机器自动生成,选择手工构建词典的优点之一是便于创建更为丰富的词条信息;其次是便于控制,下面我们将阐述以非手动的方式来设计WordNet。

2.半自动方法设计WordNet

人工编制显然工程浩大,必然时间长,要花费大量的人力、物力、财力,而对于机器完全自动生成,就是让机器本身***判断一个个的概念,准确的定位各种关系,这样产生的结果往往是准确性不高,在目前多方面受限制的前提下可以试着以本体半自动的设计方法。

在设计方法前先讲述“本体”和“关系”概念。

本体:本体目前还没有规范化的统一定义,它是一种概念模型的明确规范说明,而这个概念模型又是共享的,它主要表达了四个方面的含义:概念模型、明确、形式化、共享。概念模型指通过抽象出客观世界中一些现象的相关概念而得到的模型;明确是指所使用的概念及使用这些概念的约束都有明确的定义;形式化指必须是计算机可读的;共享指概念模型所体现的是共同认可的知识,反映的是相关领域中公认的概念集。

关系:Hypernyms关系表达的是目标词汇作为实体的隶属关系,表示目标词汇与上类词汇是一种a kind of 关系。

Holongms关系表达的是目标词汇作为一部分所隶属的上位关系,表示目标词汇与上系词汇是一种 a part of 关系。

Meronyms关系表达的是目标词汇作为一个实体的一个部分,表示下位词与目标词汇的是一种a part of 关系。

Coordinate terms关系表达的是哪些与目标词汇有相同上类词的词汇,表示的是同族关系;

Troponyms关系表达的是目标词汇的近义词,表示的是近义关系。

Antonyms关系表达的是与目标词汇相反的关系。表示的是反义关系。

2.1抽取核心子本体、扩展、编辑以达到完善本体的方法

以领域数据字典为依据,从wordnet中抽取一个子本体,从wordnet抽取world本体核心概念为示例,这个过程其实就是一个概念发现的过程,必须有本体雏形作为抽取子本体的基础,也就是通常所说的middle-out方法;在抽取出的子本体基础上,对其进行扩展与分析,wordnet是一部同义词典,其有jwordnet和JWNL API作为词典的访问函数,wordnet只具有上下位等关系,没有objectproperty这种关系,概念可以抽取出来,关系的获取还有一定的困难,通过抽取出的种子概念的相关概念为候选概念,利用种子概念与候选概念出现的概率,运用语料库推算两种子紧密度,以此确认候选概念是否扩展到本体中,wordnet获取本体其实已经获取了本体的关系,而无分类关系的可利用的方法是关联规则挖掘法;最后用可视化工具protégé处理,这也是目前应用最广泛的本体编辑工具[3]。

2.2其它方法简述

上述的方法是基于语义字典的生成本体的方法,其实生成本体的方法也可以基于文本甚至是基于知识库的,如果是基于文本的话可以利用聚类算法把相关词集合在一起,选择使用频率高的词代表这个类,而基于知识库的则是先构建知识库,运用知识库已有的规则组合小型本体,运用的方法是自然语言处理、统计分析、数据挖掘等等。

3.意义排歧过程的复杂性

构建的wordnet由于是作为语义知识创建的,几乎没有句法信息,它是用同义词的集合体表达词汇的概念,并描述词汇的矩阵,即在词性与意义上建立起了一一对应,在一篇文章中,取某一个多义词的意义的排歧的过程却是相当的复杂,只有通过内部结构本身利用概念密度加以计算才能排歧,使用目标周围的词来确定本词的意义,一般说来主要有三种方法可以实现[4、5]。

方法一,通过选择约束性规则来确定词汇在文章的不同位置的词义进行选择,可以是选择性限定规则(selectional restriction)、决策树(decision trees)、决策表(decision lists)等,当然这一定性的方法在理论上依赖语言学知识库的,实际操作构建这个知识库并不是意见简单的事。

方法二,通过统计每个词汇候选词汇在文章出现的概率权值,这种基于定量的方法,是将最大概率权值的词汇作为结果,可能是***于语言学的,局限性是统计数据稀梳是基于带标语的人工构造获取知识。

方法三,将方法一与方法二结合起来,主要依靠的是统计学算法处理文字的文本切分和词性标注问题,可以是根据语言学对词汇进行首次划分,再应用统计学的算法进行二次划分,推算段落起点终点。

4.WordNet的发展趋势与应用

说到底,wordnet的构建还是需要创建一个知识库,包含无数的概念的,但在关系上很难顺利进行直接推理,比如:在饥饿(hungry)与厨房(kitchen)之间存在一条路径,因为这两个词在食物(food)这个节点上有碰撞,从而可以把饥饿(hungry)与厨房(kitchen)间接联系在一起进行常识判断。对于wordnet的更深层次的研究与应用还是很有意义的,尽最大的可能去解决语意分类的全球化处理与众多的词义排歧,力求全局范围内准确的处理语言信息,在未来的发展上检索方式正朝着越来越多的方向发展,对于模糊检索、同义检索更是方便用户,真正做到以语义为本体,聚集与词目在语义关联的所有词汇,实现以词为中心的、发散式的、描述词目所有基本语义关系的语义网络集。 [科]

【参考文献】

[1]梁健,吴丹.种子概念方法及其在基于文本的本体学习中的应用[J].***书情报工作,2006,50(9):l8-21.

WordNet应用问题研究

转载请注明出处学文网 » WordNet应用问题研究

学习

学习英语 体验英语

阅读(24)

“体验式”的英语学习观是对当今以“分析”、“训练”为特征的英语教育异化的一种反拨。本文从课堂教学、英语活动、>>在情感体验中学习英语多元英语作业体验学习快乐激发英语学习兴趣之教学体验引导学生用心体验英语学习乐趣浅谈在学习

学习

能饮一杯无

阅读(34)

本文为您介绍能饮一杯无,内容包括能饮一杯无全文阅读,能饮一杯无全文阅读txt。气温骤降,连日来霖雨连绵,空气中弥漫着阴潮的味道,心都湿透了。即使我这个平日最喜欢绵绵细雨的人,心也不由得紧蹙成一团,忽想到白居易的《问刘十九》:“绿蚁新醅

学习

做好事应不应该留名

阅读(55)

本文为您介绍做好事应不应该留名,内容包括做好事应不应该留名辩论赛,做好事应不应该留名辩论总结。不能给做好事、行善积德披上高尚道德的外衣,不能把他们放在道德的神坛上来敬拜,我们需要“勿以善小而不为”的哪怕一个微笑,需要聚光灯下那

学习

“黑钱”是怎样“洗白”的

阅读(29)

在家里用洗衣机把衣兜里的钱洗了一遍,至多只能算“事故”;而被定性为非法活动的“洗钱”,洗的必须是非法的“黑钱”。我国刑法第一百九十一条规定,洗钱罪中的“黑钱”特指“犯罪、黑社会性质的组织犯罪、恐怖活动犯罪、走私犯罪、贪污贿赂犯

学习

围棋“人机大战”AI获胜,我们应该欢呼而不是惊呼

阅读(33)

人类遭到没有血肉、没有表情、毫不疲倦的AlphaGo的无情碾压。在这场世人瞩目的围棋人机大战中,人类围棋顶尖高手李世石以1:4的成绩弃子认输。赛前,咱们不是都讨论好了吗,AlphaGo是绝对战胜不了人类的,怎么成了如今1:4落后的局面呢?信心饱满、情

学习

平兴寺 隔世律宗

阅读(30)

张爱玲数度寻访弘一法师不见后说的话:“不要认为我是个高傲的人,我从来不是的,至少,在弘一法师寺院的围墙外面,我是如此的谦卑。”在太姥山诸多名寺中,平兴寺的历史可谓是最短的。半个世纪前。这里还是一处茶场,十余名僧人于此结茅而住,垦荒种植

学习

数据管理上上策

阅读(32)

在数据增长的早期就减少数据的存储量,同时利用先进的技术提高资源利用率,是企业进行数据管理之上策。美国“次贷危机”给全球金融带来的影响正愈演愈烈,也影响着中国各行业的经济秩序。面对此次的国际金融危机,中国IT产业的发展也面临着巨大

学习

浅谈企业管理中的“顶端优势”现象

阅读(40)

[摘要]“顶端优势”是植物学名词,它是指植物顶芽会抑制侧芽生长的现象。在企业管理中也同样存在这种现象,处在优势的实权部门会抑制其它相关职能部门的发展;处于权力顶端的人往往抑制着处于下端的职权;处于优势的核心产品也会抑制其它产品的

学习

浅谈筝曲《雪山春晓》

阅读(22)

本文为您介绍浅谈筝曲《雪山春晓》,内容包括雪山春晓古筝版完整版,雪山春晓筝曲解析。摘要:《雪山春晓》是古筝演奏家、教育家范上娥、格桑达吉创作的古筝独奏曲。作者通过古筝传统与现代一些演奏手法,表达了人民对家乡的无比热爱和美好

学习

中国古代刑法“八议”制度专题研究

阅读(42)

本文为您介绍中国古代刑法“八议”制度专题研究,内容包括中国古代刑法重要制度,八议制度最早规定在哪部法律中。【摘要】本文梳理了“八议”制度在封建时代规定的发展历程,论述了不同的朝代施行这一制度所体现的不同特点,对其在整个中国法

学习

不同财产关系对家庭关系的影响

阅读(23)

摘要本文采用以小见大的手法,通过土地文书对家庭财产关系所形成的各种影响来看一个社会明确产权的重要。文章以徽州文书中的土地文书为研究对象,主要通过财产处理的几种方式:分产、赠与和买置,来反映家族内部的各种关系。关键词土地文书

学习

我的情绪我作主

阅读(27)

本文为您介绍我的情绪我作主,内容包括我的情绪我作主手抄报,我的情绪我作主心理健康心得体会。关键词:情绪;快乐;调节【活动目标】1.认知目标:提高学生情绪认知能力,了解不良情绪的影响,感知情绪的来源,知道“不同的想法会产生不同的情绪”,了解

学习

4起事件 第15期

阅读(25)

当今,我国查办的腐败案件中,有很多依靠群众举报线索。举报在司法价值中具有不可缺失性。但由于我国保护举报人法律不完善,实名举报遭遇打击的事件时有发生。李文娟:举报英雄被判劳教一年今年43岁的李文娟,大学文化,1983年进入鞍山市国税局工作

学习

茶山瑶“香哩歌”初探

阅读(24)

[摘要]“香哩歌”是流传于瑶族民间的歌谣题材之一。它是生活在广西金秀大瑶山的茶山瑶人民世代相传的产物。“香哩”原为瑶语的译音,也可以是歌唱者对对方的称呼。歌曲的首末句经常以“香哩”为结束音,故“香哩歌”以此得名。“香哩歌”经

学习

河南林州四股弦的研究现状与理论思考

阅读(26)

四股弦是流行于豫北、冀南、鲁西、晋东一带的地方剧种,从能找到的历史文献来看,迄今为止对它的研究为数不多。林州四股弦戏曲从诞生到现在已经200多年的历史。近几年来,由于社会的发展和文化语境的变化,人们对戏曲的审美需求发生巨大改变,在

学习

品牌服装选择销售渠道的策略研究

阅读(40)

本文为您介绍品牌服装选择销售渠道的策略研究,内容包括服装销售渠道有哪些,品牌服装市场营销策划方案。[摘要]本文通过阐述销售渠道的重要性,分析国内品牌服装销售渠道的现状和销售渠道在选择时的主要影响因素,给出对国内品牌服装选择销售

学习

新媒体互动式广告研究

阅读(36)

新媒体技术的革新发展,对广告及广告业产生了前所未有的影响。广告及广告业的发展也面临着网络化、数字化转型问题。以互动式发展趋势的广告已经成为广受关注的当代广告问题。关键词:互动;新媒体;广告;交互设计如今不同领域、学科已相互合作,设

学习

角色扮演在幼儿教育中的应用研究

阅读(21)

角色扮演可以锻炼儿童的社会,培养儿童与人交流的能力与合作能力,使儿童在角色扮演中通过对角色的认知和演绎,理解角色人物的心情以及应该承担的相应责任,对于构建儿童的思想观和价值观具有初步的引导作用,是一种对儿童社会化行为具有有效指引

学习

造纸厂废水处理技术的研究

阅读(21)

随着经济社会的发展,我国造纸工业发展速度迅猛,与此同时带来的环境污染也成为社会关注的焦点。本文列出了造纸厂废水的来源、特点和我国废水的处理现状,并针对这些基本情况,研究了造纸厂废水处理的措施,仅供参考。关键词:造纸厂;废水处理;技术Ab

学习

可行性研究中的选址研究

阅读(32)

本文通过一个具体的高校选址例子,来探究可行性研究中的哪些因素会影响新校区的选址。同时,也分析这些因素会对这个项目的初步方案形成什么样的结果。本文首先阐述了一些项目选址的理论基础。其次,考察了一些选址问题的背景,并与新校区选址有

学习

《文选》行旅诗研究

阅读(21)

作者简介:邓伟月,广西师范大学文学院硕士,研究方向:中国古代文学唐宋文学研究。《文选》行旅诗共收录十一位诗人三十五首诗,行旅诗如实地记录了诗人的宦途历程,也真切地反映了诗人生命的忧思远志。从收录的诗人数来看,行旅诗仅次于杂诗、赠答和

学习

公园及广场铺装设计方案研究

阅读(34)

本文为您介绍公园及广场铺装设计方案研究,内容包括公园广场铺装火烧板,二乔公园广场铺装效果。【摘要】公园和广场是城市中人们可以休息和进行集会活动的场所,通过公园和广场也可以看出城市的文化和经济发展状况;因为它可以将城市的文化和