摘要:《现代汉语语义分类词典》继承了《同义词词林》概念分类的传统,以反映一个社会的生活全貌及认识观念的概念关系为目的,收录了8万余条现代汉语通用性较高的语文词语,建构出了一个五级语义分类体系,里面包括9个一级类,62个二级类,518个三级类,2 076个四级类,12 613个五级类。所建构的义类关系,注重上位语义层对下位语义层有较强控制力,下位语义层对上位语义层的义域能全面覆盖,左右语义类具有互补对应的功能。
关键词:计算机应用;中文信息处理;语义分类词典;词汇系统;主题词
中***分类号:TP391
文献标识码:A
《现代汉语语义分类词典》(TMC)(A Thesaurus of Modern Chinese)就要出版了。它的研制经历前后长达四五年的时间,作者愿意在这里对一些问题谈谈自己长期思考但未见得成熟的认识,以求教于大家。
1、回顾
当代汉语词汇研究中,注重词汇整体性问题已经成为一个趋势。词汇的整体性问题不少,如词汇总量、词汇构成、词汇分层分级、词汇来源、词汇演变、词汇的语法化与语法的词汇化等,最引人注目之一大概要算是“词汇系统”了。20世纪前半期语言学界流行着语法有系统,语音有系统,词汇是一盘散沙的观点。到60年代词汇是一个系统的观点开始出现,但受到强力的“辩难”。直到80年代,这一观点才慢慢被学术界接受。如果说这个观点的流行来源于理论上的自觉,倒不如说更多的是受到实践的影响。因为建构词汇语义系统已经成为一种日渐铺开,并引起人们更多期许的学术实践。
《同义词词林》(1983)就是这样一部在现代汉语词汇系统建构上有着开拓意义的作品。尽管它最初或最突出的宗旨并不在此:“我们编纂《同义词词林》的初衷是,由于在写作与翻译中往往发生词穷的情况,难以将意思表达恰当,因而感到迫切需要有一本从词义查词的工具书,以便从中挑选适当的词语。这本词书,就是希望提供较多的词语,对创作和翻译工作能有所帮助。”郭绍虞先生作了一篇长序,通篇都是从语法修辞的应用层面来予以阐发的。但最终使这部著作在学术界获得巨大声誉的却似乎不是这两个实用性目的。“《词林》一书收录词语近七万,全部按意义进行编排,所以它是一部类义词典。”收词量大,又得按意义编排,建构一个有序、合理、清楚的词汇系统成为必需。正是为了达到那两个实用目的而必须具有的这个分类系统,成就了《词林》的最大学术价值。它把数万条词语以有序的语义联系呈现在人们面前,使得词汇语义存在系统性的理论模糊突然在实践上变得清晰起来。称它为现代汉语第一部语义分类词典毫不为过。此后,多种分类词典迭出,如《现代汉语分类词典》(徐为民,辽宁大学***书馆,1984)、《简明汉语义类词典》(林杏光,商务印书馆,1987)、《现代汉语分类词典》(董大年,汉语大词典出版社,1998)。细观这些词典,收词范围、义类层次、义类数量都很不相同,但“以词义为主,兼顾词类,并充分注意题材的集中”算得上是它们的共同点。《词林》有一级类12类,二级类94类,三级类1 428类,三级类下面又按代表词分出词群,共3 925个词群。无论是收词的量,还是分类层次的丰富与细致上,都可算是这一类词典的佼佼者。从人对社会认知的角度来构拟词汇语义分类系统,注重事理的关联性,注重在词义最小的同异程度上来集聚底层语义类,成为这一类词汇语义分类词典的三大特点。
随着计算机自然语言处理的出现,对词汇语义分类词典有了新的需求。计算机对词汇的处理讲究效率,讲究同质、同值化的“批处理”,因此将看似杂乱散漫的庞大词语进行归类合并也就有了必要。但计算机不像人,没有那么强的语义辨微能力,需要借助清晰有力的形式标志,这样注重词的语法标志与语法功能也就成为追求的重点。王惠、詹卫东、刘群的《现代汉语语义词典》可视为这一类词典的代表。“从事机器翻译的人大概都有这种体会,语义分析是机器翻译中模糊性最大、最难于处理、最不成体系的部分。因而,在现阶段,要跳过语法分析阶段,构造一个基于语义分析的机器翻译系统,是不太现实的。”“因此,从工程实用的角度出发,我们的机器翻译系统采用的是‘语法分析为主,语义分析为辅’的分析方法,在整个汉语分析过程中,语法分析构成了分析系统的框架。”下面一段话将“语法分析为主,语义分析为辅”这一抽象原则作了再清楚不过的阐释:“我们的语义分类体系是为了辅助语法分析而设计的,因此,语义分类的标准及分类深度均应从为语法分析服务的角度来确定。应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。这应该是我们的唯一标准。”在这个系统中,语义是处于从属、辅助、够用即止的位置,所以我们观察到它的最底层一个语义类有时会有多达数千条词语,因为只要它们有着共同的语法属性,能符合计算机处理语言的某个语法规则就可以了。而数千条词语共处一个最底层语义类,这在按语义标准来实施的分类词典看来是难以想象的。“语法分析为主,语义分析为辅”,成为这一类语义分类词典的最大特点。
还有一类面向计算机的语义分类词典显得格外出众,这就是董振东的《知网》(HowNet)。它是专用于计算机的语义分类词典,这种专用性使得它无法平面化、纸质化,必须依靠计算机强大的超文本关联能力才能真正显示其内在的语义关系。这种独特品格甚至使得“词典”这个词对它都不适合,它是真正以网络状态出现的一个词语网。《知网》的核心就是给每一个词标出若干“义原”。这些“义原”是一个语义系统所蕴涵的最重要、最基本的语义要素,数量有限,约两千多个;义原蕴涵于每个词之中;每个词都拥有最具区别特征的若干义原;给每个词标出的义原是有限的,在个位数范围之内。如此种种,使得《知网》虽然在形式上仍有着与其他语义分类词典相类似的语义层与语义类,但实质上将所有词语关联起来的却是那些“义原”。
面向计算机服务的语义分类词典中还值得一提的是张潮生的“中文词库”。这是作者在相当艰苦的个体劳动状况下完成。它充分考虑了《词林》、《知网》及美国“WordNet”的长处与不足,有所规避,也有所创新。其特点有:1,语义层级较深:如以“A股”为最下位义,向上可逐层推及“股票―有价证券―证券―票据―券―证据―依据、信息―事物―人或事物”。2,标示了词的多种语义关系:同义、上下位、类型―实例、整体―部分、角色、并列、集合―元素、发出动作、接受动作、功能一工具、因果、拥有、属性、领域、词类、其他关系。如“妻子”的[同义]有“太太、老婆”等34条词,[下位]有“正妻、小老婆”,[上位]有“配偶、女眷”,[由…充当]是“妇人”,[集合]是“夫妻、妻子、六亲”,[并列]是“丈夫”,[发出动作]是“守空房、告枕头状”,[接受动作]是“虐妻、休”,[被涉及]是“惧 内”。3,参考了相连及的语法角色。如上面“妻子”例中的后三项。
上面对三大不同类型的语义分类系统作了简要概述,无非是想说明这样一点认识:一种语言的语义系统呈现在人们面前并不是固化、平面、单一视角的,而是泛散、移动、立体的。在不同的观察视角下,置于不同的分析范围,服务于不同的应用目的,使用不同的划分标准,借助不同的划分手段,甚至借助不同的表现形式、存放于不同的装载空间,都会建构出很不相同的语义系统。用“建构”一词,想说的就是任何一个语义系统,尽管都有客观世界在支撑着它,但就其最后呈现在人们面前的语义模型与全貌,都是研究者“理论”的产物。这里很用得上人文语言学理论的一句名言:“语言是一个民族观察世界的窗口和模式。”一个语义系统,其实就是一种语言观、一种世界观、一种分析世界整合世界的方法共同作用下的产物。想用一个标准、一种模型来穷尽一种语言的语义世界,是不太可能的。
2、动因
既然难以用相同的标准与手段来衡量不同的语义分类词典,那么,如何评价不同的语义分类词典?这当然会用到一些标准,如收词量的多少,收词单位的长短,分类层次的粗细,义类规模的大小,义类关系的平衡,而最关键的则是看这个语义分类系统的分类标准。
如果说《知网》的语义分类使用了明暗两种方法,明的是义类层级分类法,暗的是用“义原”将相关的语义类串联起来的话,那么另外两种语义分类词典则分别彻底贯彻了词的语义性与语法性。《现代汉语语义词典》关注的始终是词的语法性。它除了把名词、动词、形容词作为最上一级的分类外,在下级语义层的划分中也突出了便于语法处理的属性。如名词类中,“生物”与“非生物”相对,“自然事物”与“人工事物”相对;在动词类中,“行为”类下分出“自变”“促变”“自为”“自移”“搬移”“对待”“给予”“获取”“创造”“遭受”10小类,这些类蕴涵着对动作施动者、动作方向、动作对象、动作结果的考虑,正是这些因素会直接影响到语法搭配规则与搭配对象。再如“人”在它的系统里面只处于“事物一具体事物一生物一人类一人”的第四、五层的下位语义层,而在突出对社会现实的认识,突出人与自然的事理逻辑的语义分类中,“人”却总是处于一级或二级的上位语义层的重要位置。以《词林》为代表的分类词典,其功能是面向人,服务于人的语言使用,贯彻始终的是词的语义性。
能不能把现有的注重语义性的分类模式做得更完善些?这是我们在投入大气力从事这项工作前考虑最多的地方。答案当然是肯定的。之所以把目标锁定在这里,是因为我们相信这项工作的意义与价值。
2.1作为真正的语义分类词典,必须正面探究语义问题,寻找到体现一种词汇语义系统的最佳展现方式
语言是一个综合体,语义、语法、语用的各个要素都有着各自的内在系统性。“语义为主,语形为辅”,是对其相互关系的正确描述。建构一种词汇语义分类系统,语义应该是处于核心、首要的位置,语法因素,语用因素,只能起着辅助、次要的作用。词的语法特征具有直观性、“批处理”的可行性、易操作性,但这些都必须立足于或紧密结合语义规律来进行。语法的规律性很强,它关注的主要是“搭配组织类”。“语法类”涵盖的范围相当大,这当然方便于计算机语言处理,但它并不能代替“语义”的“类”。语法的类与语义的类毕竟是两种不同性质、不同内容、不同对象的东西。
相同的语法类可能会表现出很不相同的语义特点。如“计策”是“叁抽象物一三意识一D想法”下的一个名词类,在它下面还有“计划”、“鸿***”、“计策”、“将略”、“巧计”、“上策”、“中策”、“小算盘”、“阴谋”、“毒计”、“故伎”、“反间计”等12个五级类,它们的语法属性是一样的。但以“小算盘”类为界,之前的多为褒义,之后的多为贬义,与“鸿***”搭配的常是“大展”“宏伟”“远大”等,与“阴谋”搭配的常是“狠毒”“阴险”“***谋”等,语义的共现环境完全不同。反之,相同的语义类也可能会表现出很不同的语法特点。如“受奖”类是“伍生物活动 八际遇 I享福”下的一个动词类,共有“受奖、受赏、见赏、获奖、得奖、中奖、领奖、领赏”8条词。这8条词之间有着明显的语法差异,前3词是受动型,后5词是主动型,受奖人与授奖人处于不同的关系之中,使用的句子结构也不相同。为了区分其语法差异,将它们又分成两个下级类,“受奖”和“获奖”。计算机对语言的处理最终仍是要符合人们对语言的处理原则,要符合人们的语感,而人的任何语用活动都是立足于语义之上来进行的。
2.2词汇语义分类词典在人的语言学习与使用中有着重要参考作用
在语言研究中,服务于人应该是一个最广泛的服务领域。这是语言研究的永恒价值所在。人们对词汇的学习与使用,最常用的就是对同义词语的系联与辨微,对反义词语的类推与辩证。但这时人们关注到的往往是具体词语的相邻关系,忽略了词汇系统的整体关系。毫无疑问,具体词语的相邻关系只有在完整的语义系统中才会更清楚地凸显出来。
如第8个一级类“性质与状态”类下有6个二级类、87个三级类、325个四级类,1 076个五级类,研究表明它们在真实语言中的分布有着明显的梯度差别,即愈是上位类,存在愈是普遍,愈是下位类,缺损愈是明显。存在与缺损正好反映出一个义类的重要性与普遍程度。在对外汉语教材词汇的研究中,发现在所有的“形貌、知觉、性状、性质、品行、情状”6个二级类中,“性质”类词语最多。往下到三级类时则开始有了义类缺损,“性质”类下“真假、好坏、普异、优劣、对错、利弊、纯杂、静动、难易、主次、轻重、贵贱、亲疏、显隐、内外”等15个三级类中出现在初级教材的词汇中,而“详略、荣辱、亲姻”3个三级类则阙如,这表明在语言学习过程中,有的义类处于更基础的位置,有的义类则要在心智稍成熟后才会获得。认识到语义类的先后、有无、详略及其相互关系,对准确地安排学习内容,提高教学精度,显然是很有好处的。
2.3观察词汇语义分类系统背后的社会、民族、观念的文化世界
语言的民族文化属性,鲜明地在语义上表现出来。语义要素的有无,语义类的存缺,语义类的厚薄,在不同语言的语义系统比较中会轻易地展现出来。而对“类”的比较比对单个词语的比较更容易显示出差异。如英语的“朗文多功能分类词典”在一级类“人与家庭”下有关称谓的有“人(总称)”、“男人与女人”、“父母与孩子”、“男人类型”、“女人类型”、“年轻男子”、“年轻女子”、“孩子的类型”、“各种年龄的人”、“各类人”等类,收词数分别是10、6、9、10、10、4、7、6、7、5条,共74条。TMC与之相类似的有4个三级类,即“壹生物一人”下的“泛称”、“性别”、“年龄”、“亲属”类,分别收词329、125、215、929条, 共1 598条。74条与1 598条的相关类之比是1:20,二者的词总量之比却是1:5,可见汉语称谓词特别是亲属称谓词的丰富程度。
社会生活的时展也会在语义类上留下深深印迹。《词林》反映的是上世纪80年代初的汉语面貌,与现在相隔20多年。这是汉语史上变化极其巨大的一个时期,从《词林》到TMC,除了具体词语有了明显差异外,语义类也有了很大不同。TMC的“办公用品”类多出了“办公电器”类,“生活用品”类多出了“生活电器”类,且词量规模都不小。分别收词达92条与67条。这都是当代社会生活的信息化、现代化的影响所致。《词林》在“资本”类下收了有关股份的7条词:“股份、股子、股、股金、公股、干股、私股”。而在TMC中“股票”却是一个不小的“家族”:“股票、公股、私股、干股、A股、B股、H股、法人股、个人股、普通股、国有股、港股、红筹股、蓝筹股、绩优股、配股、新股”。动词也衍生出来了:“炒股、炒汇、持股、控股、入股、参股、招股、建仓、盘整、空仓、清仓、空对空、买空、卖空、崩盘、套汇、套牢”。相关的还有“红盘、绿盘、上市、配股、开盘、收盘、开盘价、收盘价”。“一个时代有一个时代的语言”,这在不同时代的词汇语义系统对比中充分反映出来了。
义序的前后之序也是文化观念的产物。如“壹生物_一人_D亲属_c夫妻”下有20个五级类:
1,壹―Dc01夫妻(22)
2,壹―Dc02结发夫妻(3)
3,壹―Dc03佳偶(4)
4,壹―Dc04配偶(3)
5,壹―Dc05老伴(3)
6,壹―Dc06未婚夫(2)
7,壹―Dc07新郎(3)
8,壹―Dc08新娘(6)
9,壹―Dc09后婚儿(3)
10,壹―Dc10丈夫(24)
11,壹―Dc11后夫(3)
12,壹―Dc12亡夫(3)
13,壹―Dc13妻子(32)
14,壹―Dc14内人(6)
15,壹―Dc15尊夫人(5)
16,壹―Dc16发妻(14)
17,壹―Dc17前妻(3)
18,壹―Dc18后妻(6)
19,壹―Dc19亡妻(4)
20,壹―Dc20妾(27)
义类按先总指后分指、先通名后狭名、再雅名再俗名,先正名后旁名,并按婚姻过程前后相续而列。括号里的数字表示该类所包含的词语数。上面显示“妻”名比“夫”名多,“妻”类比“夫”类划分细致,有“发妻”类(长房、大老婆、嫡配、嫡妻、发妻、结发、元配、原配、糟糠、糟糠之妻、正房、正妻、正室、正堂)而没有“发夫”类,如此等等,都显示出汉民族传统中男性中心、女性附庸,婚姻道德对男性要求松,对女性要求严格,重婚姻的原生性一贯性,轻婚姻的再生性接续性的文化特点。
2.4《词林》创立的社会认知观下的语义分类系统亟须得到改进与完善
在上面的论述中,读者已经不难发现我们对《词林》的高度评价。但随着时间的推移、语言的变迁及人们认识的深化,其不足也是明显的。最显著者有二:
(1)收词较狭,词语陈旧。《词林》收词6.4万条,其中不少是古词语、旧词语、方言词,有的属非“词”的词素或短语。如“人类”类有6条词,其他5条是“噍类、生人、横目、圆颅方趾、方趾圆颅”;“被子”类有6条词,其他5条是“被卧、被头、被、衾、稠”;与“喊冤叫屈”同类的有“告御状、叩阍、叫阍”。TMC删去了《词林》的1万余条古词、旧词、僻词、词素、短语,新增现当代词语2.8万条,更贴近于现代汉语词汇的真实面貌。
(2)分类系统有待改进。作为一个初创之举,能将数量庞大的词语进行系统化确属不易,但疏而未尽密,缺而未尽周,在所难免。特别是上位类对下位类的控制、同级类的分布、邻近类的连接、底层类的聚合,分类标准未能做到一致性表现得较为突出。强化中间语义类的上下层控制,加紧相邻类的连接与合理,统一语义类分立的标准与原则,是TMC建构词汇语义系统时重点考虑的地方。
以上四方面原因促使我们下决心启动了这项工作。
3、收词与分类
本研究总的目标是建构一个具有以下特点的词汇语义分类系统:真实反映现代汉语词汇面貌;有明确的理论观照;五级语义层架构,上位语义层对下位语义层有较强控制力,下位语义层对上位语义层的义域能全面覆盖,左右语义类能互补对应;系统内部的义类稳定,对外吸纳词语具有完全的开放性。具体表现如下。
3.1反映以通用词、语文词为主体的现当代汉语词汇面貌
收词原则是:收现当代词语,不收僻用、罕用的古词、旧词;收具有相当稳定性的通用词,不收或从严收方言词、新词语;收反映社会生活的语文词,从严收行业词;收“词语”,一般不收“词素”与“短语”。
为了做到这一点,在研制过程中对当代词汇作了广泛收集,所涉语料有:10余种有代表性的现当代语文词典;20余种新词语词典;近十年数亿字的新闻报刊;半个世纪来有代表性的文学作品;较为流行的词表与词库,最新一种则是刚研制完成的依词频排列、多达5.6万词的《现代汉语常用词表》。TMC的词条是从十数亿字的现代汉语语料采集而来,经过与数十万条词语的比较而成。全书现有词目8.2万条,其中单字词O.57万条,双字词5.63万条,三字词1.12万条,四字词O.84万条,五字以上者558条。词的长短是反映词语性质的一个重要信息。现代汉语的通用词、语文词大都是双字词。5.63万条双字词占总词量的68.5%,双字词的词量与比例在现有各种词典中大概要算是最高的了。单字词数量少也颇能说明问题,一般词典收的单字条大都在上万条,其中很多不能作为词来***使用。四字词只有O.84万条也颇能说明问题,当下的成语词典,规模动辙达到两三万条,另外科技术语也多为四字词。而五字及五字以上正是汉语数万条谚语、歇后语等熟语的常态。各种词长的分布态,清楚表明TMC所收大部分为通用词、语文词的特点。同时,也显示出它有着良好的词库容量扩充的前景。
3.2五级语义层架构,上位语义层对下位语义层有较强控制力,下位语义层对上位语义层的义域能全面覆盖,左右语义类能互补对应
TMC上下语义层共有五级。每级语义类的数量与所辖词语数统计如表1。
五级语义层分别使用五种不同的方式表示,大_写汉字数字表示一级类,小写汉字数字表示二级类,大写英文字母表示三级类,小写英文字母表示四级类,阿拉伯字母表示五级类。这样做的好处是能清楚地用一组数字来显示语义类的层级与序位。如“人”这个词在“壹生物―人―A泛称a人01人”,语义类标号就是“壹―Aa01”;“词典”这个词在“叁_抽象物―捌科教―E文章―b书籍29词典”,语义类标 号就是“叁八Eb29”。这样就给每一个词都确定了它在TMC中的唯一义类“身份证号”。各个五级类内的词语则按词长、音序、笔画顺序先后排列。
一级语义类共有9类:壹―生物,贰―具体物,叁―抽象物,肆―时空,伍―生物活动,陆―社会活动,柒―运动与变化,捌―性质与状态,玖―辅助。“壹、贰、叁、肆”类为名词,“伍、陆、柒”为动词,“捌”为形容词,“玖”为副词与虚词。一级类收词最多的达15 831条,为“抽象物”类,最少为2 316条,为“辅助”类,一级类平均每类收词9 114,6条。
二级语义类共有62类。二级类最多的是在“陆社会活动”类中,有11个二级类;最少的在“肆时空”类,只有两个二级类。一个二级类收词最多的达5 408条,最少为26条,平均1 325.6条。语义分类遵循的原则是:1,下一层语义类对上一层语义类能作出周遍的切分。如“贰具体物”下面分出8类:一、概称,二、自然物,三、材料,四、器具,五、建筑物,六、生活用品,七、文化用品,八、食用品。在“叁抽象物”下面分出10类:一、事情,二、属性,三、意识,四、社会,五、***治,六、***事,七、经济,八、科教,九、文体卫生,十、数量单位。这里的8个二级类与10个二级类,基本可以将现代社会生活中的具体物与抽象物覆盖殆尽。2,同级同类的通名放在同级类的最前面,如“贰具体物”类的第一个二级类“一概称”。3,同级同类的部分名放在同级类的最后面,如“壹生物”类中的最后一个二级类“五生物部分”。二级类基本上是用短语来概括本类的意义领域。只有在“玖一辅助”类下的二级类,是用“副词”、“介词”、“连词”、“助词”、“语气词”、“拟声词”的词类名来作类名。用词类作类名比根据词类的语法功能如“修饰”、“处置”、“连接”、“辅助”、“呼叹”、“拟声”来作类名要明白些。
三级语义类共有518类:三级类最多的是在“伍生物活动一五心理活动”类,有28类;最少的在“壹生物一四微生物”,只有2类。一个三级类收词最多的达1 428条,最少为5条,平均158.7条。三级类的类名大部分是该类的主题词,特点是:意义宽泛;代表了该义类的基本义常用义;通用程度高;语用色彩中性化。而在“捌性质与状态”下共6个二级类的87个三级类则采用了正反相对、对义并举式的命名结构,如“长短”、“浓淡”、“多少”、“真假”、“善恶”、“安危”。它们下面的四级类再分别是“长”与“短”、“鲜艳”与“素净”、“多”与“少”、“真实”与“虚假”、“善良”与“凶恶”“厚道”与“刻薄”、“太平”与“动荡”“安全”与“危险”等。之所以采以这样的命名方式,一是因为实际语言中性质与状态往往是对举的,二是可以增加义类的概括性。只有极少数例外,如“捌性质与状态一二知觉一A颜色”,用“颜色”这个泛称名来囊括各种色彩。
四级语义类共有2 076类。四级类最多的是在“壹生物一五生物部分一A躯体部分”,有16类,最少的只有1类。每个四级类收词最多达453条,最少2条,平均收词39,6条。四级类基本上是用同义词作类名,只有在“玖辅助一六拟声词一拟物声”中,是根据拟声物体来归类。
五级语义类共有12 613类。含五级类最多的是在“叁抽象物一九文体卫生一E医疗一a疾病”,与“壹物生一人_I职业c专业人员”两个四级类,各下辖80个五级类。拥有五级类的数量超过40个的有19个四级类。每个四级类平均拥有6.03个五级类。四级类拥有的五级类数量多,表明这个义类发达。五级类平均每类收词6.5条。收词最多的是“同一性”类,达114条,词语都带词缀“性”字,属表性质的派生词。超过50条词的只有5个五级类,超过30条词的有58个五级类,可见五级类的词语规模是得到较严格控制的。五级类没有独词的,因为分类词典最基本的单位一定要是“类”,独词不成类。每类只有2条语的五级类有1 661个。五级类的同类词语中存在三种关系:1,等义关系。2,同义关系。3,近义关系。等义词主要出现在指物名词中,是同实异名现象;同义词词义相近,分布密集,相邻靠近,多属语文词、常用词;近义词词义宽,同在一个领域,分布稀疏,词频较低,名词居多。研制过程中对这三种关系都分别作有标示,对“近义关系”的远近还作了更细一步的区分,实际上是分出了没有在形式上***的“六级类”。考虑到这样做会牵涉到许多更细致、深入的问题,在排序上也没有现在这样方便,故在最后的成稿中没有将这部分工作体现出来。在五级类中。少数还会表现为“正反相对”的词语同处一类,如“编内”与“编外”。由于“上下五级语义层”的限定,五级类会呈现出“扁平化”现象,即本来是上下位关系的语义类会出现在同一级语义层之中。如“修辞格”是一个五级类,收词16条,里面没有收“比喻”。这是因为与“比喻”相类的还有“明喻、暗喻、隐喻、借喻、讽喻”,为了显示“比喻”类的特点而将它***出来,这样就造成了“修辞格”类与“比喻”类两个本来有着上下位语义关系的义类同级并列。对五级类的划分没有严格地考虑语义的上下位关系,而是把同义词群的大小合适放在首位来考虑,只要有一定量的相同相近相关的词语,就可以***为一类。这样必然出现义类不对称的现象。但正是这种现象,从文化语言学的角度却很好理解,即词群发育如何,正是一种语言词汇受制于民族文化的结果。如上文谈到的有“发妻”类而无“发夫”类。又如“儿童”类、“孩子”类的词语都不少,而“女孩”类的词语比“男孩”类的多,这恰恰是因为指称“男孩”时往往使用了不区分性别的统称语。这就好像“男子足球赛”就直说“足球赛”,只有“女子足球赛”才加以区分一样。
3.3语义分类原则
对语义进行分类是一个很复杂的过程,会牵涉到许多复杂问题,也要使用到许多规则。这些规则如上文已有说明,下面就仅提及,不作详述。
A,下一层语义类对上一层语义类的义域作出周遍的切分。这是最重要的一条原则。
B,同级同类的概称名放在同级类的最前面;同级同类的分指名放在同级类的最后面。
C,同级语义层中各义类按一定的语义关系排列:先概称类,后具体类;先泛称,后确称;先通名,后狭名;先褒词后贬词。语义的顺序是很复杂灵活。只要是能体现某种语义上逻辑关系的都可以视为一种语义规则。如“陆社会活动一三生产建设_J耕作”下面有7个四级类,依次为“垦荒”“耕作”“种地”“种植”“灌溉”“施肥”“收割”,正好体现出农业活动的始末过程。在“种植”类下有23个五级类,依次为“种地”“整地”“犁田”“翻耕”“休耕”“春耕”“种植”“抢种”“选种”“播种”“春播”“插秧”“移栽”“密植”“育苗”“定苗”“插枝”“嫁接”“整枝”“培土”“锄草”“栽树”“夏种”,则体现了农作的生产、管理过程。语义 系统背后实际上反映的是一种社会认知结果。
D,语义的上下位关系主要体现在一至四级的语义层。对五级类的划分则没有严格地考虑上下位的语义关系,而是把同义词群的大小是否合适放在首位来考虑。五级类的等义、同义、近义三种关系中,以同义为最多,其次为近义,等义最少。由于有的词没有同义词,只有简单对立的相关词,有的则是由于主题词较宽泛,同一义类内的词语进行渐变而可能生出相反或相对的关系。
E,义类类名的确定是把是否具有代表性放在首位。主题词一般具有意义宽泛、代表该义类的基本义常用义、通用程度高、语用色彩中性化等特点。
F,三级类以下的义类类名一般都要在本类中出现,这是同义词类的必然要求。但也有的类名不在该类之中。“直辖市”与“城市、市、省辖市、地级市、县级市、大城市、大中城市、中小城市、小城市”同在一类,但它又在“北京、天津、上海、重庆”类中充当了主题词。又如“省区”充当了“河南、河北……”等30个省、自治区的主题词。
G,严格控制类名的重出。对建构词汇语义分类系统,类名相重是一件很犯忌的事。依控制的严格程度,依次为:同类同级的同名、跨类同级的同名、跨类不同级的同名、同类不同级的同名。前两种可以说已经做了完全避免,即9个一级类、62个二级类、518个三级类、2 076个四级类、12 61 3个五级类的同级类名之间没有相同的。这就使得在同一个语义层级中类名具有专指性。第四种情况即“同类不同级的同名”在理论上是允许的,当这个词语所代表的语义类是一个基础义类、广义义类时,它就有可能始终居于在不同语义层级的大小不等义类的中心位置。但本词典对这种情况也给予了控制,一般只在同一义类的两个语义层级中出现,只有极个别的才会在同类的三个语义层级中出现,如主题词“人”。严格控制类名的相重,也就意味着要对相当数量的词语进行“同义词更换”。如“女工”在“打工妹、外来妹”中充当了主题词,那么在“女工、女红、针线、针线活儿、手工、细工”中不能再作主题词,而要选用“女红”来替代。在研制过程中,对数百个主题词作出了避重的调整。
4、归词
词汇语义系统的建构,在“义类”确定后最重要的一项工作就是将一个个词语归入合适的义类中。这项工作不仅重要,而且细致、烦琐、艰巨。归词是否准确不仅影响到义类的“适合度”,还在很大程度上会影响到义类的分立。
4.1以词的义项为义类归纳单位
TMC继承了《词林》以义项为义类归纳单位的做法。对5 544条词作了多义词条的处理,最多的_收了11个义项,有“上”“生”“点”“当”四条词。对新增词语注重对该词所有义项的收录。如:
“备份”收了1个名词义,2个动词义,分别归入:
“叁抽象物_八科教_G体裁_f版本_06副本”
“伍生物活动_七生活工作_I使用_d储存_留底”
“陆社会活动_三生产建设_F印刷_a印刷_06复印”
“花架子”收了3个名词义,分别归人:
“贰具体物_四器具_C工匠用具_j棒具_06架_子”
“叁抽象物_三意识_D想法_c手段03花招”
“叁抽象物_三意识_F比喻物_d空架子_01空架子”
有的是旧词的新义,如“骄傲”一词,“自以为了不起,看不起别人”义与“值得自豪的人或事物”义,分别归入:
“捌性质与状态_五品行_H谦满_b骄傲01骄_傲”
“叁抽象物_一事情_G功过_d荣誉_01荣誉”
新增加的“自豪”义归入:
“伍生物活动_一五心理活动_A高兴_b满意_03得意”
前面说到《词林》收录了不少“词素”,TMC对此作了大幅度的调整,表2对此作了统计。
表2的数据清楚显示TMC在“单字词素”的数量、义项数、义项总数上,都有了大量压缩。
以义项为归词单位保证了义类的准确性。如“地主”有两个义,一个是与客人相对的主人义,一个是土地的主人义,它应该分别与“主人、主人公、女主人、东家、东道、东道主、东人、家主、家公”,及“农奴主、船东、少东家、牧主、庄主、二地主、老爷”同类。
4.2准确辨析复合词,把握复合词的词义重心
在词的语义归类中,合成词特别是复合词是一个难点。复合词由两个实词素组成,从词素义到词义,中间有的是叠加式,有的是化合式,有的是转义变换,词素义会在不同程度上进入复合词词义,这就给复合词词义的确定带来很大困难。TMC尝试从以下方面来作出辨析:
4.2.1根据词的实际使用义而非字面义归类
“横肉”字面上看是写“肌肉”的模样,一般词典也解释为“使相貌显得凶恶的肌肉”,中心词仍是“肌肉”。在TMC中其上位义是“躯体部分”类,再上是“生物部分”类,再上是“生物”类,显示的词义归属是纯生理性。而“横肉”实际表示的是“凶恶的相貌”,“凶相”才是它的真实词义,据此而归,它的义类归属是“叁抽象物_二属性_F仪表_c神情13凶相”,这才符合它的真实词义面貌。
“大道”与“小道”是两个对称的复合词,都可指道路的大小。它们还有引申义,如“大道”引指“正途”“光明大道”;“小道”引指“邪路”“邪道”“歧路”,“小道”还能引申出“捷径”“便路”义,这是“大道”没有的。“火绳”归“蚊香”,是按实际语义分,没有按“火”或“绳”归,后者是纯形式归类。“缴***”归“投降”,而没有归“上缴”“交出”。“换羽”归“脱皮”类,而没有归“更换”。
4.2.2根据复合词的语义重心归类
复合词有不同的构词方法,不同构词方法的语义重点是变移的,要准确把握,就不能一概推之。如“冰”字位于复合词词首的有95例,其中72例为二字词,后面的字除极少数是形容词“冷”“硬”,或动词“封”“释”外,绝大部分都是名词。但这些名词的语义重点很不一样。如“冰雪”是并列结构,“冰”与“雪”都进入了词义;“冰雹、冰子、冰凌、冰柱、冰塔、冰块、冰碴”是对“冰”存在状态的描绘,可归入“雨雪”下的“冰雪”类;“冰箱、冰刀、冰鞋、冰镐、冰橇、冰车、冰道、冰窖”的语义重点显然是后一个名词词素,“冰”是对它们的或功能,或形状的说明、描绘,这些词应分别归入“箱”“刀”“鞋”“镐”“雪车”“道路”“窖洞”等义类。
“名”字位于词首的有二字词91条,如“名将”“名模”“名品”“名儒”“名茶”等。依前面的“名”归,将建立“著名”类,按后面则将分别归入不同的类。偏正式复合词的前后语素都有表义作用,后一词素表示的是概念义,前一词素表示的是特征义。观察汉语复合词,“倒序”有倒序的作用,顺序有顺序的作用。
如果是状谓式、并列式复合词,语义重点又需要另一番细究。如“导购”“导诊”归人“咨询”,而不归 入“购买”或“门诊”,重在“导”,语义重心在前面。“导流”重在“引流”,“导引”重在“指引”,语义重点在后面。
“等效”归“效果”,不归“相等”,突出的语义重点是“效”。
动宾式的语义重点落在前面的“动谓”上,如“改装”“改期”“改版”“改型”“改容”“改样”。而在状谓式,语义重点落在后一个动词上,如“改判”“改写”“改编”“改种”。可许多情况并没有这么清楚,如“教研”归“研究”,而没有归“教学”;“宣读”归“宣布”,而没有归“朗读”;“漏报”“漏检”归“遗漏”,而没有归“报告”与“检查”。这种差异以至于人们宁愿把“漏报”“漏检”的“漏”看作是主要动词,而把“报”“检”看作是动词作宾语。对复合词的语义重点的把握,使之恰当地归类,成为归词过程中最费心思的一件事。
4.3根据相邻同义词的远近归类,突出“同义、近义”的类义特点
五级的语义层架构是固定的,在1~4级强调的是语义上下位关系,而第5级是最低一个语义层,相邻义类中既出现平行关系,又出现上下位关系,难以避免。这就使得义类的分立很大程度上决定于对同义词的远近、亲疏关系的认定。如与“手术”关联在一起的本来有“缝合”“拆线”等词,但因为与“手术”合并成类的是“动手术”“做手术”“开刀”“切除”“截肢”,构成了一个紧密的同义词群,这样就把“缝合”“拆线”就近另归,把“消毒”“杀菌”“灭菌”另归,把“消炎”“消肿”“化痰”“化瘀”另归,这样在“***”下就形成了这样的19个五级类:“敷药、针灸、刮痧、按摩、注射、麻醉、接种、开刀、消毒、消炎、退烧、电疗、防***、整形、鼻饲、引流、解剖、补牙、输血”。如“抗上”本可归“抗击”类,与“反抗”“对抗”同义,但细究之下不如归“冒犯”类,与“顶撞”“冲撞”同义,更显合适。
在“种子”类下,收有“种子、子实、子粒、种、籽、籽儿、籽粒、种籽、子、实、粒、米、孢子、胞子”。另外又立有“稻种”类,收的是“棉籽、油茶籽、菜籽、茶籽、稻种、菜种、菌种”。前一类是通名,相互之间是同义关系,后一类是专指,相互之间是近义关系,分立为两个义类,能使其关系得到彰显。
4.4参考上位语义归类
单看具体词语,有的靠得很近,但将它们的上位义延伸开来,就会发现各自的上位义存在巨大差异,古语所言“差之毫厘,谬之千里”。这是语义系统平面化后必须会出现的语义指向单一化的局限性。如“当铺”与“当票”联得近,但“当铺”义类是“商店”,“当票”的义类是“票证”。往上延伸,“商店”类的上位义类是“厂店”一“经济”一“抽象物”,“票证”类的上位义类是“凭证”一“办公用品”一“文化用品”一“具体物”,结果隶属于完全不同的上位义。假如换一个归法,大概“当铺”“当票”“抵押品”“估价”“押期”又成为一类了,其结果将是另一个面貌迥异的语义系统了。
“粪堆”看似可归“土堆”类,“土堆”类的上位义类是“土尘”一“自然物质”一“自然物”一“具体物”,而“畜肥”类的上位义类是“肥料”一“农用材料”一“材料”一“具体物”。
许多词的归类看起来是两可的,但反映出来的语义规则和语义理念仍很不一样。如“悔棋”,归入“后悔”类或“下棋”类似乎都可以,但前者表现为一种心理活动,后者表现为体育活动中的一种现象、规则。
5、展望
前面在介绍研制TMC的“动机”时,已经说到了这项工作的意义。无论是在语言理论上实现对词汇全貌的认识,在对当代社会的了解上展现一种认知结果与观念,在语言学习上对提高教与学的效果,在社会语言生活中提高运用能力,还是在计算机语言处理上,提供一个立足于事理逻辑关系的词汇语义系统,都有着重要的参考作用。这里主要就TMC作为词汇体系研究的一项基础工程,对它今后一些可能的延伸性工作谈谈想法。
一种语言的语义观、语义成分、语义类总是相对稳定的,容易发生变化的总是那些具体的词汇形式。汉语语义系统合理建构后,就能观察一段时间后具体词语是如何“与时俱进”的。如“职员”类是稳定的,而里面的“公务员”“白领”“蓝领”“粉领”是新产生的。因此就可以根据语言变化的情况往稳定的语义系统中不断地补充新词。相隔时日,就不难观察到义的活跃程度。语义类的变化,首先会在一个语义类内部词语的规模、众寡、色彩上体现出来。语义类是相对稳定的。愈是上位义类,稳定性愈高。
TMC对每一个语义层级的每一个义类确定了主题词,愈是下层语义类,同义性质愈近。由于主题词的性质与特点,它在本类词中有着很好的“代表”性。这就使得主题词成为词汇语义系统中的一个个“诗眼”,是词汇语义系统中的关键词、基础词、常用词。将这些词提取出来,就构成了一个关键词、基础词、常用词的系统。对它们再进行常用度的筛选,还能筛选出更基础、更重要的语义基础词。这项工作可以首先在1.2万多个五级类主题词中进行,其次是在2 000多个四级类。在再上的语义层级中则不宜进行这项工作,因为500个三级类已经是一个有很强概括性、覆盖力相当强的义类体系,类名与下属词很少是“同义词”的关系,而是作为“领域词”出现了。语义基础词,将是在母语学习、对外汉语学习中需特别予以重视的部分。
语义分类词典是建立在“类”的基础上,看重的是词语的“同”。五级类的“同义词群”实际上是给每一个词建立了一个关系密切的“社交圈”。这时如果变换一个角度,想来看看“社交圈”中各个成员的个性特点,所得到的其实就是探究各个成员语义差异的“同义词辨析”词典。“一个同义词只有放在与它相邻近的同义词的比较中才能看得更清楚”。对每个成员再辅之以简单释义与例句,又将得到一部具有序排列、认词知义、释义解惑、立体显义的“义类”“义序”词典。
前景可以设想得很美妙、辉煌,甚至还有许多美妙与辉煌有待人们的开掘。总之,这是一个非常值得去探索的领域。它会把人们带入一个奇妙的语言世界和认知世界。它们的实现取决于研究者的努力程度。目前,所有工作只能说是起步,远没有停止。如此巨量的词汇与繁复的语义分类,要让它们变得系统化、科学化、合理化,其难度可想而知。研制中在理论认识与操作方法上还有许多改进之处,如领域行业词与通用语文词的区分,复合词语义重心的确定,语义与语法的相互关照,跨类词的相互呼应,都还需进一步的研究。我们的能力、水平,及努力程度,离实现这个目标还有很大差距。期待着假以时日的努力,期待着读者们的批评与建议,能获得进一步的完善。
转载请注明出处学文网 » 《现代汉语语义分类词典》(TMC)研制中若干问题的思考