生僻字信息处理

摘要:汉字生僻字的输入,一直是困扰文史工作者的难题,本文试在前人的研究基础上,提出一些关于汉字信息处理的设想和相关的解决方案。

关键字:生僻字;字符集;信息处理

汉字的信息处理经过多年的摸索,冲破了以前汉字不能进入计算机的迷信,取得了可喜的成绩,但离能完全满足实际使用的需要还有很长一段距离。

我们先回顾一下计算机中的字库,然后讨论生僻字的信息处理方法。

一、汉字库发展简介

汉字库通俗地说就是计算机软件系统中的汉字仓库,依据不同的标准,字库中汉字的数量是不同的,以前的主要标准有:

1、GB2312汉字编码字符集

从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、***事、科技、***治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。1980年颁布了《信息交换用汉字编码字符集—基本集》的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。以前我国大陆的各种中文DOS版本、Windows3.1/3.2版本,装入的字库都是国标一二级字库。遇到“镕、啰、瞭、袆、祎、曌、赟、贇、鱻、驫、犇……”等汉字,既无法输入,又不能打印。

后来国家技术监督局又颁布了一个与之相对应的繁体字集,全称《信息交换用汉字编码字符集辅助集》,标准号为GB/T12345-90。

2、台湾BIG5字库

BIG-5码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”。地区标准号为:CNS11643,这就是人们讲的BIG5码。

BIG-5码收录汉字13053个,分为常用字和次常用字两部分,各部分中的汉字按笔划/部首排列。其中常用字5401个,包括台湾教育管理部门颁布的《常用汉字标准字体表》中的全部汉字4808个,台湾中小学教科书常用字587个,异体字6个;次常用字7652个,包括台湾教育管理部门颁布的《次常用汉字标准字体表》的全部汉字6341个,《罕用汉字标准字体表》中使用频率较高的字1311个。

后来为了协助解决众多使用BIG5码单位于进行公文电子传递时遇到自造字无法转换CNS的问题,实行了“BIG5码字集扩编计划”,1986年7月扩编完成,这就是所谓的“BIG5+码”。

BIG5+码系以CNS为蓝本,共增编标准字集4760个字符与推荐字集3250个字符;其标准字集即纳编CNS第3字面字集内之4145个,第4个字面字集内之219个字,均为一般文书常用之中文字,总支持文字量达141376个

3、大字符集字库(又叫GBK字库)

国际标准化组织为了将世界各民族的文字进行统一编码,制定了UCS标准。根据这一标准,中、日、韩三国共同制定了《CJK统一汉字编码字符集》,其国际标准号为:ISO/IEC10646,国家标准号为:GB13000-90,该汉字编码字符集就是通常人们所说的大字符集,它编入了20902个汉字,收集了大陆一二级字库中的简体字,台湾《通用汉字标准交换码》中的繁体字,58个香港特别用字和92个延边地区朝鲜族“吏读”字,甚至涵盖了日文与韩文中的通用汉字,满足了方方面面的需要。Windows95/98/NT/2000中都装入了大字符集汉字库,人们一般称它为GBK(“国家标准扩展”的拼音缩写)字库。

4、新标准汉字库

2000年3月,国家信息产业部和质量技术监督局在北京联合了《信息技术和信息交换用汉字编码字符集、基本集的扩充》,国家标准号为:GB18030-2000,收录了27000多个汉字,还收录了藏、蒙、维等主要少数民族的文字,以期一举解决邮***、户***、金融、地理信息系统等生僻汉字与主要少数民族语言的输入,该标准于2000年12月31日强制执行。GB18030-2000作为GBKforUnicode3.0的更新而诞生,它带有包含所有Unicode的扩展,完全向下兼容GB2312-1980和GBK。

二、对于汉字库设计的想法

字集不是越大越好,因为现存于大型字典辞书的字有一部分是历史用字,还有大量的异体字。根据使用的需要和研究的情况,对汉字的信息处理可以分为几个层次

1、日常生活用字:(可有一个人名、地名辅助集和错字集)

日常生活用字就是常用字,这个数字可能就在3000字左右,再加上一些次常用字,可能也就在6000字左右,当然,其中哪些是常用字,哪些是次常用字,具体的字可能要随着时代不同而发生变化。日常生活用字要求有规范性,现在进行的“规范汉字表”课题研究可能有助于此字集的确定。

人名和地名用字是一个比较特殊的问题,国家语言文字工作委员会正在进行“人名、地名规范”的研究,如果此研究成果面世,则可能有助于解决现代人的人名、地名用字问题。

此集中最好还应该有一个错字集,在早期识字教育和对外汉语教学中,经常要使用到一些错别字,别字好打,缺笔少划的错字没有办法处理,所以应特置一个错字集,有利于错别字教学的信息化与错别字的集中纠正。

2、一般古籍整理用字:(应该有一个异体字辅助集)

古籍用字,数量比现代生活用字多。因为历代沉积下来的异体字、死字比较多。关于这个问题,首先应该进行异体字的整理,异体字整理完成后,正体字就可以确定一个数量。为了保持古籍版本原样,古籍整理工作者和语言文字研究者也要用到异体字,所以附录一个异体字集。

还有一个问题就是方言字,很多方言字来源于古代的字典辞书、地方韵书和方言词典,少部分来源于民间文艺作品。首先方言字有一个规范的问题,那些有本字又意义比较明确的,应该首先选用本字。如本字不明,可沿用俗字。

3、古文字用字:(也有一个异体字辅助集)

关于古文字,一般定义为小篆以前的文字为古文字,其中有很多字还不可识,这种情况,就首先要区分出可识字(与小篆或楷书有对应字)与不可识字,然后进行异体字的整理。并且要能为每个不可识字设计可以调用的编码,以利于检索。

汉字库的设计,针对不同的用户与使用目的,分级分层次是很必要的。各级之中首先要全,同时要考虑各级之间正体字与异体字、繁体与简体、古文字与今字的正确对应等。

此外,各种常用***符也可考虑收录到各级字库中,如传世古籍中出现的圈点符号、古文字中的有句读作用的符号。少数民族和外域的汉字型变体字,也可考虑单置一类,以有利于文字的比较研究。三、解决方案

以下所使用的操作系统,没有特别指出的为Windows98,字处理软件则为Word2000。其它则专门指出。

(一)利用GBK汉字集解决生僻字的输入方法。

微软从Windows95(简体中文版)视窗操作系统起,都采用了GBK字库,该字库收字20902个,基本能满足日常生活用字(生僻人名、地名字除外)。要利用该字库,通常可采用下列几种方法。

1.改用GBK输入法

Windows95版本及以后版本提供了GBK内码、GBK全拼、GBK双拼、GBK表形码和GBK郑码5种GBK输入法。但这些输入法不是安装的默认选项,需要从“控置面板”中打开“输入法”对话框来添加。Windows98默认安装全拼输入法则可以选择输入一般汉字和GBK汉字(使用该输入法的属性设置)。其它同样需要安装。

这些GBK输入法中只有全拼比较常用,而且,这些输入法所输入的汉字,包括了GBK繁体和GBK简体,数量非常大,所以造成两方面的不便:一是重码率高,选字非常麻烦;二是繁体简体同时出现,有些字不容易分辨繁简,同时如果不知道字的读音,也很难选择拼音输入法。

现在已有软件研制商研制出能输入GBK字库的五笔字形输入法,如智能陈桥,对于熟悉五笔输入法者,比较便利。

2、用Word插入符号的方法

选“插入”菜单中的“符号”命令,在“字体”下拉列表中选“标准字体”(Word97是“宋体”),在“子集”中选“CJK统一汉字”(Word97是“部首及难检字”)。一般可在列表中找到所需的汉字。虽然该字库大致是按部首和笔画进行编排的,但查找起来还是相当麻烦。以前有万学仁先生编有《通用字符集部首表及区位码(16进制)》[1],有利于查找,如果没有该部首表,还有一种方法可以采用,先输入一个与所要输入的生僻字相同偏旁的汉字,并选中该汉字,然后用鼠标单击“插入”菜单中的“符号”项,此时会弹出“符号”对话框,再用左右方向箭进行逐个查找和挑选,就会很快找到该生僻字的。如果是一个独体字,则可以输入一个笔画相同的的独体字(也不作偏旁)。很快会在其附近找到该字。

(二)GBK字集以外生僻字的输入

1、使用Windows自带的“造字程序”

该程序操作简单,使用方便,既可以用两个字重新拆分组合成一个新字;也可以选一个相近的字加以修改而造一个新字;还可以直接在编辑框中画出您所需要的字,比较便利的是前两种方法,其步骤如下。

(l)取两个字中有用的部分,重新组合成一个新字。以“腘”字为例(为便于排版,没有选用GBK以外的字作为例字,下同),单击“开始”按钮,选“程序”、“附件”、“造字程序”,出现“造字程序”窗口。在弹出的“选定代码”窗口中确定所造的字的代码位置,比如AAA1后按“确定”按钮(如没有出现,则选“编辑”中的“选定代码”命令),此时在“造字”窗中出现“编辑”工作区。再选“编辑”菜单中的“调用”命令(在Windows2000、XP中则为“复制字符”命令),单击“字体”按钮,选择字体后,在“形状”框中输入参考字“腊”,按“确定”按钮。在“编辑”框中出现“腊”字。再选“窗口”中的“引用”命令(在Windows2000、XP中则为“参照”命令),一样选定字体,输入参考字“掴”,在“造字”窗中出现带有“掴”字的引用框。用“造字”窗左边的圈选工具圈选“编辑”框中的“昔”,按Del键。圈选“引用(参照)”框中的“国”,将它拖到编辑框中合适的位置,然后关闭“引用”框。再选“编辑”菜单中的“保存字符”命令,在对话框中按“确定”按钮。

此时该字已经建立,如文章中需要用到“腘”字只要将输入法切换至区位输入法,键入AAA1,即可出现“腘”字。

如果要在以后能以平时的输入方法输入该字,那还要补上下一步操作;选“编辑”中的“输入法链接”命令,如为第一次输入,将弹出搜索对话框,在文件名输人框中以英数方式输入你常用的输入法,单击“打开”按钮,弹出是否要创建该文件的询问,单击“是”。如有多种输入方法,则依次键入不同的输入法文件名,完成后弹出输入外码对话框,输入该字的外码(如链接了多种输入法,则有不同输入法的外码)。按“注册”按钮。但要注意输入的外码必须符合该输入法的规定,计算机不承认你自行定义的外码。

(2)用相近的字修改。以“臿”字为例:前边的步骤与前例相同,只是将参考字改为“插”。用上述的方法删除“插”字的提手旁后圈选“编辑”框中的“臿”,将它向左拖至框的中间,通过调整八个控制点来改变形状大小至满意。以后的操作与上例相同。

该法的优点是:不管是否知道该字的读音,总能通过拆分组合的方法造出来。并且,当正确输入外码注册后,平时还能以习惯的输入方法输入该字。缺点在于如果需要将使用了该造字文件的文档拷贝到其它计算机中,还需要拷贝造字文件。

(3)对于某些类似于***形的字,可以选用各种工具画出需要的字形。

2、用Word组字

Word2000的“格式”菜单中有“中文版式/双行合一”功能,工具栏上有“字符缩放”按钮,利用它们您可组合一些冷僻字。较之用其他方法要简便得多,操作方法如下:

(l)对于左右型字体,以“嬿”字为例:输入“女”字后紧接着输入“燕”字;选中“女”字,单击“字符缩放”按钮,选择合适的比例(该字可选50%);选中“燕”字,单击“字符缩放”按钮,选择合适的比例(该字可选80%);同时选中“女”与“燕”,选“格式/字体”命令,单击“字符间距”标签,在“间距”框中选“紧缩”,再单击“确定”按钮即可。

(2)对于上下型字体(以“斊”字为例):键入“文耳”两字,然后选中它,在“格式”工具栏上的“字号”框内选择合适的字号(通常输入“四号”字时可选“小五”号,输入“五号”字时可选“小六”号。但有时差距可能还要大一些);单击“字符缩放”按钮,选择合适的比例(该字可选200%);选“格式/中文版式/双行合一”命令,按“确定”按钮。

采用上法输入冷僻字要使字型漂亮,对于左右型字关键在于输入合适的比例;上下型字则在于合适的比例及“大小”框中的数值,当然字号的大小也是十分重要。但此法对于结构复杂如包围型、半包围型、声(形)占一角型等的字则不适用。采用该法组成的字,还可以作为字符串检索。

3、如果要经常运用到大量生僻字形,则可以选用已有的自造字字库进行插入。

现在已经有大型的自造字字库出现,如由日本《今昔文字镜》研究所制作的《今昔文字镜》,包括24个TTF格式的矢量字库,共包括九万个汉字。其中收录日本《ISO10646字符集》汉字两万个,《大汉和字典》汉字五万个,其他四万个汉字包括:甲骨文、梵文、大陆、台、港汉字、水文、越南字喃、汉字偏旁和造字部件、日文假名、俄文、拉丁文等各种常用字母和符号。适用于WINDOWS95/98/NT为操作系统的各种文字处理应用软件。还提供了一个简单易用的检索应用软件。

还有如北师大汉字与中文信息处理研究所研制的《说文小篆输入法》,能够输入所有小篆字形和《说文》所收古文、籀文等字形。

其它还有一些古籍数字化机构与研究人员也造了各种各样的字库,只需要安装到字体中,就可以显示打印他们所造的字。此种字库,如能有统一的规范与标准就比较好交流使用。并且最好能有一个检索和输入字符的相应软件才可资重复利用。

4、用字体制作软件制作自己的字库。现在已经有比较好用的字体制作软件,如FontCreatorProgram,如果能熟练使用,则可以自己量身定做自己的字体,优点在于可以随时补充修改。缺点在于自造字库千差万别,通用性差。

参考文献:

[1]万学仁.谈谈非常用字的信息处理[J].内江师范学院学报,2001,(3).

转载请注明出处学文网 » 生僻字信息处理

学习

一场离奇车祸的真相

阅读(24)

本文为您介绍一场离奇车祸的真相,内容包括离奇车祸背后的真相,离奇车祸的真实原因。“砰!”随着一声巨响出现在深夜寂静的公路上,一辆小轿车撞到公路旁的护栏上。“先生,你受伤了吗?”迅速赶来的警察赶到小轿车附近,看到里面的男人闭着

学习

汉中市青木川古镇旅游产品设计方案

阅读(20)

一、青木川古镇概况(一)自然环境青木川位于陕、甘、川三省交界处,曾是入川的咽喉要道,素有“一脚踏三省”之说,镇域主要地形为山区、浅山丘陵,海拔在680-1047m之间。受山地气候和西南季风气候交替控制,四季分明,气候温和,雨量充沛,植被丰富,动物种

学习

贵州水果之王刺梨与花红 人间仙境如净土花香果甜

阅读(18)

聆听过侗族大歌的人,都将难以忘怀那天然纯净的合音,生命与生命之间的连结,就是可以这样彻底的干净密实。看山间妇人农耕后,成群结队地闲步返家,随手摘取路边的野果,一口口慢悠悠地品尝着,你将相信,她们随口便能赞美天地之间的灵气。在贵州云游期

学习

HDmI带你进入高清时代

阅读(32)

随着带HDMI接口的显示器、液晶电视等显示终端的日渐丰富,带HDMI接口的板卡产品也有了用武之地,HDMi口已经成了目前及未来影音设备互联的标准之一。加上HTPC概念的普及,组建HTPC的门槛逐步降低,不少喜欢电影的朋友希望在家里搭建自己的家庭影

学习

“租借女友”弄巧成拙,荒唐婚事血腥收场

阅读(15)

他创业心切,却缺少资金。好友的叔叔承诺侄子结婚时将会赠给侄子50万元礼金。好友答应他,如果能借他的女友骗过叔叔,得到那笔巨额礼金,会付给他一笔不菲的报酬。他说服女友配合好友的行动,并签下荒唐的“出租女友”协议。然而,事情并非他们想象

学习

眠食二者,为养生之要务

阅读(22)

“眠食二者,为养生之要务。”良好的睡眠能补充能量、恢复精力,有“养阴培元”之效。中医向来讲究“天人合一”的整体观,人体不仅要维持体内循环和谐,还要注意与自然界外部环境的和谐。专家指出,随着春生、夏长、长夏化、秋收、冬藏四季的变化

学习

我要做美丽的大肚婆

阅读(28)

孕育一个生命,隆起的腹部和洋溢的幸福、满足,这就是身为女人最特别的美丽。怀孕的时候,虽然体形发生了变化,虽然总会有不能抵挡的臃肿时刻,但还是让我们一起来说:Q怀孕之后皮肤变差,护肤品还可以使用吗?A要想做个美丽的DDP(大肚婆)一定是要坚持

学习

声波投射法检测基桩时声测管的应用

阅读(19)

【摘要】:随着我国铁路交通基础建设的快速发展,钻孔灌注桩对各种地质条件的适应性、施工简单易操作且设备投入较少的特点,因此在铁路建设中得到了广泛的应用。由于钻孔桩成桩质量受地质条件、成桩工艺、机械设备、施工人员、管理水平等诸多

学习

百度全域营销:大有可为

阅读(13)

在12月8日由《互联网周刊》主办的“2011中国互联网经济论坛”上,百度鸿媒体高级产品架构师白鸥向外界介绍了一项实现精准网络广告投放的新技术――“天目”,这是百度独有的搜索行为定向的技术。通过使用这项技术,百度的鸿媒体产品能够真正

学习

向义:贵州的楹联大家

阅读(20)

自古以来,中国迎新春必有“联语”,过元宵必有“谜语”,这两种文化现象充分体现了汉字的神妙,更是中华民族的文化瑰宝。明末遗老在贵州创造的人文环境,使中华文化在当时的贵州出现了一个辉煌的创新期。在历史的发展中,很多遗老二代、三代都陆续

学习

文艺理论流派

阅读(29)

一、实践存在论派实践存在论派文学理论的形成源于实践存在论美学的倡导。与唯物史观派不同,这一理论流派以马克思主义的“实践”概念为理论侧重点,但同时又因为强调从存在论维度理解和阐释实践范畴而与传统的实践派文艺理论相区别。其代表

学习

烟花燃放技术及安全规范

阅读(23)

随着科技进步与人们对生活质量要求的提高,烟花作为一种观赏性的可燃物,越来越得到人们的认可和欢迎。本文探讨了在燃放烟花时候应当注意的科学的燃放方法及其相关安全规范,力求做到在对常规烟花燃放进行理论性指导的同时提高燃放者安全意识

学习

探求城市建筑风格形成的原因

阅读(14)

1中西文化对哈尔滨建筑的影响哈尔滨的建筑具有自己独特的风格,不仅仅体现出了哈尔滨的城市底蕴,从中更可以看出中西文化的交融,而这种交融的产生与哈尔滨的经济发展是密不可分的。在中东铁路的东侧,一片未划入沙俄统治下的区域———现今哈

学习

浅谈通过技能鉴定 提高员工技能水平

阅读(18)

【摘要】在市场竞争日趋激烈的今天,通过技能鉴定促进员工队伍的技能培训,努力开发人力资源,不断提高员工的技能水平,是企业又快又好发展的迫切要求,也是提高企业竞争力的有效途径。本文将分析如何通过技能鉴定,提高企业员工技能水平。【关键词

学习

我国环境会计信息披露

阅读(21)

本文为您介绍我国环境会计信息披露,内容包括我国环境会计信息披露政府主导,我国环境会计信息披露法律法规体系。随着经济的发展以及人类文明程度的提高,环境问题已经成为人们关注的焦点,环境会计也应运而生。环境会计信息是指企业环境行为

学习

公共物流信息平台意义深远

阅读(20)

物流业进入十大产业振兴规划多少有些让人出乎意料,但仔细考虑起来理由还是蛮充分的。其一,扩大内需的振兴规划有相当多的投资要用于基础设施建设,既是在扩大物流需求,也在增加物流资源的供给。其二,已经列入振兴规划的前九大产业均为第

学习

加强高校学生管理工作信息员队伍建设

阅读(15)

高校辅导员能否高效、及时地收集学生信息,直接影响其工作效果。信息员队伍是获得学生信息的重要渠道,可以与网络渠道互补。本文着重讨论如何加强学生、任课教师、学生家长三支信息员主体队伍建设,完善学生信息收集渠道,以达到提高学生工作效

学习

“微博控”反映现代人信息焦虑症

阅读(21)

有研究表明,任何两个人之间的关系带,基本确定在6个人左右。即两个陌生人之间,可以通过6个人来建立联系,此为6人定律,也称作6人法则。而微博的出现,则能把全球人民都团结起来,由于对微博的迷恋,网友中出现了一大批“微博控”,他们没日没夜地上微博,一上

学习

《上海市食品安全信息追溯管理办法》正式实施(一)

阅读(25)

上海已成为一座常住人口超过2400万,每年食品消费约1500万吨以上的特大型消费城市,拥有近22万家食品生产经营单位,近70%的食品和食品原料来自外省市。在这种情况下,食品可追溯就显得尤为重要。新修订的《食品安全法》确立了国家建立食品安全

学习

医院信息管理系统中电子病历系统运用

阅读(30)

在医院信息管理系统中引入电子病历系统,有助于提升医院病例的管理成效,全面提升医院信息化管理水平。虽然当前在科学技术快速发展的背景下,医院信息化建设也取得了一定的成效,但是整体来看,信息化建设依然存在一些不足。通过电子病历系统的运

学习

企业信息化建设的重要性

阅读(23)

本文为您介绍企业信息化建设的重要性,内容包括信息化建设的重要性,销售信息化建设的重要性。企业信息化建设的重要性【案例概况】江铃于二十世纪八十年代中期在中国率先通过引进国际上最新的卡车技术制造五十铃汽车,成为中国主要的轻型卡