摘要:分词技术做为WEB文本摘要的一个重要的技术环节,在WEB文本摘要技术中占有很重要的地位,本文从分词方法及分词算法两个角度对中文分词技术进行研究与分析。
关键词:中文分词 未登录词 特征词
中***分类号:TP 文献标识码:A 文章编号:1007-0745(2013)05-0360-01
词是最小的能够***活动的有意义的语言成分,是计算机处理信息的基本单位。词界(Word Houndury)是词语之间的间隔,词界之间的标志是两个词间的分隔符。汉语分词的过程也就是找出词界的过程。
1.分词方法
1.1基于词典的分词方法
M最大,最小匹配标志,1为最大匹配,-1为最小匹配
分词的过程,即可以表示为在DAG中,从P0到Pn+1的路径中利用评价函数选取最佳路径的过程。
1.2基于统计的分词方法
1.2.1统计分词模型
N元语言模型。
1.2.2 N元模型
N元语言模型是一种常用的统计语言模型,利用其展开P(W)为:
2.未登录词及分词算法
2.1未登录词问题
未登录词问题源于分词中词典的大小,词典中容量有限。则必定存在词典中没有出现的词,你为未登录词,未登录词,包括词典中未登录的人名、地名、机构名、新词语等。在实际的书面文本中,特别是在新闻类文本中,大量包含人名、地名、机构名等,未登录词的处理成为文本自动切分的一个十分突出的问题。
2.2中文自动分词的基本算法
2.2.1正向最大匹配法(MM, Maximum Match Method)
该方法的基本思想是,从待切分语句中,沿正向(从左到右的阅读方向)截取一定长
度(称为最大词长)的字符串。然后将这个字符串与词典中的词进行匹配,若匹配成功,则确定这个字符串为一个词。然后,将指向被匹配语句的指针正向移动该字符串长的距离,继续进行下一次匹配。若匹配不成功,则将字符串长度逐次减一,再进行匹配,直到成功为止。这种方法的优点是时间复杂度低、易于实现。
2.2.2特征词库法
特征词库法实际上是一种“分而治之”的分词方法,其基本思想是:
事先建立一个特征词库,其中包含各种具有切分特征的词;
对给定的待分词的汉字串S,首先根据特征词库将S分割成苦干个较短的子串;
然后对每个子串分别采用机械匹配法进行切分。
特征词库法的理论依据是汉语中存在一些开态标志。比如,各种词缀(包括前缀和后缀)、虚词和重叠词,这些形态标志可为汉语的切分提供重要依据,在自动切分时应尽可能加以利用。一般在分词的预处理阶段应考虑这种方法的应用。
2.2.3约束矩阵法
引入约束矩阵算法之前,先解释一下什么叫歧义切分,所谓歧义切分是指相同的汉字串被切分成不同的词的序列。如汉字串“计算机房”既可切成“计算机/房”也可被切成“计算/机房”。歧义切可分为交集型歧义切分和组合型歧义切分。交集型歧义切分是指形为ABC的汉字串既可切分成AB/C又可切分成A/BC。所谓组合型歧义切分是指AB汉字串既可切成AB又可切成A/B,当某个汉字串具有歧义切分时,如何在不同的切分中先一个正确的结果?约束矩阵法是为解决这个问题而提出来。