IPC自动分类技术的研究与应用

摘要:借助IPC分类分析算法,对全文专利文献结构中几个重要单元段落的技术含量评估,来观测每个单元段落其技术含量对专利文献分类的贡献,从而有针对性地调整有效的专利自动分类分析源。避免专利自动分类盲目大数据量运算导致专利自动分类效率降低。本文对专利自动分类选择何种数据源和代价以及制定算法策略具有指导意义。

关键词:IPC分类;分类表;TF-IDF;相似度算法;文献结构;技术分布分析;

中***分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)03-0215-04

笔者从事专利自动化项目开发和维护廿余年,一直以为对专利文献有一定程度的了解,谈到专利的技术构成会未假思索地沿用前人的结论:专利文献技术的构成主要由发明名称、摘要、技术领域和权利要求等重要段落基本可以确定。甚至,对权利要求书毫不犹豫推为主选。直至最近通过笔者的一系列分析研究实验,见到实验数据结果后,才真正完全彻底地颠覆了从前的认识。笔者公开这一分析与公众分享,请方家指正,亦即本文的目的。

1 实验背景及方法

本文在自主完成分词技术的研究[1][2]和专利“标题+摘要”辅助自动分类算法研究[3]的基础上,对专利文献层次结构展开进一步单项分析。参见***1专利文献层次结构分析流程***:

1.1 专利文献的层次结构

专利文献主要分为专利著录项目、专利说明书和专利的权利要求书。

其中专利著录项目包括:专利公布的文献号、公布日期、ipc技术领域分类、发明名称、摘要和其他权利人相关的信息、在先申请信息等。这里与技术特征相关的段落主要是:ipc技术领域分类、发明标题和摘要。

专利说明书包括:发明名称、技术领域、背景技术、发明内容及其有益效果、实施方法及其附***等。笔者将其中发明内容和有益效果被看作发明内容整体来考虑,且与专利文摘抽象的构成要素密切相关。这里与技术特征相关的段落主要是:技术领域、背景技术和发明内容。

权利要求:主要包括***的权利要求和从属权利要求等详细描述。当发明内容过于庞杂时专利文摘的抽象的构成要素过于分散,同时伴随的权利要求书也可能会非常庞杂,不容易抓出重点。通常专利文摘会以首个***的权利要求构成专利文摘的抽象要素,然后辅以其他权利要求的概括性综述。亦即,专利自动文摘技术通常是以发明内容或首个***权利要求及其他综述为依据连同发明的有益效果等抽象要素构成专利文摘。

专利文献与技术相关领域相关的段落总体可以概括为:Ipc、发明名称、摘要、技术领域、背景技术、发明内容、权利要求书。其中发明内容属于大信息量描述,由多达200个段落,个别段落超过600汉字的内容构成超大单元模块。

1.2 专利文献的层次结构解析

专利文献的解析工作主要是从专利文献电子文档中获取层次结构中上述最主要技术代表的7个部分。

通常将不包括ipc在内的6个单元模块连同整个文献,分别作分词分解,然后与IPC分类表技术要素,通过数学模型TF-IDF等算法进行要素可计算性计算,分别给出ipc分数排名。最后通过查看专利文献中的ipc分类在每个单元段落解析ipc排名中的位置,通常关注前几项排名,例如前三项排名,是否命中,来判断其收敛性。由于专利文献的具象复杂性与专利分类表抽象的术语之间存在差异,其解决办法在文献[3]中,主要采用同义词库上位词或线索词来建立沟通机制。这样,就会大大解决了命中率和收敛性问题。但是,这样也会掩盖了技术要素分类的真实性。因此,本文拒用同义词库参与实验,目的是尽量还原其原生态现象,来观测其各个单元段落部分的技术构成。从而再现所抽样的文献的主要技术分布情况。

2 实验数据分析

限于篇幅,通过对参与实验抽样得到的22篇专利文献电子文档2013***** ***new.xml,进行解析,得到各个单元模块的ipc细目(H99Z 9/99),ipc到大组(H99Z 9/),ipc到小类(H99Z)的首度出现排名位置,用{ H99Z 9/99排名,H99Z 9/排名,H99Z排名}表示。其中不以实际ipc为参照,主要检测ipc到大组的排名位置,亦即,H99Z 9/的排名作为命中目标的参照。数据中排名位置是从0开始的。-1代表没有找到或者50名位置以后的,表示发散。例如:{0,0,0}表示三者都排在首位,绝对命中。参见《技术分类排名明细表》表1

分析排名分段分别为:(1)0-2,前三名;(2)3-6,次4名;(3)7-9,后三名。得到《技术分类排名统计表》,参见表2。

通过数据分析,已知,发明内容和全文属于文献大信息量单元模块。标题、文摘、技术领域、技术背景、权利要求属于小信息量单元模块。

排名前三的精确命中依次为:

技术背景、文摘 > 全文 > 标题、发明内容 > 技术领域、权利要求

排名前七的模糊命中依次为:

全文>发明内容>文摘、技术背景>标题、技术领域、权利要求

排名前十的模糊命中依次为:

全文>技术背景>发明内容>文摘>技术领域、权利要求>标题

对于组合情况而言:

以小数据量组合在一起的:发明名称、摘要、技术领域、背景技术和权利要求书。其中权利要求书影响力不大,且被前4项冗余。而前4项之间具有互补性。其中背景技术以技术领域作补充;摘要以发明名称作补充;背景技术+技术领域又以摘要+发明名称作补充。其影响力依次为:背景技术、技术领域、摘要、发明名称。

以大数据量组合在一起:全文和发明内容,两者具有互补。

小信息量组合与大信息量组合进行对比,参见表3小信息量与大信息量段落的组合对比统计表:

小信息量组合要强于大信息量组合。请再仔细回看表1,甚至完全覆盖。

因此,对于自动分类来说,选择文摘和技术背景为主,标题和技术领域作补充。可作为最优选择方案。

如果是自动分类候选ipc方案,可以采用依次背景技术、技术领域、摘要、发明名称ipc排名前三名甚至前两名。可供选择的数据量为(3*4=)12个ipc或(2*4=)8个ipc,其中或有重复的ipc。其对应的ipc大组,即H99Z 9/具有(15/22=)68.2%的概率(参见表1),并可出现在其狭小选择范围内。其选择的目标范围已经大大缩小。其中还有相当多的是重复的和主ipc或者相关ipc。该算法结合同义词库或者提供线索词方法可以大大提高自动分类的命中率和收敛范围。

3 实验结论

通过解析专利文献结构段落的技术含量,不难得出这样一个结论:专利文献技术的构成完全可以通过小信息量的段落解析运算来进行有效地可计算性判断。可以避免使用全文或者冗长的发明内容的大数据量计算解析来获得判断。将主要精力依次放在背景技术、技术领域、摘要、发明名称等小信息量便可容易获得,其计算量也不会太大。

另外,最值得注意的是,一个颠覆人们习惯认知,即普遍认为:专利领域和权利要求书是用于描述和反映专利技术特征及其领域的最主要单元模块,标题也非常重要。而在实际文献撰写中发明人最缺乏表现力的恰恰是人们通常认为最重要的那些单元段落部分。事实完全与人们预期的截然相反。分析数据表明,标题、专利领域和权利要求书,对判断文献技术领域自动分类来说,在7个单元中实际表现力其实是最差的三个单元。这实在应该要引起专利主管部门的注意:每年一度的人培训和考试,是否对人提出过更高的标准要求,在协助发明人撰写专利说明书的时候,是否考虑如何利用这些职能段落来充分表达其专利技术和权利的诉求,形审部门在形式审查中是否对文献有更高的标准要求权利人撰写符合足够要求的文档,作为形式审查是否合格的判别依据呢?

参考文献:

[1] 吴宏洲.分词技术的研究与应用――一种快速分词的实现[J].电脑知识与技术, 2015, 11(6):179-182.

186

[2] 吴宏洲.分词技术的研究与应用――一种抽取新词的简便方法[J].软件工程师, 2015,12, 18(12):64-68.

[3] 吴宏洲. IPC自动分类技术的研究与应用――辅助自动分类的算法实现[J]. 电脑知识与技术, 2015(11) (33).

IPC自动分类技术的研究与应用

转载请注明出处学文网 » IPC自动分类技术的研究与应用

学习

中医养肾三字经

阅读(29)

本文为您介绍中医养肾三字经,内容包括中年人养生的三字经,养肾三字经的功效。世界卫生组织最新数据显示,40岁以上的人,慢性肾脏病患病率约为7%~10%,不亚于糖尿病和高血压发病率,成为威胁全世界的主要疾病之一。慢性肾脏病发病还呈现出年轻化

学习

论川端康成文学的“物哀”之美

阅读(31)

内容“物哀”是日本文学的传统理念,川端康成先生作为日本现代文学的代表人物,其文学创作具有浓烈而独特的“物哀”品格。《伊豆的》和《雪国》是川端先生的经典之作,本文将从这两部作品中的具体语句入手,来分析其文学创作的“物哀”审美意识

学习

仿真模型验证分析

阅读(25)

本文为您介绍仿真模型验证分析,内容包括仿真模拟模型分析方法,仿真菜品模型制作教程。1引言概念模型作为真实世界向仿真实现转换的一个阶段,在仿真系统的开发中发挥着极其重要的作用,但前提是其本身是正确且可信的。概念模型表达真实世界

学习

高等数学在经济中的应用

阅读(33)

高等数学在经济研究中起着基础性作用,只有学好高等数学才能更好的理解剖析经济现象掌握经济知识。本文主要用数学分析、常微分方程、高等代数、概率与数理统计等课程的相关知识来说明高等数学在经济中的应用。Abstract:Advancedmathematic

学习

幼儿园室外游戏活动场地设计探析

阅读(26)

良好的幼儿园室外游戏活动场所是孩子健康快乐成长的必要保证,在宽敞舒适的游戏活动场地中嬉戏锻炼是每一个孩子和每一个家长的心愿,本文分析了幼儿园场地的设计,提出了对游戏活动场地的思考。关键词:幼儿教育室外游戏活动场地在幼儿园中,孩子

学习

黄飞鸿故里光大武术文化

阅读(40)

近半个世纪以来,黄飞鸿这个名字早已蜚声海内外。以他为原形创作的影视作品就有100多部,其中已故香港艺人关德兴师傅亲自扮演和拍摄黄飞鸿的影视集就有77部;武打巨星成龙、李连杰、赵文卓等亦演绎过黄飞鸿的绝世风采,黄飞鸿已成为了中华武术

学习

安全感:我们要给孩子做一个“摔得容易”

阅读(36)

〔关键词〕安全感;“摔得容易”;心理环境面对可能的失败,孩子们会选择果断地冲上去,还是因为担心结果而选择拒绝挑战?一次失败后,孩子们会选择再挑战一次,还是因为背负羞愧而选择退缩?如果孩子们常常选择拒绝或退缩,这是为什么?在《还珠格格》里有

学习

自由基揭秘

阅读(48)

本文为您介绍自由基揭秘,内容包括去自由基的食物,自由基如何理解。40多年前,自由基这个名称还只是在少数生物化学家范围内流通,而且只知道自由基是活性很高的分子。几乎可以和任何条件下的任何惰性物质发生反应。后研究发现,自由基在人的生

学习

以组织结构优化整合促管理效率提升

阅读(29)

根据《国家电网公司关于印发县公司机构设置和人员配置补充方案》和《甘肃省电力公司上划县供电企业并轨管理指导意见》,国网白银公司在统一目标模式的指导下,兼顾5个代管县供电公司实际情况及地域差异,以定编、定岗、定员为抓手,调整组织结

学习

缓控释肥知识简介

阅读(29)

本文为您介绍缓控释肥知识简介,内容包括缓控释肥真假辨别方法,中国十大名牌缓控释肥。缓控释肥料是一种根据作物不同生长阶段对营养需求而释放养分的新型肥料,具有控制肥料养分释放、肥效周期长等特征,可使传统化肥利用率提高。因此,由

学习

培养学生确定目标、制定计划的重要性

阅读(28)

本文为您介绍培养学生确定目标、制定计划的重要性,内容包括2022年给自己制定的目标计划,学生制定计划和目标的意义。朱海是我的一名学生,也是我一直以来研究的对象,如今事业蒸蒸日上,在同学眼中是一名成功者,我静下心来沉淀,沉淀这几年来我的

学习

张飞,字益德

阅读(23)

本文为您介绍张飞,字益德,内容包括张飞是益德还是翼德,张飞益德完整版。看到这个题目,不少人一定以为我写错了——怎么会是“张益德”呢?应该是“张翼德”呀!是的,在《三国演义》中,张飞是字翼德,但在历史史实上,张飞却是字“益德”的。这一点,

学习

原材料实际成本与计划成本计价核算方法对比

阅读(30)

本文对原材料的实际成本与计划成本核算方法从含义、适用情况、账户设置、具体核算环节等方面进行了对比,通过对比,学习者可以较为准确地掌握这两种核算方法,最后提出了在计划成本核算方法中应注意的几个问题,将进一步加深对计划成本核算方法

学习

硇洲灯塔 第5期

阅读(38)

本文为您介绍硇洲灯塔 第5期,内容包括硇洲灯塔的历史价值,硇洲灯塔内部完整曝光。硇洲灯塔是世界目前仅有的两座水晶磨镜灯塔之一,与伦敦灯塔、好望角灯塔齐名为世界著名的三大灯塔,被列为部级文物保护单位。硇洲岛,古称硭,是20―50万年前由

学习

个人所得税法实施条例细则

阅读(32)

本文为您介绍个人所得税法实施条例细则,内容包括个人所得税法实施条例细则,企业所得税法实施条例实施细则。自2006年个税改革以来,随着社会经济形势发展变化,居民收入的增加,人民群众的消费支出水平也有所提高,2006年修改的个人所得税法也逐

学习

法人的分类

阅读(48)

本文为您介绍法人的分类,内容包括法人的概念和分类,民法典对法人的分类。(一)民法通则的分类对于法人,法律是采取分类管理的,因此,根据分类管理的需要,要对法人按一定标准进行分类。民法通则按法人的功能、设立方法以及财产来源的不同,把法人

学习

法律援助细则

阅读(32)

本文为您介绍法律援助细则,内容包括最新法律援助法全文,法律援助办案补贴细则。第一章总则

学习

美观卡环的分类设计与临床应用

阅读(68)

[摘要]美观卡环式活动义齿既能保留可摘局部义齿不磨牙、少磨牙及低价格等优点,也能让患者拥有无金属显露的自然笑容,是牙列缺损患者有效又美观实惠的选择。本文对美观卡环的概念、原理、分类设计方案及临床应用进行概述。

学习

浅谈陶瓷基复合材料的分类及性能特点

阅读(33)

本文为您介绍浅谈陶瓷基复合材料的分类及性能特点,内容包括超高温陶瓷基复合材料概念股,我国陶瓷基复合材料新成果。摘要:陶瓷基复合材料是以陶瓷为基体与各种纤维复合的一类复合材料,有效解决了陶瓷的脆性问题,开始在航空、航天、国防等领

学习

浅谈边坡的分类与防护方法

阅读(28)

本文为您介绍浅谈边坡的分类与防护方法,内容包括高边坡防护浅谈,边坡的防护措施。摘要:边坡防护工程是一个综合性的问题,设计的学科范围比较广泛,主要论述了边坡的一些分类及常用防护方法。

学习

现代汉语偏义复词的分类及特点探究

阅读(33)

本文为您介绍现代汉语偏义复词的分类及特点探究,内容包括现代汉语中的偏义复词举隅,现代汉语中的偏义复词有哪些。【摘要】现代汉语偏义复词是现代汉语词汇并列合成词中很有特点的一类词,其形式上是并列结构,在意义上却偏向于某一语素,另一

学习

消费者购买行为分类

阅读(30)

本文为您介绍消费者购买行为分类,内容包括消费者购买行为的划分标准,影响消费者购买行为的因素。一、文献回顾