摘要:借助IPC分类分析算法,对全文专利文献结构中几个重要单元段落的技术含量评估,来观测每个单元段落其技术含量对专利文献分类的贡献,从而有针对性地调整有效的专利自动分类分析源。避免专利自动分类盲目大数据量运算导致专利自动分类效率降低。本文对专利自动分类选择何种数据源和代价以及制定算法策略具有指导意义。
关键词:IPC分类;分类表;TF-IDF;相似度算法;文献结构;技术分布分析;
中***分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)03-0215-04
笔者从事专利自动化项目开发和维护廿余年,一直以为对专利文献有一定程度的了解,谈到专利的技术构成会未假思索地沿用前人的结论:专利文献技术的构成主要由发明名称、摘要、技术领域和权利要求等重要段落基本可以确定。甚至,对权利要求书毫不犹豫推为主选。直至最近通过笔者的一系列分析研究实验,见到实验数据结果后,才真正完全彻底地颠覆了从前的认识。笔者公开这一分析与公众分享,请方家指正,亦即本文的目的。
1 实验背景及方法
本文在自主完成分词技术的研究[1][2]和专利“标题+摘要”辅助自动分类算法研究[3]的基础上,对专利文献层次结构展开进一步单项分析。参见***1专利文献层次结构分析流程***:
1.1 专利文献的层次结构
专利文献主要分为专利著录项目、专利说明书和专利的权利要求书。
其中专利著录项目包括:专利公布的文献号、公布日期、ipc技术领域分类、发明名称、摘要和其他权利人相关的信息、在先申请信息等。这里与技术特征相关的段落主要是:ipc技术领域分类、发明标题和摘要。
专利说明书包括:发明名称、技术领域、背景技术、发明内容及其有益效果、实施方法及其附***等。笔者将其中发明内容和有益效果被看作发明内容整体来考虑,且与专利文摘抽象的构成要素密切相关。这里与技术特征相关的段落主要是:技术领域、背景技术和发明内容。
权利要求:主要包括***的权利要求和从属权利要求等详细描述。当发明内容过于庞杂时专利文摘的抽象的构成要素过于分散,同时伴随的权利要求书也可能会非常庞杂,不容易抓出重点。通常专利文摘会以首个***的权利要求构成专利文摘的抽象要素,然后辅以其他权利要求的概括性综述。亦即,专利自动文摘技术通常是以发明内容或首个***权利要求及其他综述为依据连同发明的有益效果等抽象要素构成专利文摘。
专利文献与技术相关领域相关的段落总体可以概括为:Ipc、发明名称、摘要、技术领域、背景技术、发明内容、权利要求书。其中发明内容属于大信息量描述,由多达200个段落,个别段落超过600汉字的内容构成超大单元模块。
1.2 专利文献的层次结构解析
专利文献的解析工作主要是从专利文献电子文档中获取层次结构中上述最主要技术代表的7个部分。
通常将不包括ipc在内的6个单元模块连同整个文献,分别作分词分解,然后与IPC分类表技术要素,通过数学模型TF-IDF等算法进行要素可计算性计算,分别给出ipc分数排名。最后通过查看专利文献中的ipc分类在每个单元段落解析ipc排名中的位置,通常关注前几项排名,例如前三项排名,是否命中,来判断其收敛性。由于专利文献的具象复杂性与专利分类表抽象的术语之间存在差异,其解决办法在文献[3]中,主要采用同义词库上位词或线索词来建立沟通机制。这样,就会大大解决了命中率和收敛性问题。但是,这样也会掩盖了技术要素分类的真实性。因此,本文拒用同义词库参与实验,目的是尽量还原其原生态现象,来观测其各个单元段落部分的技术构成。从而再现所抽样的文献的主要技术分布情况。
2 实验数据分析
限于篇幅,通过对参与实验抽样得到的22篇专利文献电子文档2013***** ***new.xml,进行解析,得到各个单元模块的ipc细目(H99Z 9/99),ipc到大组(H99Z 9/),ipc到小类(H99Z)的首度出现排名位置,用{ H99Z 9/99排名,H99Z 9/排名,H99Z排名}表示。其中不以实际ipc为参照,主要检测ipc到大组的排名位置,亦即,H99Z 9/的排名作为命中目标的参照。数据中排名位置是从0开始的。-1代表没有找到或者50名位置以后的,表示发散。例如:{0,0,0}表示三者都排在首位,绝对命中。参见《技术分类排名明细表》表1
分析排名分段分别为:(1)0-2,前三名;(2)3-6,次4名;(3)7-9,后三名。得到《技术分类排名统计表》,参见表2。
通过数据分析,已知,发明内容和全文属于文献大信息量单元模块。标题、文摘、技术领域、技术背景、权利要求属于小信息量单元模块。
排名前三的精确命中依次为:
技术背景、文摘 > 全文 > 标题、发明内容 > 技术领域、权利要求
排名前七的模糊命中依次为:
全文>发明内容>文摘、技术背景>标题、技术领域、权利要求
排名前十的模糊命中依次为:
全文>技术背景>发明内容>文摘>技术领域、权利要求>标题
对于组合情况而言:
以小数据量组合在一起的:发明名称、摘要、技术领域、背景技术和权利要求书。其中权利要求书影响力不大,且被前4项冗余。而前4项之间具有互补性。其中背景技术以技术领域作补充;摘要以发明名称作补充;背景技术+技术领域又以摘要+发明名称作补充。其影响力依次为:背景技术、技术领域、摘要、发明名称。
以大数据量组合在一起:全文和发明内容,两者具有互补。
小信息量组合与大信息量组合进行对比,参见表3小信息量与大信息量段落的组合对比统计表:
小信息量组合要强于大信息量组合。请再仔细回看表1,甚至完全覆盖。
因此,对于自动分类来说,选择文摘和技术背景为主,标题和技术领域作补充。可作为最优选择方案。
如果是自动分类候选ipc方案,可以采用依次背景技术、技术领域、摘要、发明名称ipc排名前三名甚至前两名。可供选择的数据量为(3*4=)12个ipc或(2*4=)8个ipc,其中或有重复的ipc。其对应的ipc大组,即H99Z 9/具有(15/22=)68.2%的概率(参见表1),并可出现在其狭小选择范围内。其选择的目标范围已经大大缩小。其中还有相当多的是重复的和主ipc或者相关ipc。该算法结合同义词库或者提供线索词方法可以大大提高自动分类的命中率和收敛范围。
3 实验结论
通过解析专利文献结构段落的技术含量,不难得出这样一个结论:专利文献技术的构成完全可以通过小信息量的段落解析运算来进行有效地可计算性判断。可以避免使用全文或者冗长的发明内容的大数据量计算解析来获得判断。将主要精力依次放在背景技术、技术领域、摘要、发明名称等小信息量便可容易获得,其计算量也不会太大。
另外,最值得注意的是,一个颠覆人们习惯认知,即普遍认为:专利领域和权利要求书是用于描述和反映专利技术特征及其领域的最主要单元模块,标题也非常重要。而在实际文献撰写中发明人最缺乏表现力的恰恰是人们通常认为最重要的那些单元段落部分。事实完全与人们预期的截然相反。分析数据表明,标题、专利领域和权利要求书,对判断文献技术领域自动分类来说,在7个单元中实际表现力其实是最差的三个单元。这实在应该要引起专利主管部门的注意:每年一度的人培训和考试,是否对人提出过更高的标准要求,在协助发明人撰写专利说明书的时候,是否考虑如何利用这些职能段落来充分表达其专利技术和权利的诉求,形审部门在形式审查中是否对文献有更高的标准要求权利人撰写符合足够要求的文档,作为形式审查是否合格的判别依据呢?
参考文献:
[1] 吴宏洲.分词技术的研究与应用――一种快速分词的实现[J].电脑知识与技术, 2015, 11(6):179-182.
186
[2] 吴宏洲.分词技术的研究与应用――一种抽取新词的简便方法[J].软件工程师, 2015,12, 18(12):64-68.
[3] 吴宏洲. IPC自动分类技术的研究与应用――辅助自动分类的算法实现[J]. 电脑知识与技术, 2015(11) (33).
转载请注明出处学文网 » IPC自动分类技术的研究与应用