1、OA期刊介绍
开放存取(Open Access,简称OA)或开放获取是国际学术界、出版界、***书情报界为了推动科研成果利用互联网自由传播而采取的行动。其目的是促进科学及人文信息的广泛交流,促进利用互联网进行科学交流与出版,提升科学研究的公共利用程度、保障科学信息的保存,提高科学研究的效率。
开放存取是不同于传统学术传播的一种全新机制,其核心特征是在尊重作者权益的前提下,利用互联网为用户免费提供学术信息和研究成果的全文服务。首先,开放存取是基于互联网的学术传播机制。互联网是开放存取赖以生存的媒介形态,这是因为互联网的发展导致了学术传播成本的下降,从而为学术信息的开放存取提供了可能。但是,媒介形态本身并不是区别开放存取与传统学术期刊出版的标志,目前很多出版者都提供了网络版的数据库和电子期刊,但在营销策略上仍然采用了传统的基于订阅的传播模式。其次,开放存取是免费提供全文的信息服务方式。在开放存取模式下,科研人员不需要通过付费(包括个人订阅或者团体订阅)就能访问学术信息的全文。换言之,只要具备链接互联网的物理条件,科研人员就可以方便地获取学术信息的全文。从这个角度来看,只是开放文献的基本书目信息并不是开放存取的表现形式。事实上,传统出版机构往往允许用户免费浏览其文摘,这种做法只是他们推广和销售全文服务的一种常用的营销战略而已 。其次,开放存取充分尊重作者的权益,并不违背知识产权的精神 。基于开放存取传播的作品不一定都是“公共领域作品”,它并没有要求作者放弃对作品的全部权利,作者可以基于不同法律文本和授权协议(比如创作共用协议)对作品版权进行取舍。
开放存取自出现以来,OA期刊和仓储得以迅速发展。目前全世界已有5225个人和534个相关研究机构签署了信息自由传播会议(Budapest Open Access Initiative,简称BOAI)计划协议。
截至2010年,DOAJ(Directory of Open Access Journal,开放存取期刊目录)共收录OA期刊4953种,其中2014种提供文章层次的浏览,共收录文章384945篇;在OpenDOAR(由英国的诺丁汉大学和瑞典的伦德大学***书馆于2005年2月共同创建的开放获取机构资源库、学科资源库目录检索系统)注册的OA仓库已达1620个。
目前,OA在国内仍处于起步阶段。如我国被DOAJ收录的OA期刊仅有14种;而被OpenDOAR注册的OA仓储也仅有7个。此外,开放存取在用户中的认知度还很低,大部分用户从未听说过开放存取,使用过开放存取资源的用户更是少之又少。
2、OA期刊实证分析
为进一步验证本文提出的方法,对基于网页信息抽取的OA期刊资源采集系统的主要功能进行具体的实现。(1)网页元素采集。使用JavaFX可视化组件WebView,实现资源选择和查询语句自动生成,通过网页解析器Jsoup根据查询语句采集网页信息。具体而言,当WebView组件加载HTML内容时,为每个节点添加事件监听,当鼠标点击某节点时,系统会将该节点赋值给“org.w3c.dom.Node”类型的变量。Node类提供“getParentNode”的方法来获取当前节点的父类节点,据此可递归寻找到当前节点到网页根节点的路径。通过将路径中各节点标签名和属性值拼接成Jsoup能够识别的查询语句,再使用Jsoup中select方法对待采集节点的信息进行采集,即可完成网页元素采集工作。(2)半结构化文本信息抽取。具体实现方式为通过用户标注的分隔符,再根据分隔符位置,提取元数据字段信息。OA期刊网站通常会将“年、卷、期”组合成一条文本信息,如“2017,vol39,no.1”。在抽取具体信息时,先将该条文本信息作为网页元素进行采集,再通过用户在文本中插入分隔符进行标注,将所需采集信息与固定展示信息进行分隔,即“{2017},vol{39},no.{1}”“2017”“39”“1”是需要采集的信息,“,vol”“,no.”是固定展示信息。固定展示信息内容通常不会改变,因此,可以根据固定展示信息位置来抽取文本中相应信息。(3)网页结构检查。根据规定所需采集的必须字段,来作为判断网页结构是否发生变化的标准,如果采集到的必须字段为空则认为当前网页结构已发生变化,需重新选择和采集。如文章标题作为必须字段,在网页元素采集时会判断采集到的该字段是否为空。如果为空则可能有两种情况:一是当前页面确实没有该字段,此页面为脏页面;二是当前页面存在该字段,但该元数据采集规则不适用于当前页面,则可以判断此页面为结构变化后的页面。系统无法识别必须字段为空时属于何种情况,因此,系统会将当前页面加入结构变化页面链接数组中。该轮采集结束后,提取结构变化网页链接数组的第一个链接,在内嵌浏览器中进行展示,由用户对字段为空的情况作出判断。系统对两种情况均提出解决方案,对于第一种脏页情况,直接跳过,并将该页面链接从结构变化的网页链接数组中删除;对于第二种网页结构变化的情况,用户会在结构变化后的页面上重新进行元数据选择,将形成的新采集规则加入原采集规则集合中,系统会使用新的采集规则继续进行采集。这样往复2—3次便可以遍历网站所有模板,进而采集到全数据,解决OA期刊资源网页结构多变而无法全面采集的问题。为验证基于网页信息抽取的OA期刊资源采集方法的有效性,本文选择国内外不遵循OAI-PMH协议的10本OA期刊的网站作为采集对象,通过爬虫脚本采集10本OA期刊的论文链接数量,作为采集数量全面性的标准。测试结果如表5所示。由表5可知,10本期刊共采集到论文45785篇,采集时间共用31039秒,其中有4本期刊的网页结构发生变化。通过系统测试结果可以看出,基于网页信息抽取的OA期刊资源采集方法可以灵活应对不同OA期刊资源的采集。在准确率方面,该方法能准确采集单一型资源和文本结构固定的组合型资源,说明其能够适用于OA期刊资源采集工作。基于网页信息抽取的OA期刊资源采集系统的网页结构检查能准确识别网页结构变化,并对结构变化后的资源进行采集。除部分OA期刊网站存在无法访问或无详细信息外,采集到的论文数量与通过爬虫脚本统计到的论文链接数一致。从采集时间上看,平均1000篇文章的采集时间为678秒。总体而言,基于网页信息抽取的OA期刊资源采集方法,能较好地满足不遵循OAI-PMH协议的OA期刊资源采集需求。