近年来我们结合工作实际,对文件汇编进行了调研,开发了《文件自动汇编管理系统》,通过自动汇编《后勤工作文件汇编》,论证了计算机辅助文件汇编的可行性。
一、文件自动汇编原理
文件自动汇编的基本原理是,收集电子文件,建立电子文件数据库;依据人工汇编经验提炼自动汇编规则,建立汇编规则数据库;依据汇编规则,对电子文件数据库中的电子文件进行自动筛选、自动分类、自动编排;依据电子文件数据库中的汇编文件,建立汇编文件数据库,对汇编文件进行维护、检索、统计、打印等管理;利用汇编文件数据,印刷成书发行或制作电子版本发行。
文件自动汇编规则是对人工汇编经验的描述,是文件自动汇编的依据。经过充分调研论证并通过后勤工作文件汇编实践,确定四种文件自动汇编规则:汇编免选规则、汇编必选规则、汇编分类规则和汇编编排规则。不同的文件汇编对象,具有不同的文件汇编规则。因此,自动汇编规则一定要根据实际情况和针对不同的汇编对象来制定,并在实践中不断修改完善。在文件自动汇编过程中,符合汇编免选规则的电子文件,自动判定为“非汇编文件”;符合汇编必选规则的电子文件,自动判定为“汇编文件”;符合汇编分类规则的汇编文件,自动进行分类;符合汇编编排规则的汇编文件,自动进行编排。
文件自动汇编规则的提炼方法:将人工汇编经验提炼成条件关键词与结论关键词,并构成条件语句(若……则……),即若条件关键词成立,则结论关键词成立。例如,“后勤工作文件汇编不收录绝密文件”。这条人工汇编经验可以提炼成汇编免选规则:若电子文件的密级为“绝密”(条件关键词),则可判定该电子文件为“非汇编文件”(结论关键词)。
二、建立文件汇编数据库
在人工收集实体文件的同时,可利用计算机通过网络或存储介质收集其电子文件。尚无电子文件的纸质文件,可利用汉字识别系统OCR扫描识别,生成其电子文件。请注意,有些字迹颜色较浅、纸张质量较差的文件,先对原件进行复印,再对复印件进行扫描,其识别率会有很大的提高。例如有些纸张发黄纸质较差的报纸,直接扫描识别率低于60%?熏对其复印件进行扫描识别率高于90%。对于扫描识别后不太准确的电子文件,可先校正电子文件目录数据,待汇编选中之后再校正汇编文件全文数据。校正目录数据能提高自动汇编的准确率,无需校正未选中的电子文件全文数据能节省汇编时间。
文件汇编数据库包括电子文件数据库、汇编规则数据库和汇编文件数据库。
电子文件数据项可设置为电子文件号、文件标题、文件编号、时间、责任者、文种、密级、全文首页、汇编标志、汇编类目编号、汇编类目、汇编文件序号、汇编文件标题、汇编文件编号和汇编文件时间。汇编规则数据项可设置为规则序号、代码1、代码2、判定内容、包含状态、条件关键词和结论关键词。汇编文件数据项可设置为汇编类目编号、汇编类目、汇编文件序号、汇编文件标题、汇编文件时间、汇编文件页号、汇编文件字数和汇编文件全文。
文件汇编数据库应根据实际情况确定数据类型与长度,针对不同的汇编对象增加、删除数据项。确定数据结构之后,应分析数据特征,针对不同类型的数据,应用自动汇编管理软件,将数据录入数据库,并对数据库进行管理与维护。
下面是汇编规则数据库的前两条内容:
三、文件自动汇编
在电子文件数据库中,选中一批或全部需要自动汇编的电子文件。依据汇编规则数
据库中的汇编规则,逐条对电子文件进行自动筛选、分类、编排。从第一条规则开始,依次对电子文件进行判定――判定内容是否包含条件关键词?若条件不满足,则结论关键词不成立。依据下一条规则,继续对电子文件进行判定,直到全部规则判定完毕。继续对下一份电子文件进行自动筛选、分类、编排。若条件满足,则结论关键词成立。继续对下一份电子文件进行自动筛选、分类、编排。依次类推,直到选中的全部电子文件自动汇编完毕。
分析自动汇编结果,找出造成误差原因,调整汇编规则,完善自动汇编管理软件,提高自动汇编准确率。例如,有一批电子文件包含大量的报告文件,计算机自动汇编后将报告文件判定为汇编文件。分析这类误选文件,不难发现这些文件的文种均为“报告”。为提高自动汇编准确率,可在汇编免选规则中增加一条规则――若文种数据项包含“报告”,则可判定该电子文件为非汇编文件。调整规则之后,有针对性地选择电子文件,运行自动汇编管理软件进行自动汇编。再次分析自动汇编结果,再次调整规则,再次自动汇编,直到满意为止。
不论怎么进行汇编规则调整,汇编规则都不可能穷尽人工所有汇编经验。换言之,文件自动汇编不可能百分之百准确,需要人工调整。另外,根据汇编文件重要程度、汇编总字数限量及领导的有关指示和要求,自动汇编之后还需要人工全面审定。
四、结论
综上所述我们可以看出,计算机辅助文件汇编是可行的。其中收集电子文件,建立电子文件数据库是文件自动汇编的基础;将人工汇编经验提炼成自动汇编规则是计算机辅助文件汇编的关键。依据汇编规则,计算机能够对电子文件进行自动筛选,对汇编文件进行自动分类、自动编排;依据电子文件数据库中的汇编文件,计算机能够自动生成汇编文件数据库;应用汇编文件管理软件,维护、检索、统计、打印汇编文件数据;汇编文件发行利用汇编文件数据即可印刷成书发行,也可应用市场上现有软件,制作文件汇编电子版本发行。计算机辅助文件汇编不仅能提高文件汇编工作效率,而且能大大降低文件汇编成本、提高检索速度和文件汇编利用率。
参考文献
[1] 韩宝华著《档案文献编纂学教程》,中国人民大学出版社,1999年10月
[2] 《档案学词典》,上海辞书出版社,1994年7月
[3] 《后勤工作文件汇编》,金盾出版社,1996年12月