数据字典篇1
关键词:安全数据字典;复杂;数据集成;安全性
中***分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)19-4371-02
作为数据挖掘的重要环节,数据集成的强大功能不容忽视,其费用更是占据了整个数据挖掘系统建设成本的一半以上[1]。但目前尚未有一项针对庞大的数据量的集成技术,因此对原有数据集成技术的算法进行一定的改善就十分有必要。对此,有相关的研究者对不同方面的数据集成技术进行了不同的研究。有研究者研究了异构数据集成的原理及框架,该框架的服务功能和实现的技术;有研究者对电力系统数据集成中存在的语义进行详细的阐述,通过语义计算映射实例的语义功能及其他研究项目 。此类研究的共同点在于对原有数据集成技术进行了延伸和拓展,但不足的是没有考虑到属性个数庞大的数据集成的复杂性和独特性,并没有解决原有数据集成系统的程序代码量大、限制性高和不够灵活等问题。
1 安全数据字典及其实现方式
1.1 数据字典
典型的数据字典应为数据库的数据字典。数据字典系统灵活性的关键所在,对于各种应用系统也具有重要意义。数据字典具有较多的数据库内容,形式多样,如库、表、索引等属于逻辑编辑数据库定义的信息,也包含了相关的物理配置信息。数据字典具有各种各样的形式,如数据表形式、二进制文件和文本文件及其他等,但都具有同一危险性,即都有可能会被违规篡改,导致程序无法正常运行。在进行数据字典的安全级别的划分时,按照数据字典被违规篡改的难易程度对应划分。安全等级总共可划分为4个级别[2]。
1.2 安全数据字典的实现
安数据字典中的安全数据字典包括2个安全等级,即控制级和整性约束级。可通过较多的方式来实现这2个等级,该文介绍了两种实现方案。
1.2.1 Excel表格形式的数据字典
现对完整性约束级安全数据字典的实现形式展开分析,该文以Excel表格的形式为例。具体情况见表1:
表1 基于Excel表格的数据字典
[COLUMN-NAME\&DATA-TYPE\&DATE-DEFAULT\&COMMENTS\&MAJOR-KEY\&ZHAB04A001\&VARCHAR2(20)\&(NULL)\&项目编号\&YES\&ZHAB04A002\&VARCHAR2(100)\&(NULL)\&项目名称\&NO\&ZHAB04A003\&VARCHAR2(50)\&(NULL)\&***幅名\&NO\&ZHAB04A004\&VARCHAR2(50)\&(NULL)\&***幅编号\&NO\&]
1.2.2 控制级安全数据字典的实现方式
完整性约束级安全数据字典的优点在于适应性强,可以为大多数应用接受,但仍存在加密算法出现密钥泄露或者被攻破的危险性,导致非法篡改的问题出现。使用者具有数据字典的使用权,但使用者对数据字典有版本的要求,则有可能出现数据字典的不符合的情况。这两种问题已经被控制级的安全数据字典攻破,解决了这2种安全问题。控制级安全数据字典在运行时,首先生成完整性的约束级安全数据字典,之后自行保存于Excel,后生成数据字典的硬编码程序,使用程序与生成的编码程序进行编译后就可以形成应用系统的一部分。当启动应用程序时,程序就会首先执行数据字典里的硬编码程序,还原数据字典是在内存中进行,且为动态的形式,因此与应用系统的版本具有一致性,不产生冲突。控制级安全数据字典的运行重点在于正确地将Excel表格中的数据字典转换成同样性质的程序代码。该文选择了.NetC#的方法成功地将Excel表中的程序代码转换[3],其转换过程就大大提高了数据字典的安全性和实效性。
2 数据的集成
以上内容分析了安全数据字典以及实现方式的基础,现对安全数据字典集成技术的方案和转换流程以及算法做进一步说明。
2.1 数据出处及其实现目标
以某地区国土资源部提供该地区近年来发生的地质灾害的数据信息为案例来说明,其特点有:(1) 数据源数据具有动态性的变化;(2) 数据源字段为中文,目标数据字段为应为;(3) 数据源有各类各样的版本,按照不同版本的数据属性将其存入对应地区的中心Access数据库中,并定期将保存下来的数据上传到制定的目录的当中,自动生成数据(4) 数据属性较多,总共属性数量为250左右。
2.2 数据集成设计
集成数据的属性数据量大,且数据源和目标数据的属性名称有差异,具有一定的复杂性。该种情况下就可使用数据字典建立数据源属性和目标数据属性两者间的对应方式,有助于减少程序量的运算,提高了系统的灵活性,具有较高的各种效率。但缺点在于有一定的安全隐患。表现为如果数据字典遭到其他人员的非法篡改,就会影响数据集成的顺利性和可靠性,最终导致数据集成失败。而选择安全性和稳定性较高的控制级安全数据字典就显得十分重要。还需要针对不同的版本建立不同的安全数据字典,从而形成一致性的数据源版本和安全数据字典。
2.3 数据集成的具体流程
启动系统后,数据集成首先从代码中还原各版本的数据字典,验证数据字典是否已经完整,通过制定目录检测系统是否有新的数据源,有的话则识别版本,并将对应的数据源版本调入,导入数据。
2.4 数据导入运算
将数据源作为集成目标进行数据导入,共由6大类数据集成,且数据的属性含量十分大,都高出230,具有较大的集成难度。数据源和目标系统的属性名称不同,直接对各自属性的编程导入数据会出现大量的程序步骤,也无法实现通用性。因此,建立起数据字典的数据源与与数据目标的映射关系,可减少程序量,具有通用性。
3 实验分析
本次研究对某地区的地质灾害的相关数据进行安全数据字典的数据集成技术的开发,具有以下几个特点:
1) 数据源的版本随着软件的升级而改变;
2) 不同的集成对象的属性其数据源对象的属相和相同目标数据源的对象属性名称也不一样;不一致;对此,基于安全数据字典的数据集成技术有效解决了这一问题。数据集成的主要执行任务包括以下几点:
3) 结合数据对象用Excel定义数据字典;
4) 设计控制级安全数据数据字典的生成工具;
5) 用安全数据字典生成工具,把Excel安全数据字典转换为对应的程序代码;
6) 设计通用的数据导入系统,具有代码简单、代码量小的特点。
7) 把代码化的安全数据字典嵌入数据导入系统,生成特定的数据集成系统。
以上工作内容体现出该种数据集成方式的流程十分简单、清晰明了。经实践证明,数据集成系统可对不同版本的数据源正确辨别出来,适用性强,将符合的数据字典导入有很大的实用性,保证了系统的安全性。
4 结束语
针对原有数据集成存在的主要问题,该文提出了安全数据字典的新概念,并具体划分了数据字典的安全等级,进一步分析安全数据字典的实现步骤和算法。通过实例分析了安全数据字典在复杂数据集成方面的有效运用。基于安全数据字典的数据集成方式主要有3个部分构成:即安全数据字典生产工具、数据字典、以及数据导入部分,具有良好的优势性能,其耦合度低、单独行强,进一步降低了系统的困难程性。在相关业务中,集成的数据对象仅在数据字典里定义,与业务无关的通用模块即安全数据字典生成工具、数据导模块,因此可适应于奇特的集成系统。另一方面,由于数据字典的生成由系统启动时直接形成,避免了数据字典被篡改的机会,使基础数据更具有安全性和准确性;另一方面,该文分析的数据集成及其实现方式,具有极强的通用性,只需要工作人员在Excel表中正确地定义集成对象,就可以实现目标数据集成,降低了集成的难度。数据导入算法仅采用一个通用函数就可以实现案例中地质灾害的数据集成的导入,将庞大爱的系统的代码量减少,同时提升了系统的开发率,具有明显的优势。
参考文献:
[1] 冯勇,王明玉.基于语义的轻量级数据集成方法[J].计算机工程与设计,2012,9(1):122-123.
数据字典篇2
Abstract: The data structure of basic geographic information elements is researched, using VB and ACCESS database as a development tool, the basic elements of data dictionary query geographic information system is designed and developed to realize the accurate inquiry of fundamental geographic information.
关键词:基础地理信息要素数据字典;数据库;查询
Key words: fundamental geographic information data dictionary;database;query
中***分类号:P208 文献标识码:A文章编号:1006-4311(2011)03-0278-01
0引言
基础地理数据要素的数据量是庞大的,仅第一部分就包含了475个数据要素,这对于测绘部门基层用户的外出携带、使用和查找都比较繁琐。为解决这些困难,我们研究和开发出了一套使用简单、查询快捷的基础地理数据要素查询系统。
1系统数据库的设计
基础地理数据要素主要分四部分内容,第一部分有要素名称、要素描述和要素分类代码,这部分的内容相对每个数据要素具有唯一性;第二部分是属性表,包含属性名称、属性描述、数据类型字段要求、属性值域或示例、约束/条件和备注,每个数据要素的属性表中都含有多项记录;第三部分为几何表示,包含几何特征、***形代码、表示方法、属性、几何表示示例和制***表示示例,其中几何特征、***形代码、表示方法和属性含有多项记录,而几何表示示例和***形表示示例具有唯一性;第四部分为相关要素、关系和备注,这三项也具有唯一性。
为了数据库的方便存储、查询,我们把第一部分、第三部分和第四部分中具有唯一性的项合并为一个表,并把要素分类代码定义为索引。其中几何表示示例和***形表示示例为***形数据,我们把这两项的类型定义为OLE对象,以二进制的方式存储在数据表中。为了方便查询我们在表中增加了“要素简码”字段,要素简码字段存储的是要素名称的汉语拼音缩写,如“大地原点”的要素简码为“ddyd”。
属性表中含有多项记录,我们为属性表单独建立了一个表,并使用要素分类代码与要素表相关联。
几何表示中的几何特征、***形代码、表示方法和属性项也含有多项记录,我们为这四项也单独建了一个表,并使用要素分类代码与要素表相关联。
2系统功能的设计与实现
系统根据需要设计了两大功能模块:录入模块和查询模块,系统功能如***1。
2.1 基础地理信息要素数据字典录入模块系统需要录入三个数据库表的数据,分别是要素表的录入、属性表的录入和几何表示表的录入。
2.1.1 要素表的录入。要素表的录入模块分为添加、修改、删除和存储功能。其中包含几何表示示例和制***表示示例两个***形数据,对于这两个数据需要先进行***片的扫描,形成位***文件,然后系统读入位***文件,并以OLE对象的形式存储在数据库表中,这样就可以在查询系统中调用、显示***形元素。
2.1.2 属性表和几何表示表的录入。属性表和几何表示表的录入模块分为添加、修改、删除和存储功能。
2.2 基础地理信息要素数据字典查询模块根据基础地理信息要素数据的特点和实际的应用情况,我们在查询系统中设计了两种查询方式:按要素简码查询和要素分类代码查询。
2.2.1 要素简码查询。要素简码是要素名称的汉语拼音缩写,我们也在系统中为要素简码设计了模糊查询功能,模糊查询功能就是在查询过程中输入要素名称的汉语品音缩写的前n位,系统会把要素简码前n位为输入字符的所有要素都显示出来。
例如:输入“dd”,系统会把所有要素简码是以“dd”开头的要素都显示出来,方便了用户的选择。这种查询方式是用户的主要查询手段。
2.2.2 要素分类代码查询。要素分类代码是由6位数字组成的,同样我们在系统中也设计了模糊查询的功能,例如:输入“11”,系统会把要素分类代码是以“11”开头的所有要素都显示出来,方便用户的选择。
2.2.3 要素数据的输出。系统的输出方式是采用了直接调用Execl的方式,把查询到的数据直接输出到Execl文件中,用户可以很方便地进行数据的打印、编辑、保存和传输。
3结束语
《基础地理信息要素数据字典查询系统》是在充分、全面分析基础地理信息要素数据的数据结构,结合用户使用实际的需求而进行研究、设计开发的,也确实为基层用户在作业过程中更加快捷、高效地查询要素数据提供了方便,证实是值得推广的查询工具。
参考文献:
[1]段怡红,吕玉霞,李建利,等.《基础地理信息要素数据字典第2、3部分》编制说明[Z].国家测绘局测绘标准化研究所.
[2]GB/T 20258.1-2007 基础地理信息要素数据字典 第一部分:1:500 1:1000 1:2000基础地理信息要素数据字典[S].
[3]GB/T 20258.2-2006 基础地理信息要素数据字典 第2部分:1:5000 1:10000 基础地理信息要素数据字典[S].
数据字典篇3
关键词:幅度均值;偏度校正;岩性解释
岩性字典是实现岩性解释的核心部分,建立岩性字典要求选择覆盖研究区的具有代表性的取芯井的岩性数据或岩性录井数据和电测数据作为样本数据,通过对岩性数据和测井数据进行一系列的预处理和数据分析,最后建立起与实际情况相符合的岩性字典。
1 字典数据分析
数据分析是为了确定合理的数据样本。数据分析中涉及的参数有:电测曲线取值的最值、平均值、方差以及偏度,这些参数从数学的角度反映出样本的好坏,剔除不合理的样本,保留合理的样本,从而建立起合适的岩性字典,提高岩性解释的正确性,各参数的具体含义如表1。
表1 参数及其含义
根据分析设计所采用的均值x、方差δ、标准差s和偏度sk计算方法如下式(1)、(2)、(3)、(4)。
2 偏度校正的数据分析
样本的偏度反映样本数据分布的非对称程度,当样本数据的分布为正态分布时(sk=0),绝大部分样本数据集中分布在中间部位,接近于样本的平均值。当样本数据的分布为非正态分布时,绝大部分样本数据分布在样本平均值的左侧或右侧,即当偏度sk>0时,样本分布呈右偏态,绝大部分样品数据分布在样本均值的左侧,少部分样本数据分布在样本均值的右侧;当偏度sk
3 岩性字典的建立
通过一系列数据预处理、选择偏度校正的数据分析操作,样本数据分布已经符合地质认识,可以进行岩性字典的建立了,岩性字典的本质就是岩性和GR幅度均值的关系表,以FI1内岩性、GR曲线幅度均值为例所建立的岩性字典如表2所示。
由表2可知,选择偏度校正后,GR幅度均值按照砂岩-粉砂岩-粉砂质泥岩-泥岩的顺序依次增大,这与地质认识相吻合。可见,通过偏度校正,达到了预期的目的。
4 误差分析
通过岩性解释效果评价,可以看出采用该方法和流程所解释的岩性与实际录井岩性有稍微的出入,产生这种误差的原因很多,本人认为主要有以下因素:岩性的复杂性、测录井数据的准确性、建立岩性字典时所选择的典型井是否规范、数据分析所选择的校正偏度是否合适等等。岩性字典是岩性对比解释的基础,为了提高解释的准确性需要花费时间精心建立岩性字典。另外,可以把工区进行细化,对具有相同物源的区块分别建立岩性字典,分区进行岩性解释。
在层序地层格架约束下,选择典型井建立岩性字典,采用GR幅度与岩性字典相应层序内的GR幅度均值比对的方法,进行岩性解释,具有快速、方便的特点。该算法和流程所解释的岩性与GR测井曲线具有较好的一致性,能够满足沉积相研究以及砂体比对的需要。
参考文献
[1]杨川东,等.凝析气藏(井)合理开采技术的研究与应用[J].钻采工艺,1998,21(6):25-28.
[2]刘建国,等.子洲气田Y30井区合理产量研究[J].石油化工应用,2012,31(3):31-33.
[3]李士伦,等.凝析气勘探开发技术论文集[C].四川科学技术出版社,1998.
[4]骆什洪,等.HB1区块异常高压气藏气井合理产量研究[J].天然气勘探与开发,2010(2):37-39.
数据字典篇4
关键词:古典文献数据库 公共古典文献数据库 文献检索服务系统
计算机技术的飞速发展,为古典文献研究的现代化提供了坚实的基础,其贡献是有目共睹的。然而,计算机技术在古典文献研究中的运用仍然存在着极为严重的缺陷也是不容回避的。笔者近几年来主持并直接参加设计“e书库”数据库的过程中,感到有必要将自己的一些想法提供给正在设计有关软件的计算机专业人员、愿意使用该类软件的专家学者们参考。
一、我国古典文献数据库建设的历程
自古以来,历代学者对古典文献整理与研究一直沿袭手工操作的方式,然而自上世纪80年代后,计算机技术开始涉入到古典文献研究中,对传统的古典文献整理与研究方法(自然也对一切需要使用古典文献资料的专业研究)起到了极大冲击。
首先简单回顾一下计算机技术在古典文献研究领域内发展的历程。上世纪80年代初,我国一些***书馆、大专院校及科研机构陆续开始大规模地利用计算机设计并建立数据库。大致说来有两类数据库,一类是书目数据库,一类是文献数据库。南京***书馆于90年代初率先建立书目数据库,对读者检索有关书目起到了极大的帮助。之后,各地***书馆纷纷效尤,类似的书目数据库很快就普及了。虽说至今各地***书馆的书目数据库的检索方式,仍存在机读编码格式不统一的问题,然而书目数据库提供的方便快捷的查询功能,对读者来说无疑是一件大好事,具体到学术研究来说,至少为研究者提供了一个比较方便的查找有关古典文献的实用工具。
在建立书目数据库的同时,一些大专院校与科研机构开始研发各自的文献数据库。从数据制作格式来说,大致可以区分为两类,一类是***像格式,即将按原著内容扫描成PDF***像文本,另一类是元数据格式,即录入文献文本内容(或扫描并转化为电子文本)导入数据库,并转换成可阅读与检索的数据库机读格式。一般说来,无论是PDF格式还是元数据格式,它们数据库容量都较大,也提供了较为原始的检索方式,为学术研究提供了不小的帮助。从上述两类制作格式的数据库来说,PDF***像文本可以直接阅读***像文字,但总体说来不太适应古典文献整理与研究的需要。而元数据格式较为精致,初步具备了较为方便的常用的功能,可以检索、作卡片等等。
古典文献数据库从收录的文献内容来说,大致可以分为两类:一类是类目数据库,即按“类”收录有关***籍,如经学类、史学类、文学类以及甲骨文、金文或出土文献资料、石刻资料等等,另一类是综合数据库,如《四库全书》、《四部丛刊》、《国学宝典》之类数据库。
大陆最早的古典文献数据库是河南大学的《宋人笔记检索系统南宋主要历史文献》,建立于1987年。之后,各种数据库纷纷涌现,比较重要的有南京大学、河南大学、苏州大学联合研制的《计算机甲骨文信息处理系统》、中国社会科学院《全唐诗》、《先秦魏晋南北朝诗》、《全上古三代秦汉三国六朝文》、《十三经》、《全唐文》、《诸子集成》等数据库、北京大学《全宋诗》数据库、南京师范大学《全唐五代宋词》数据库、四川大学《宋会要辑稿》数据库(与海外合作)等等。港台古籍数字化起步较早,均采用繁体字形式。1984年台湾中央研究院历史语言研究所开始研发《汉籍全文资料库》,香港中文大学则有《汉及以前全部传世文献》、《魏晋南北朝全部传世文献》、《竹简帛书出土文献》数据库等等。其中《竹简帛书出土文献》收录《马王堆汉墓帛书》、《武威汉简》、《睡虎地秦墓汉简》、《银雀山汉简》、《居延汉简释文合校》及其它散见简牍共140多万字的竹简帛书出土文献,价值颇高。
值得注意的是,这些数据库主要是提供给本单位研究人员使用的,当然也有部分数据库对外开放,为其他研究者提供一定帮助。虽然这些数据库有种种限制,但它们无疑为古典文献的研究(当然包括其它专业的学术研究)提供了方便。之后,随着网络技术的发展,各科研机构、大专院校、各地方的***书馆、以及其它数以百计的网站向用户提供收费或不收费的古籍文献检索服务,甚至还提供古籍文献的***服务。显然,这些工作的开展,为学术研究的现代化提供了极为有力的支持。至今为止,据笔者所查索到的除科研机构、大专院校、各地***书馆数据库之外,提供各种文献***的中文网站至少在200个以上,其中就有不少古籍文献***的网站。这些古典文献数据库或有关网站的建立,确实为古典文献整理与研究乃至其它学术研究提供了极有价值的帮助。
二、目前存在的问题
当然,我们也应该清醒地看到,在古典文献数据库大量涌现的同时,一些潜在的问题与数据库本身的缺陷严重地制约着古典文献数据库的正常发展。
从古典文献数据库技术发展角度来说,笔者认为大致经过三个发展阶段。第一阶段是PDF***像文本数据库,其数据来源主要是以扫描方式获得,形成PDF***像文本。这种***像文本优点是直观,与原书分毫不差,但它的缺点是功能极其单一,仅可供浏览***像和简单地检索书目。虽然第一阶段的数据库功能极少,但毕竟能方便而直观地阅读文献了,因此引起了学者们广泛的兴趣。必须指出的是,由于功能太少,这类数据库难以进一步发展。
第二阶段是元数据数据库,以香港迪志公司投资、书同文数字化技术有限公司设计、上海人民出版社出版的《四库全书》、书同文数字化技术有限公司设计、万方数据电子出版社的《四部丛刊》、尹小林《国学宝典》、南开大学永川公司的《二十四史》,以及大陆、港台等大专院校或科研机构制作的较大型的数据库为代表。它们的优点是具有较多的基本功能,如检索、卡片、打印等功能,有些还附加了日历查询、字典、音乐背景等附加功能。然而,它们都不允许对数据库内的文本错误进行修订、没有***表处理能力、不提供功能升级服务(某些软件提供所谓新版本,实际上只是增加一些文献文本,并未真正提升软件服务功能)。而且由于各自为***,开发者大都采取自定义方法来自造非常用的生僻词,因此各种数据库之间字库不能相互兼容。这一阶段的古典文献数据库也有吸收第一阶段数据库有***像的优点,如上述提及的《四库全书》就附有***像,以利研究者核对文字。该阶段绝大多数数据库注意到版权问题,但仍有一些数据库在版权上出现较大问题,乃至引起法律纠纷。
计算机技术广泛地涉入文科研究领域,各种古典文献数据库纷纷建立,当然给古典文献整理与研究的现代化提供了极其有利的帮助,然而,在笔者看来,目前计算机技术在这一领域中的运用形成纷乱无序的“战国时代”,有许多亟待解决的问题,否则将会影响或说削弱计算机技术在古典文献研究(乃至其它学术研究)中巨大作用。对此弊病,笔者拟作一概述,企望引起有关部门、数据库开发者及使用者的重视,以期真正使计算机技术对古典文献整理与研究起到更大的促进作用。大致说来,主要问题有以下几个方面:
其一,缺乏整体领导与规划,国家投资与收益不对称。当然,首先应该看到,国家有关部门已经着手做了一些规划,也实施建立一些比较大的古典文献数据库,如2002年10月,国家科技***书文献中心受科技部的委托,牵头联合中国科技信息研究所、国家***书馆、上海***书馆、中科院***书馆、北京大学***书馆等单位,启动了我国数字***书馆标准规范建设项目。这一项目的目的就是力***建立我国比较统一和规范的数字***书馆标准,自然也会对建立古典文献数据库有较大的借鉴与参考的价值。又如北京大学《中国基本古籍库》、上海***书馆《古籍影像光盘制作及检索系统》等等,也由国家有关部门投入大量资金,而且已经启动并完成了部分内容。不过也应该强调,由于国家没有制定出一个比较符合国内数据库发展状况的真正有价值的规范体系,因此这些项目的承担者仍是各自为***,数据库之间并不能兼容,不可能形成技术“合力”。再从所取得的社会效益或说实际使用价值来看,也不尽人意。因为至今为止建立的各种数据库仍人为地设置许多障碍,无法使它们实现较大的使用价值。数据库由国家投资,收益自然应该归国家,或者成为不收费的公益数据库,但目前收益既不归国家,又未能成为公益数据库,这不能不说是个极大的遗憾。实际上,数据库制作者无偿利用国家投资进行了开发,制作完成后却获得相当丰厚的收益,使人感到有“国家投资,个别单位***利”的印象。笔者不反对交纳一定使用费用,但收费单位一定应该说明收费后去向,绝不允许产生国家投资而由个别单位乃至某些个人得利的情况。
其二,开发商嗜利忘义,数据库错误严重。除上述由国家投资开发的古典文献数据库外,还有一些有一定技术实力的软件开发商加入到古典文献数据库的开发中来了。比较而言,各科研机构、大专院校及各地***书馆建立的古典文献数据库质量较高,而开发商则很少关注数据库中的文献质量。我们承认确有少量开发商制作的数据库质量较高,如迪志公司开发的《四库全书》之类,然而象《四库全书》这样的数据库确实凤毛麟角,难以寻觅。我们发现,甚至有些开发商仅仅是把文本进行文字扫描导入,疏于校对,因此文本错误百出,难以卒读。由于利益驱使,绝大多数开发商都以“独自开发”为己任,数据库设计相互保密,互不兼容,使用户深感不便。这些问题已严重地影响到古典文献数据库的正常发展了。
其三,热门文献数据重复,冷门文献数据罕见。虽说目前数据库品种繁多,但由于考虑到使用者对文献内容的需求,因此许多开发者热衷于开发那些热门数据,而一些比较冷门的文献则鲜有人问津。实际上,冷门的文献并非是没有学术价值的文献,只是使用人较少而已。因而,目前不但数据库中文献内容重复现象极为普遍,甚至同名同姓的数据库也有不少,如《四库全书》就出现了武汉大学版、上海人民出版社版等数种不同版本。且不说那些数量繁多、质量也不甚高的数据库浪费了多少人力物力,其实也使用户陷入无可适从、欲舍不能的境地。用户往往为了某些少量文献内容不得不购买和安装整个数据库操作系统,而且这些庞大的数据库大量占据硬盘空间,导致计算机运行速度大为减慢。而那些允许网上检索的文献数据库又往往容量极大,上网检索者多,导致“交通阻塞”!
其四,技术关卡重重,难以互相兼容。各开发者既鉴于不同开发目的与技术条件,又为防止他人解密,因此在开发过程中在数据库某些程序中人为设置技术障碍,以保障自己利益不受损害。自然,开发者需要投入大量人力物力,保障本身利益不受损害是无可非议的。然而也由于人为地设置了障碍,却使各种文献数据库之间不能兼容,无法形成合力,先进的技术反而成为技术壁垒。实际上,这一情况大大浪费了宝贵的人力资源与财力,对古典文献的开发与利用有百害而无一利。另外,由于技术壁垒,在古典文献数据库的文字方面更导致许多问题。我国古籍常用汉字大约为4万余个,这还不包括超过2万个异体字及数千甲骨文、金文等古文字。然而我国目前在计算机上采纳的国标字库(GB)和扩展字库(GBK),两者相加也只有27000余字,这与我国古籍常用汉字数量相比,实在差距太大。因此,如此小的字库与需求相比确实是捉襟见肘。为了弥补这一缺陷,一些软件设计者就采取在自定义区自造字(乃至占据字库中扩展B的位置)、有些也用***片方式来填字。而这些自造字、***片字,拷贝到WORD文本之后,由于内码位置的差异就变成其它字了,从而导致文本错误。
其五,功能单调,难以真正为科研服务。建立较早的古典文献数据库功能比较单调,只能做些简单检索、拷贝,没有更为先进的功能,不能适应学术研究的需要。后来的一些古典文献数据库也存在类似问题,例如《四库全书》的检索功能,虽说可以采用添加“作者”、“书名”等限定条件,但检索结果只是罗列一排出处,无法直观地了解检索到的具体内容。而且《四库全书》也没有提供更多的功能给用户,因此这一巨大的工程仍远远不能满足用户的需求。况且这一数据库目前已经“定型”,不再继续开发,使用户对此深感遗憾。而其它古典文献数据库设计者的思维大多仍停留在“文本之争”当中,重复着原来设计思想的错误,没有更多地开发为科研服务的有效功能,因此在笔者看来,这一做法显然不可能真正摆脱古典文献数据库目前面临着的困境。
其六,学术圈地,使人心有余而力难用。***后,一些部级出版社化费了极大的精力,组织专家点校了不少重要古籍,为学术研究的发展作出了极大贡献。然而时至计算机时代的来临,却出现了“版权”的问题。一些制作者忽视了国家有关版权法规,直接利用了一些出版社的成果来牟取经济利益,理所当然地会产生版权纠纷。笔者以为,保护版权是每个学者乃至每个公民应尽的责任,根本毫无讨价还价的余地。然而问题是,现在一些出版社由于各种原因,没有对自己已出版的点校过的古籍进行开发,而愿意开发这些古籍资源者却无法涉入其中,导致他们处于既想开发这一宝藏又无法回避版权问题的尴尬境地,这就使众多需要使用者望洋兴叹。如果有关出版社不愿授权,那么想要开发这些古籍者只能返回到没有标点的原始文本中去。这种情况确实使每一个希望使用古典文献数据库的用户感到极其失望,而且严重影响了古典整理与研究的现代化进度。
上述种种现实情况,已经是制约计算机技术对古典文献整理与研究支持的瓶颈了,如果不解决这些问题,计算机技术即使再发达,恐怕也难以对古典文献整理与研究予以真正意义上的支持与帮助。
转贴于 三、如何解决古典文献数据库存在的问题
古典文献数据库存在的问题是十分明显的,那么如何解决这些问题,以利学术研究(当然包括文献研究)的迅速发展?笔者以为现在应该设计和开发出新一代文献数据库的软件。按照笔者设想,这代软件应该以建立能自由升级的公共古典文献数据库为目的,是一种以提供强大功能为主、彻底解决版权问题的数据库,实际上是建立一个规模巨大的功能相对完善的学术研究资源库。所谓公共古典文献数据库是综合性数据库,只能由国家有关部门作为主要规划者,它应该尽可能地包罗我国传世古典文献、碑刻资料和出土文献等。在此基础上允许建立适应每个研究者研究范围的个性化的文献检索服务系统。个性化的文献检索服务系统是指每个具体研究者所拥有的安装在各自计算机上的文献检索服务系统,它拥有一定数量的适合自己研究的范围的古典文献文本。其实,各个研究者并不需要一个“包罗万象”的规模极其巨大的数据库,即使象占据6至7个G硬盘的《四库全书》,具体到一个研究者真正需要的内容并不是全部,而是其中一部分内容。
问题的关键在于公共古典文献数据库与个性化文献检索服务系统两者之间的技术“契合”,即两者互相兼容的程度。公共古典文献数据库应该与个性化文献检索服务系统有所区别,公共古典文献数据库应该侧重于文献数量的完善、完备,而个性化文献检索服务系统则应该考虑其功能强大。因此,从本质上说,公共古典文献数据库应该是一个统一的设计比较周密、与其它个性化数据库在技术上能实现良好兼容的的数据库;而个性化文献检索服务系统应该是“百花齐放”式的但必须能与公共古典文献数据库兼容而非各自为***的小型数据库。两者关系是源与流的关系。鉴于此,笔者以为目前应该从两个层次上来解决问题,一是尽快建立公共古典文献数据库;一是继续开发个性化文献检索服务系统。
根据笔者近几年的实践,感到要解决这些问题并非不可能的。其实只要认真对目前计算机技术在古典文献整理与研究中存在的问题作一分析与梳理,重点突破一些瓶颈问题,应该说是能解决上述这些问题的。那么怎么才能突破上述这些瓶颈呢?笔者以为以下几个方面是值得考虑的。
其一,加强总体规划,建立公共古典文献数据库。作为一个具体单位来说,谁也没有可能建立一个包罗万象的古典文献数据库,因此,这只能由国家有关部门组织人力物力来完成。其实,就目前来说,国家投入资金并不少,但由于制度原因,只是向某些重点院校或科研单位、向重点项目投入巨资,而这些单位建立起各自为***的古典文献数据库、期刊数据库,虽然也为学术研究作了一些贡献,但不可否认的是,由于各自设计思路不同,相互之间不能兼容,已经妨碍到数据库进一步发展了。以笔者愚见,国家有关部门应该主动负起责来,加强领导,重新考虑古典文献数据库的立项问题,组织力量、投入资金,真正建立起一个规模巨大、能为绝大多数研究者利用的公共古典文献数据库。同时也应该考虑所立项的古典文献数据库与其它数据库(如现代文献数据库、当代文献数据库、期刊数据库等)之间的兼容关系,只有这样,或许若干年之后就能建立起一个价值极大的能真正为学术服务的公共古典文献数据库,乃至包罗一切文献的数据库。当然,就公共古典文献数据库来说,可以进行适量收费服务,但主要仍应该定位在“公益”上,不以“利”为主,这样才能真正建立一个有价值的公共古典文献数据库来。
其二,数据库内容与文献检索服务系统分离。这个问题与上述问题是紧密关联在一起的,如果不能真正做到数据库内容与文献检索服务系统分离,那么目前“列国纷争”的面貌是不可能真正解决的。
我们知道,一个古典文献数据库实际上是两大部分组成的,一是古典文献数据库内容,即数据库所包括的文献文本,二是对这些数据进行管理的文献检索服务系统。其实目前所见有关古典文献数据库都是“两者合一”,即既包含一些文献数据内容,又有具体的操作服务系统。事实上,这些古典文献数据库在功能上明显存在缺陷的。就目前古典文献数据库管理形式来说,一是网络管理,一是个人管理。前者是网络数据库,一般是单位所拥有的数据库,即我们所说的网络版,后者是安装在个人电脑中的个人版。就功能来说,网络版没有必要具有卡片、文本修订、书签等个性化的功能,个人版应该具有做卡片、文本修订、书签、文献管理等个性化的功能。就文献数量来说,网络版自然力求文献内容丰富,尽可能包罗文献文本,而个人版实际所需要的文献数量是根据各自研究需要而定的,因而强行“规定”使用所有文献内容并不值得肯定。就文献内容来说,网络版与个人版都应该允许不断地增加其数据库文献内容,但不同的是,网络版应该是只增不减,而个人版应该允许用户根据研究需要自由增减文献内容。
在笔者看来,应该从单纯的文本内容竞争的思维中解脱出来,进入以文献检索服务系统竞争为主,文本竟争为辅的体系,或许是解决古籍文献数据库的出路。也就是说,擅长计算机技术的开发者(开发商)应该注重文献检索服务功能的开发与完善,而具体文本的整理可由研究学术的专业人士来完成。这样,开发者就可能开发出比较成功的文献检索服务系统,而数据库中的文本也由于专业人士的加入而能大大提高文本的准确率,然后合成为一个规模较大的公共古典文献数据库。当然,输入和整理古典文献文本可以采用投标(或以申报项目形式)来确定,规定统一格式,要求保证文本的正确率达到一定比例,完成后再分别导入这一公共古典文献数据库中;经过若干年努力,最终能形成一个规模巨大、适应于学术研究的公共古典文献数据库。我想,采取这种措施不但节省了大量重复投资,真正做到人尽其才,物尽其用,而且一旦建立起这个规模巨大的公共古典文献数据库,可以解决了目前数据库泛滥、文本错误太多、重复劳动等弊病,而且真正能做到广大学者对古典资源“共享共有”。
在此基础上,各个开发商可以力求开发学者们个性化的文献检索服务系统,它无须考虑文献文本内容,但必须功能强大、操作方便,并与公共古典文献数据库完全兼容,学者们通过“购买”文本或其它方式来方便地组建自己的数据库,这样或许会给学术研究带来真正的方便。
还须补充的是,我国的古典文献中有大量表格与***片,而由于技术原因,目前所有古典文献数据库都没有导入原著的表格与***片,极个别数据库有少量***片也是不能检索,这是目前众多古典文献数据库的重大失误之一。其实只要真正化力气去探索,这个问题是不难解决的。因为笔者曾作过设计并反复试验,只要设计合理,***片与表格不但可以导入数据库,而且都是可以在数据库中进行检索。
其三,加速确定字库方案,以利数据库健康发展。当然,要真正解决公共古典文献数据库问题,还必须解决字库问题。目前,国家虽然组织专家在论证有关字库问题,然而由于进程不快,远远落后于当今计算机技术发展的需要。按照笔者的看法,应该建立一个以Unicode字库为基础的、适应汉语古籍需要的、并与国际接轨的真正有中国特色的字库。这就需要抓紧工作,迅速落实扩展字库B的内码。同时根据我国汉字的具体特点,对自定义区域的6400字的内码配置也应该有所规范,这样才能使汉语字库统一问题落实到实处。如果真能做到如此,那么就能真正解决目前古典文献数据库之间字库互不兼容问题。
与字库相关联的是字体问题。古典文献数据库应该考虑到古代文献对文字的特殊需要,笔者以为凡是古代文献数据库中的文本应该保留繁体字,以防繁简不分而导致文义偏差。就目前计算机技术来说,解决这一问题是毫无困难的。其实用繁体字输入文本早已不是问题,而扫描古籍文本再转换成文字的技术也十分成熟,如北京书同文公司的“数码翰林”OCR识别系统,应该说是极有价值的识别软件,对绝大多数繁体文字能够正确识别。如果能再进一步加以改进,使扩充字库数量并与Unicode字库兼容,那么古代文献的文字识别问题是可以得到解决的。应该强调的是,古代文献以繁体字导入数据库,但应该允许在数据库中自由进行繁简转换,换句话说,若需要使用繁体字时,文本可以保留繁体字,而需要简体时,可以十分方便地转换成简体,这样就适应用户对繁简体的不同需要了。
其四,彻底解决古典文献版权问题。这是困挠计算机古典文献数据库建设的重要难题之一。自然,这一问题要真正得到落实确实存在相当困难的,因为版权保护工作任重道远!不过,即使困难再大,古籍文献数据化的发展的潮流是不可能停止的。笔者以为,有关出版社在维护自身法定的版权权益的前提下,应该从大局出发,在收取一定数量的报酬前提下,允许制作有关古典文献的数据库,以利学术研究的发展。至于报酬多少可以也应该实事求是地酌情商定,国家有关部门应该主动与那些出版社协调,亦可将目前大量分散投入到各课题中的资金中抽出部分来补偿有关出版社,双赢互利,以求突破版权瓶颈,早日解决这一棘手的问题。
与此相关的是古典文献电子文本的版权问题,这也是个极难处理的问题。因为用户若贪***小利,版权意识不强,不愿化费代价使用电子文本,就容易产生“盗版”问题,如此就使得制作古典文献电子文本者的正当利益大受损失。按笔者设想,如果真正能够由国家有关部门主管古典文献数据库建设工作,那么就可以设想建立公共古典文献数据库规定导入数据库的文献文本都给予一个“统一编号”,没有统一编号的文献就不能直接导入公共古典文献数据库和个人使用的文献检索服务系统中,也就是说,个人使用古典文献电子文献必须化费一定的代价才能取得使用权,这样就可以保证制作古典文献电子文本者的一定收益,防止版权意识不强者侵权使用。同时由于古典文献电子文本都有了统一编号,那么也就可以防止某一具体文献文本重复录入的问题。即使有部分重复,古典文献电子文本也可以在用户选择过程中优胜劣汰。
其五,建立公平的交易平台。建立庞大的公共古典文献数据库当然需要投入巨大的资金,而这种古典文献数据库自然不是每一个普通研究者购买得起的。在笔者看来,大专院校、科研机构应该在经济允许的前提下购买有关数据库,以供教学、研究之需。当然也应该允许个人在交纳一定数量的经费后,自由上网使用这一数据库,并允许购买(***)一定数量的古典文献文本,自行导入各自的文献检索服务系统,以利建立个性化的有实用价值的数据库。如果真能做到这样的话,那么就将会促进学术研究的迅速发展。
数据字典篇5
【关键词】数字影像技术;无损压缩;小波变换
随着我国经济的发展,高分辨率的***像数字采集设备也比较多,此类的相关***像也越来越多[1]。数字影像技术主要包括以下几个方面的技术:(1)摄影技术;(2)教育优势以及构成情况;(3)采集设备、技术;(4)艺术表现手法;(5)呈现与输出技术等。鉴于当下各种信息的数据量越来越大,更好更快的传输数字数据成为当下对信息进行处理的主要考虑问题,数据压缩是有效缓解这一问题重要的解决方案。主要技术出发点是因为数据都具备一定的冗余性,所谓数据压缩即运用一定的计算方式将冗余量压缩至最小,并控制数据的失真,从而对数据的传输和数据的储存都能在效率上得以提升。对数据的压缩有有损和无损压缩两种形式。有损压缩主要用于语言,***像和影视频方面,是对压缩后的数据进行再次的重新构建,随经过重构的数据和原有数据不尽相同,但在表达原始数据的信息上影响不大,但压缩的比率却增加很多,目前常采用脉冲编码调制以及插值和外推等计算手段。无损压缩格式主要是利用数据的统计冗余进行压缩,可完全恢复原始数据而不引起任何失真(需要注意的是压缩率受到数据统计冗余度的理论限制,一般为2:1到5:1),无损压缩方法可以被广泛应用于文本数据、医学***像数据以及***像数据中。目前来看,最常用的无损压缩格式有PE、FLAC、TAK、WavPack等几种,最常使用的压缩方法有Shannon-Fano 编码、Huffman 编码,游程(Run-length)编码LZW(Lempel-Ziv-Welch)编码和算术编码等。尽管现阶段已有海量的存储器以及高速的处理其速度,但是仍然对数据的存储有一定的需求,因此研究出更理想的***像压缩方法能够有效减少存储空间,对其具有重要的意义[2]。
1 ***像压缩
***像在压缩的过程中有以下2大类:(1)有损压缩;(2)无损压缩。从有损压缩角度来看,主要利用分形以及多分辨率编码,从无损压缩角度来看,主要包括字典以及预测等方法[3]。目前来看,对***像的处理有许多的方法,因此在应用效果方面较为理想。从信息论的角度来看,***像是一个信源,是描述海量数据的综合方式。***像压缩主要是将多余的不需要的信息进行处理。通过输入***像-变换器-熵编码器-压缩***像等方式来进行相关处理,其中变换器主要值得是利用DPCM(整数差分脉码调制)以及ritiwt(可逆整数小波变换)来有效减少***像数据的相关性;熵编码器(算术编码器、LZ系列编码器)主要利用1个模型来确定概率是个的编码,继而让输出的编码能够小于输入流。
2 可逆变换算法
2.1 预测方法
预测方法主要是通过对每一个像素信息进行编码和提取,继而能够消除部分多余而无用的消息,为了能够有效实现预测的可逆性,因此需要对整个结果进行提取。其主要公式为:(1)en=X(n)-X’(n);(2)X(n)=en+X’(n).从上述公式来看,其中X’(n)是预测器根据相关预测结果得到的数据,而预测器则主要是根据M个像素的线性组合生成的。利用预测编码的相关优点进行计算能够比较容易实现,但是,预测编码也存在一定的劣势,主要表现在某个像素之间与同一组像素之间产生较大的差异时会相应的扩大预测误差,继而在一定程度上影响到了预测结果。
2.2 可逆整数小波变换
可逆整数小波变换的方案在很大程度上提高了整数到整数的小波变换,继而使得小波变换能够有效应用于无损压缩的领域当中,根据JPEG1844(静止***像标准)可以采用(5,4)整数小波变换来实现无损压缩。可逆整数小波变换的方案能够将小波变换的多分辨特性发挥得淋漓尽致,在一定程度上放弃了平移和升缩,此类方案既能够分解相关信号,也能够通过预测计算以及更新结算进行基本的提高[4]。
3 熵编码计算方法
3.1 LZW编码
LZW编码是字典方法的一种,其最早是由LZ77以及LZ78发展而来[5]。LZW编码的主要原理是利用字典把每个字符串编码为1个标识,在此基础上,找出重复出现的编码字符,并且以标识来代替字符串,在最后达到压缩的目的。总而言之,LZW编码的基本原理是通过字符的读取,一旦在字典中找到适合的匹配,自然也能够用字典复制代替找到的字符,在完成此种工序后把字符加入到字典中读出下一个相关的字符,并且直到循环结束才完成此项工作。
基本的编码流程表现在以下几个方面:
初始化的字典常常使用8位字符,置码字CODE,搜索字S;
在编码器内输入下一个字符F,输完之后则停止;
S=Sc,将字符c串接在S后;
搜索字符S,成功结束后则转向;
输出CODE,将Sc添加到字典中去;
S=CODE转到编码器内输入下一个字符F,输完之后则停止。
从上述具体步骤来看,字典质量的高低决定了压缩效果的质量高低,简而言之字典中的词条越短则压缩比就会越低,总而言之,加大字典的压缩容量就能够加大压缩比但是字典的容量。从另外一个角度来看,字典中的容量会受到计算机内存的限制,而字典也存在被填满的可能性,因此当字典不能再加入新的词条之后,旧的字典则很难保证比较高的压缩比。
3.2 HUFFMAN编码
HUFFMAN编码属于统计压缩方法(此方法采用的是变长编码),长编码是出现概率最小的符号,短编码是出现概率最大的符号,继而能够使得其平均编码实现压缩。HUFFMAN编码的主要流程体现在以下几个方面:(1)统计灰度频率;(2)建立灰度序列表W;(3)在W序列中选出最小的概率。
4 结束语
综上所述,数字***像技术应用无损压缩模式中的可逆整数小波变换方法是最理想的。除此之外,由于每种方法都有其特点,所以应该根据***像的具体特点来进行相关选择,以期能够达到最好的应用效果。
【参考文献】
[1]路建方,王新赛,贺明等.基于ADV212芯片的红外视频无损压缩研究[J].红外,2013,34(1):2001-2004,1000.
[2]王春洁,沈燕飞,卢毓海等.无损压缩中基于块的梯度预测模式[J].计算机工程,2013,16(6):2900-2904,1211.
[3]周雨田,左芝勇,张天序等.基于空间-时间多预测模式的无损压缩方法[J].计算机与数字工程,2015,11(8):1481-1485.
数据字典篇6
关键词:***像压缩;定长编码;压缩率
Abstract: During the time of data compression for the original LZW algorithm assigned to a different code word fixed-length integer, and time-consuming with increasing length of the string in the query dictionary, as the lack of geometric growth, an improved the LZW compression algorithm, the improved algorithm uses a variable length integer assigned to a different code field. The test results show a smaller color depth image compression, the compression ratio is less than 50% overall. The results show that the NIC algorithm is suitable for low color depth of unnatural map or a large number of color images.Keywords: Image compression; fixed-length encoding; compression ratio
中***分类号:TP301.6文献标识码: A文章编号
近年来,***像压缩领域变得越来越为人们所重视,因为***像文件不仅需要占据大量的内容空间,同时随着互联网络技术的发展,在网络上,***像文件也占据了大量的传输带宽,所以在***像进行存储之前,或者在对***像进行网络传输之前,首先要对***像进行压缩。目前的***像压缩算法分为两类:有损压缩和无损压缩,其中LZW是一种流行的无损***像压缩算法。它是一种基于字典的压缩算法,通过对一个字典的应用对数据进行编码,在***像压缩领域,它通过定长编码技术,消除***像像素间冗余,性能良好。
1 LZW算法
LZW压缩算法思想主要是通过用简单的代码来替换复杂的字符串,在压缩的过程中,动态生成串表,通过串表来记录字符串与代码之间的对应关系[1]。压缩开始时,初始化串表使其包括所有的单字(代码从0到255),LZW压缩算法规定清串表代码为256,结束代码为257,由此串表中增加第一个表项时,对应的代码是258。为限制串表的大小,LZW压缩算法规定串表不能超过4096项,即当代码位数超过12位时,放弃这个串表,重新初始化串表,同时输出一个清位码,并按新的串表继续进行压缩[2][3]。
2 改进后的LZW算法
改进的LZW算法(New Image Compress:以下简称为NIC)首先对偏移量中的数据进行读取,得到原始***像像素的位数,然后对数据块进行RLE算法压缩,接着以文件读取方式,逐个字节读取,读取的字节赋值到后缀变量中,前缀变量记录为上一次读取的字节。读取完一个字节后,便对字典数组中前缀变量和后缀变量的值做判断,为空则赋值为当前编码号,段号自动增长;不为空则把值赋给前缀变量。当段号大于4095时,输出清字典代码(257),并清空字典所有数据。如此循环,直到数据处理到最后一个字节,输出前缀变量和后缀变量,最后输出结束符(256),把所有输出保存成NIC文件。
以标准码长为12bit的LZW压缩算法为例,该算法编码表可以容纳4096个码字。整个编码表分成5个部分,其中1~256,257~512,513~1024,1025~2048,2049~4096分别为第1部分,第2部分,第3部分,第4部分,第5部分,每一部分输出的代码字长度分别为8bit,9bit,10bit,11bit,12bit。在算法中设置257为变长标示,每出现一次代码字长度的变化便输出一个变长标示,以提示解码程序代码字长度的变化。在压缩的过程中,根据LZW的编码规则,每次读入一个字节,都要和之前的字典的所有项相比较,发现如果已经在字典中,就继续读下一个字节,如果字典中没有,就输出最后匹配的段号,并把这个新段号加入到字典中。那么,每读一个字节,就要查找一遍,会使得编码所需要的时间随文件长度而呈指数增长。在这里,本文提出一个解决方法,从而真正实现零查找,称其为反向字典存储列表,即把每个(前缀,后缀)作为二维数组的下标,值为段号。 这样的反向列表虽然有些(前缀,后缀)可能一直没有出现过,使得额外多占用了很多内存。但是只有这样的格式才能做到真正的零查找,用这些内存换取节约的时间是非常值得的。
改进后的LZW算法需要CodeArray(4096,256)(编码字典),Prefix(前缀变量),ReadChar(读入字符变量),Entry(段号变量),OutputString(输出变量)。改进后的算法如下:
(1)初始化串标并置CodeArray()为空,设置Entry为258
(2)当输入没结束时执行
1)读入字符到ReadChar
2)若CodeArray(Prefix, ReadChar)不为空
则Prefix = CodeArray(Prefix, ReadChar)
否则①输出Prefix到OutputString
②CodeArray(Prefix, ReadChar) = Entry
③Entry++
④若Entry > 4096则
a) 输出清串表代码(256)
b) 清串表
⑤Prefix = ReadChar
(3)输出OutputString
(4)输出结束代码(257)
3 算法实现流程
Step 1:压缩数据块
读取文件偏移量0xB,0xC,0xD,0xE的数据,获得数据块偏移量;
读取文件偏移量0x1D的数据,获得每个像素的位数;
If(每个像素位数
RLE压缩;
Else
其他编码;
Step 2:对文件进行LZW编码
设置当前编码编号为258;
While (! 文件结尾)
{
If(字典[前缀,后缀]=null)
字典[前缀,后缀]=当前编码编号;
Else
{
output(前缀,编码集);
前缀=后缀;
}
}
Step 3:输出编码并保存文件
Save(编码集);
Step 4:结束
4 测试数据及结论
针对八幅***像的压缩时间和压缩率进行比较,改进后的LZW算法的压缩结果如表1所示:
表1 改进后的LZW算法压缩结果
通过比较分析,发现在高分辨率高色深***片压缩中,改进后的LZW算法明显处于劣势,压缩率大于70%,说明在高色深的***像中,因为数据块所占用大于一个字节,重复字符串个数减少,编码字典在填满之前,还未找到重复的段,字典又被重置,因此压缩效率不高。相对于JPEG2000,使用块编码技术,及小波变换编码,在高分辨率和高色深条件下,压缩将不会受到影响,压缩率总体低于50%。
5 结论
***像是一种重要的信息表达载体,其表达力强,数据量庞大,因此***像数据的存储和传输都要求对数据进行有效的压缩[5][6],一些实际的应用要求这些压缩是无损的,如医学***像、遥感***像、***像存档等。如何在保证无损的前提下尽可能提高***像的压缩效率,对于这些与***像有关的应用(尤其是基于Internet或其他广域网络的应用)而言,具有非常重要的意义。在本文中,提出了一种改进的LZW***像压缩算法,本算法在医学、天文、文字***像等领域的低色深的非自然***或有大量色块的***像压缩领域。
参考文献
吴宇新,余松煜. 对LZW 算法的改进及其在***像无损压缩中的应用[J].上海交通大学学报,1998, 32(9):102~113.
高长铎. 采用LRU淘汰原则的LZW压缩算法[ J ]. 青岛大学学报, 1998, 13 (4):25~28.
王平. LZW无损压缩算法的实现与研究[J]. 计算机工程, 2002, 28(7):98~100.
数据字典篇7
一、深入研究数字化与辞书编纂中知识产权保护问题的现实意义
1 深入研究数字化与辞书编纂中知识产权保护问题,是辞书业发展中迫切需要解决的问题。由于计算机和网络技术的普及和新技术的融入,使传统辞书的编纂、出版工作和以前比较都发生了很大的变化,辞书的编纂、出版工作面临着许多新问题。正如前所述,这些问题亟待专家及学者深入研究和探讨,在理论和实践的结合上能够有所创新,把对数字辞书的法律保护真正落到实处。尤其是数字化辞书的数据库化、软件化、存储光、磁、ROM化的结构特征,使得侵权的方式发生了很大的变化。传统辞书侵权的形式多数表现为直观性,显象性、易读性,而数字化辞典则表现为间接性、隐蔽性、不可读性,侵权判定的难度亦越来越大。一方面在侵权手段上,从早期简单的人工抄袭和复制,变成了需要借助于某些技术手段才能完成,侵权的过程变得越来越呈现出复杂化、技术化;另一方面在侵权的形式上,从传统辞典文字的表面化,变成词典组织的结构化、体例化、深层次化。若不从立法上和司法上及时调整对数字化辞典保护的方式和力度,不仅不利于数字化辞书权利人的利益,而且也不利于我国数字辞书的发展和创新。
2 深入研究数字化与辞书编纂中知识产权保护问题,是规范文化市场秩序的迫切需要。数字化辞书是知识密集型的高科技产品,具有高投入高回报的文化产品,在我国的文化教育及社会文化中,起着十分重要的作用。但是,数字化辞典与传统辞典比较具有易复制的脆弱性特点。由于一些不法分子投机心理和利益驱动,利用了数字化辞典的脆弱性,有的互相抄袭、剽窃,有的疯狂盗版,有的将辞典改头换面,占为己有,还有的将其直接在互联网上公开发表。由于辞书市场的无序状态,使得业界人士对辞书数字化的发展忧心重重,困难重重,步履艰难,难以形成辞书数字化的热情和氛围。因此,规范辞书文化市场,是辞书数字化进入良性循环的迫切需要。若像过去一样,仅仅依靠技术自身的保护,已经显得力所不能及了,呼唤法律保护已成为数字化与辞书编纂中时代强音。
3 深入研究数字化与辞书编纂中知识产权保护问题,是促进我国数字化辞书业发展的迫切需要。以计算机、数据库、网络等技术为龙头的高科技时代,新技术变化速度之快,周期之短。辞典的数字化代表着辞书的发展方向,是一项综合性的先进的技术,是当前辞书业发展中的一个重要的分支,加强对数字化辞书知识产权保护问题的研究,就显的尤其重要和突出。如果不能从立法、司法、***上得到根本的解决和保护,试想其发展是非常艰难的,最终可能影响到或丧失掉数字化辞书竞争的能力,使辞书业发展出现被动、落后的局面。对数字化辞书的知识产权保护问题的研究,是促进我国数字化辞书业发展,提高全民族文化素质,提高我国在国际上的竞争能力的需要。
二、数字化辞书编纂中法律问题的透视
传统辞书依据著作权法进行调整,对这一法律关系业界人士都已经比较熟悉,本文无须赘言。而对数字化辞书的法律调整问题,还存在着某些困惑,缺乏维护其权益的必要手段。产生此种情况的主要原因是由于计算机、数据库、网络等新技术的融入,客观上辞典编纂与数字化已经紧密结合,多重技术融为一体,在权利主体和客体上,形成了你中有我,我中有你的一种不可分割的融合状态。不仅辞典创作的过程发生了变化,而且辞书最终产品的形态也发生了变化。正是由于这种变化产生了许多新的法律问题。分析其原因主要源于传统的辞书编纂与数字化辞书编纂在创作过程中发生了较大的差异。如辞典的功能设计、使用方式、检索方式、再版条件、辞典数据库维护和更新、法律责任承担、产品的物理形态及存储介质等。
我们也可以从数字化辞典的创作过程,看其与传统辞典的在著作权法律要素的差异。第一,从创作主体看,由单一主体变成了多元主体。一部传统辞书的创作主体基本上是同一学科领域的专业主体完成;而数字化辞典的创作将计算机、数据库、网络等技术引入了辞书的创作过程,其创作主体已不再是单一的学科领域的专业主体能够完成的,而是需要多学科、跨学科领域的专业主体共同完成。第二,从保护的形式看,由单一的保护形式变成了多元的保护形式。在一般情况下,传统辞书保护的是文字作品;而数字化辞典著作权的保护体现在多个方面。其中包括文字作品,计算机软件作品、数据库、辞书编纂中的技术方案、软件开发文档、技术秘密等。第三,从权利范围看,由单一的权利变成了多元权利。传统辞典只享有文字作品的著作权;而数字化辞典除了享有文字作品的著作权外,还可以享有计算机软件、数据库、开发文档的著作权和技术方案专利权、技术秘密等项权利。第四,从权利主体看,由于创作主体、保护形式、权利范围的多元化,必然带来了权利主体的多元化。第五,从权利的客体看,传统的辞书主要表现为纸介质的形式,数字化辞书磁介质、光介质、半导体器件等。第六,从侵权行为看,由直接的、显现的变成了间接的、隐蔽的。对传统辞典侵权的表现形式多数为人工的复制、抄袭,其侵权结果一目了然,也很容易判断,而数字化辞典则不然,其侵权形式表现为间接性、隐蔽性、不可读性,对侵权判断具有较高难度。
了解和把握数字化辞典的法律特性,有助于辞书权利人在数字化与辞典编纂的过程中,规范辞书当事人的行为,也使数字化与辞典编纂的事业有序发展,或者在事后发生纠纷时,利用法律的武器,充分保护权利人的利益。
三、数据化与辞典编纂诉讼中应当注意的几个问题
1 关于数字化辞典的软件权属问题。关于权利的归属问题,通常分为法定和约定的两种情况。法定,即通过法律明文规定。约定,即由当事人之间通过书面协议或口头协议的方式约定权利的归属。在当事人约定不明的情况下,法律对此作出了规定,此种情况也属法定的情况。在实践中,由于计算机软件开发具有较强的专业性,在软件创作过程中,在大多数情况下,聘请计算机软件技术人员承担程序的创作工作,而不是辞书编纂人员直接完成。因而形成了辞书软件与辞书文字作品著作权主体分离的情况,一部辞书由不同的主体分别享有权利。形成这种现象的原因,是权利人对自身权利的保护意识还比较薄弱,对现有法律的有关规定不甚了解或应用不足。尤其在计算机软件著作权纠纷中,权利的归属问题表现的甚为突出。这种现象是造成日后纠纷的主要原因之一。笔者认为,为了避免此现象发生,使文字作品的著作权和计算机软件著作权统一于一个主体,可依据《计算机软件保护条例》的规定,通过签定开发合同的方式,明确规定当事人的权利义务,从法律上根本解决权利分离的问题,使纠纷防患于未然。鉴于软件作品与文字作品区别,现行法律中又存在着两个不同类型的著作权。笔者认为,辞典编纂单位,应以合同的方式,在软件开发的先期就解决软件著作权的归属问题,最好通过协议的方式,约定为独家享有软件著作权。除了软件是一笔很高价值的无形资产外,最重要的还在于对辞书编纂的持续发展所必须的。同时,也有利于减少日后的纠纷,减少不必要的诉讼。对由于历史的原因,已经形成了两个著作权分离的情况,应当如何处理?笔者认为,当事人之间可以通过签定补充协议的办法,明确各方当事人的权利义务关系。在审理中经常遇到以下几种情况:第一,如果双方坚持主张享有软件著作权时,根据《计算机软件保护条例》的规定,双方均享有转让以外的软件著作权。此种处理结果由于双方彼此互相约束,不利于该软件技术的深入的开发。第二,或经双方商定,由一方一次性买断,并向另一方支付一定的费用,以避免日后的纠纷。第三,如果此种情况发生诉讼时,法院判决可能出现两种结果,法院将依据《计算机软件保护条例》的规定,一是判给软件开发方。此结果对辞书编纂单位十分不利。二是判给有利于该软件技术发展的一方,另一方按软件销售额约定分成比例。实践中也曾经有过这样的案例。较好地解决计算机软件著作权的遗留问题,也是数字化与辞书编纂中亟待解决的问题。
数据字典篇8
关键词:DM3数据库;互联机制;设计
多数据库系统是分布式数据库系统的一个重要分支,是一个新兴的数据库研究领域。随着企业规模的不断扩大,各部门所需信息既相互交错,又相对***。这就要求各部门所用的数据库既能高度自治地工作,又能进行信息共享。
DM2是采用客户/服务器模型,客户机与服务器,服务器与服务器均通过网络互连,通过消息相互通讯,组成一个紧密耦合的分布式数据库系统。它的工作流程如下:客户机登录到一台服务器上,这台服务器便成为它的服务器;它接收来自客户机的消息,然后根据全局数据字典决定是自己***完成该操作,还是与其它服务器协作处理这条消息,处理完成之后,再由服务器将处理结果返回给客户机。由于DM2上各个服务器站点的全局字典完全相同,任何全局表的信息都会记入全局字典。若用它来构建一个企业的数据库系统,则大量只对企业某部门有用的信息将会充斥在各部门所有服务器的全局字典中,增加了冗余。而且,当对全局表进行DDL操作时,为了确保全局字典的一致性,须对所有服务器的全局字典进行加锁。DM2对全局字典的封锁方式是采用令牌环方式,即令牌绕虚环(非实环)传输,某个服务器想对全局字典进行操作,必须等令牌到达该服务器才可以执行。每个部门建立的全局表绝大多数只对本部门有用,当对这些表进行DDL操作时,却要对所有服务器的全局字典进行封锁,通过令牌来实现对全局字典的互斥访问。这严重损害了数据库的效率。
为弥补以上不足,在DM2的改进版本DM3中增加了协调器,用以联接各个***的DM3数据库子系统,并协调各子系统间的各种关系,使各子系统既能高度自治地工作,又能进行有效的信息共享。
一、多数据库体系结构
本系统可看作多个数据库子系统被协调器联起来的,高度自治的一个联邦数据库系统。其中,每个子系统***处理本系统内部的事务,而子系统间的信息共享由复制技术提供,副本间的一致性由协调器协调处理,处理所需的信息在初始化时写入协调器的组间数据字典中。当对某子系统中的一份数据副本进行修改时,该子系统会将修改通知协调器,由协调器对该数据的其它副本进行修改,从而保证了所有副本的一致性。
由以上可知,子系统彼此并不直接接触,而是各自都与协调器直接相联,由协调器统一管理子系统间的通信。这样,当子系统对副本进行修改时,不必关心相应的子系统处于何种状态,也不必等待回应消息,以及异常处理,所有这些都由协调器进行管理。因此,既提高了系统运行的效率,也保证了子系统的***性。
协调器主要有三大功能,首先,它对协调器和服务器进行初始化,并将有关信息存入组间字典;其次,它管理不同子系统间的通信,维护副本的一致性;最后,它在子系统出现崩溃时,进行异常管理及恢复工作。
二、多数据库互联机制的主要策略
多个DM3系统间的信息共享是通过副本实现的,副本的一致性是由协调器来维持的,是一种弱一致性。通常,多数据库系统间的一致性是通过协调器周期性地访问服务器的日志来完成的。由于副本的更新带有随机性,因此,若采用这种方法,可能数据被修改多次,但其相对应的副本仍未被修改,这样就损害了数据的一致性;也可能数据并未被修改,但协调器已多次访问了服务器的日志了,这样就降低了系统的效率。
所以,本系统采用的方法是当数据被修改时,由服务器通知协调器有关信息,再由协调器通知相关系统,修改相关数据。这样,数据的修改及时(仍然是弱一致性),而协调器也不会在数据未被修改的情况下访问服务器,提高了准确性。
为了使协调器正常工作,我们对底层数据库管理系统DM2进行了修改。在基表控制块TV_CTRL_BLOCK中增加一项IsReplication。建表时,该项初始化为false;当为该表建立一个副本时,该项赋值为true。具体算法如下。
1、初始化算法。 >
协调器:从用户或应用程序接收待连接的两个系统中的服务器名,需复制的表名;分别登录到两个系统的服务器上;向存有待复制表的服务器发预复制消息;等待服务器消息;若失败,发一条失败的消息给服务器和用户或应用程序;若成功,从消息中取出待复制表的有关信息,根据这些信息,发一条建表消息给另一个系统的服务器;等待服务器消息;若失败,发一条失败的消息给服务器和用户或应用程序;若成功,调数据转移程序,进行数据复制;将有关信息写入组间字典,退出。
服务器:当服务器收到预复制消息后,将基表控制块TV_CTRL_BLOCK中的IsReplication赋为true。同时,取出待复制表的有关信息,组成应答消息发给协调器。
当服务器收到失败的消息后,将基表控制块TV_CTRL_BLOCK中的IsReplication赋为false。
、维护算法。
协调器:从组间字典读出相关信息,根据这些信息,登录到相应系统上;等待消息;从某系统的服务器上收到一条修改消息后,通过查找组间字典,确定该消息的目的地,然后将它转发过去;若失败,定时重发。
服务器:)等待消息;)当收到某客户或应用程序的消息后,检查它是否是修改数据的操作(如delete,update或insert等);若是,检查基表控制块TV_CTRL_BLOCK中的IsReplication是否为true;若是,向协调器发修改消息;继续执行服务器程序的其它部分。
、恢复算法。
若协调器所联接的系统中有一个跨掉了,则对副本的修改无法及时地反映到跨掉的系统中来。这时,需要恢复算法来进行处理。
协调器:当协调器发现有一个系统已经崩溃后,采取以下步骤。
数据字典篇9
1.为什么要把偏旁与部首分开来提
这要先来看看什么是偏旁。从字的构成来说,现代汉字可以分为独体字和合体字两类,其中绝大多数是合体字(语文出版社出版的《小学生语文规范字典》所收3600个汉字中,独体字只有242个)。汉字形体发展的总趋势是由独体而合体,越到后来合体字越多。为了识写的方便,就要对汉字进行分析。一分析,便发现汉字虽然是由笔画构成的,但在占汉字总数的绝大多数的合体字中,都能找出一些比笔画大的"构件"--偏旁,可见偏旁就是"在汉字形体中常常出现的某些组成部分"(《现代汉语词典》2002年增补本第969页)。一般地说,由笔画组合为偏旁,由偏旁组合成绝大多数汉字,这是现代汉字结构上的一个重要特点。在识字写字教学中用"偏旁"来辅助,正是利用了汉字的这一特点,使得识字写字变得容易多了。
那,什么是部首呢?部首是"字典?词典根据汉字形体偏旁所分的门类" 。可见"部首"主要是为了编撰字典?词典的需要而使用的。
尽管"偏旁"与"部首"有不少相同之处,但从它们各自的主要功能出发,我们还是决定把它们分开来提:在识字写字教学过程中只使用"偏旁",在学习查字典的时候再出现"部首"。实践证明,这样做不仅利于老师的教和学生的学,而且还避免了"偏旁""部首"纠缠在一起难以说清的麻烦。
2.教材安排偏旁的根据是什么
首先是根据课文(包括"识字"课文和阅读课文)中"要求会写"的生字出现的情况。
其次是根据中国文字改革委员会?国家出版局于1983年联合颁布的《汉字统一部首表(草案)》来确定安排哪些偏旁。为什么呢?因为到目前为止,国家语委尚无关于偏旁的法规?文件;而《汉字统一部首表》虽然是草案,但毕竟是国家的正式规定。同时,《汉字统一部首表》里的201个部首,是各类辞书确定部首安排的依据,其中大部分也都可以作为偏旁,我们安排的偏旁与该表一致起来,能够收到既方便识字写字教学,又利于其与日后的学习查字典顺利"接轨",一举两得。
再次是根据识字写字教学的需要。为了在识字写字教学时能够突出重点,简化头绪,减少冗余信息,我们在安排偏旁时往往要作一些变通处理。有些字是"部首字",本身是可以作为偏旁的,但是我们把它归为其他偏旁,学生反而容易识记,例如,"黑"字,在一下《识字3》里出现于"燕"字的后面,而在《练习1》"认清笔顺"中,因其笔画少些就排在了"燕"字的前面,我们就把"四点底"排在"黑"这里。
3.教材是怎样确定偏旁名称的
一看能否***成字。现代汉字的偏旁有3种情况:一是能够***成字的,如"人?刀?山"等;二是不能***成字的,如"三点水?言字旁?双耳"等;三是古代能够***成字,现在已经不能成字的,"两点水?私字旁厶?三撇儿"等。第一种叫做"成字偏旁",偏旁名称不成问题;二?三两种叫做"非字偏旁"那就要根据情况来确定名称了。
二要遵从公众习惯。过去,偏旁在左称"偏",在右称"旁"。现在,无论在左,在右,在上,在下,在中间,在,都叫"偏旁"。我们可以按照一般的习惯,在左称"左旁",在右称"右旁",在上称"字头",在下称"字底",在(全包或三面包围)称"字框",在中间称"字腰"?"字心"。
三是服从教学需要。有的偏旁既没有比较规范的称呼,也没有约定俗成的名称,或者虽有一定的名称但眼前又不适用,我们就可以用被安排的汉字来作为偏旁的名称。例如,一下《识字2》在"击"字上安排了偏旁"U",有的说古同"坎",有的叫"半山框",都额外地增加了难度;一般称其"凶字框",而"凶"字没学过,我们就称它为"击字框",是不是简单化了?还有个偏旁"卓",无法确定名称,因为是安排在"朝"字上的,叫它"朝字旁",学生一下子就接受了。
4.偏旁问题在识字写字的评价中是什么位置
识字,指读准字音?辨清字形?了解字义,并建立音形义之间的联系。写字,则是识字的一种综合能力,要求把字写正确,写美观。所以,《语文课程标准》指出,评价识字与写字,"要考查学生认清字形?读准字音?掌握汉字基本意义的情况,以及在具体语言环境中运用汉字的能力,借助字典?词典等工具书识字的能力。"要"关注学生日常识字的兴趣,关注学生写字的姿势与习惯,重视书写的正确?端正?整洁,激发学生识字写字的积极性"。
数据字典篇10
关键词:专用铁路 货运制票 票据管理 系统开发应用
中***分类号:U294.1 文献标识码:A 文章编号:1672-3791(2012)08(c)-0239-02
1 系统开发主要内容
货票是铁路运营的主要票据之一,是运输统计、财务管理、货流货物分析的原始信息,也是运输调度指挥作业不可缺少的基础依据。本系统是针对企业货运运输的特殊需求而开发,能够实现管内货票、杂费、到付票的信息填制、费用里程计算、票据打印、数据传输、查询统计,同时提供票据的申领、发放、监控、管理功能。
本系统主要采用的技术方案包括;(1)为提高货票信息的管理水平,本系统通过基层制票点对货票及相关信息的一次输入,在信息中心建立完整的中央货票信息库,所有的货票信息、基础字典均在中央货票库内;(2)根据企业货运运输的特殊需要,在相关法规***策范围内,针对不同的运输对象及特定条件可提供灵活的费用计算方式;(3)以参数记事为基础,提供多种杂费收取项目;(4)可直接从国铁相关参数文件直接导入基础数据字典,提高参数维护效率;(5)提供了票据格式设计手段,当票据格式发生变化时用户可自行调节,而不需软件升级;(6)对各种票据进行统一管理,即时监督各制票作业点的票据存量及使用情况;(7)为保证数据安全,每台客户端产生注册码后由管理员统一注册,方可连接数据库进行相应的制票、维护、查询操作。
2 系统开发技术方案及说明
2.1 系统目标设计
结合国内外先进、成熟的软件开发经验,采用成熟的软件开发技术,研究徐沛铁路管理处货运制票与票据管理系统方案。
开发货运制票与票据管理系统。
在选定的车站建立货运制票与票据管理系统,完成系统的试点试验。
实现票据的填制、里程计算、运杂费计费、票据打印、数据保存、查询统计。
实现票据的号码制管理,记录票据的请领、发放、使用情况。
按货运票据管理的要求和作业控制流程,从信息角度提供相应的卡控措施、警示措施,提供一定的自动分析功能,为票据管理提供详实的数据。
按车站、公司两级体制实现生产功能和相应的管理功能。
2.2 系统功能设计
系统功能包括以下四个主要部分:系统维护、票据管理、票据填制、查询统计。
细分为系统管理、参数维护、票据管理、货票填制、杂费填制、财收四结账、数据查询、汇总统计等几个模块。
2.3 系统管理
(1)终端机管理,对终端机集中管理,经过授权的终端机可以连接到系统中,进行票据填制、查询统计等业务操作,未经授权的终端机联入系统后不能进行操作。
(2)岗位角色管理,根据公司管理需要,设定任意个岗位/角色,对每个岗位/角色授予指定的权限,拥有相应角色,可以使用系统进行对应的功能操作。
(3)操作员管理,维护操作员,并给操作员授予适当的权限,操作员登录系统后,只有经过授权的模块才能使用。
(4)数据备份/恢复,使用Oracle系统功能,对基础数据、生产数据进行及时备份、恢复。备份数据以文件方式存储,可以备份到移动介质。
(5)数据清理,对过期的数据进行清理,只有管理员身份才能进行数据清理。时间使用数据库时间进行验证,生产数据至少保留一个年度,防止误删除。
(6)安全管理,设定操作员密码,默认密码自动提示修改。
实际应用软件,根据货运作业的基本规范,本系统包括制票点及铁管处两级应用。
车站制票点应用系统负责票据信息的输入、打印、传输,为方便实际应用及管理维护,并根据用户方提出的技术要求,采取C/S(客户端/服务器)架构方式运行,实时将票据信息保存在中央数据库内。
3 车站制票应用软件的主要功能
(1)票据的填制、计费及打印,包括发送货票、到付货票、杂费票据。其中根据收费的不同,发送货票和杂费票据又分为用于沛屯集团内部运输的票据填制及集团外货物运输的票据填制。而到付货票主要是由驻沙塘站货运员将到达货票的数据信息进行录入,其信息可供填制(到达)杂费票据是提取及用于统计查询。
主要填制内容包括计划/运输号、票符票号、发站、到站、车种车号、施封篷布号、发货人及地址、收货人及地址、品名、件数、发重、铁重、记事和用户自定义输入、托运/承运人装车标志等,输入过程中进行数据校验,并根据输入数据调用计费模块进行里程、费用计算,确认后进行票据打印,然后将数据保存在工作数据表内,填制过程中,用户可根据需要进行多种记事栏的选择和输入。
根据不同营销策略的收费需求,在完成票据内容填制后用户可根据提示进行计费方式的选择。
其中一般计费是指安装国铁规章规定的正常收费方式计费;优惠计费是在相关部门许可的情况下,按照优惠价率进行计费;特殊计费是指所有费用(除印花税外)仅按照每吨公里固定单价收取。上述优惠价率和固定单价由收入部门根据相关文件修改录入。
(2)数据处理,包括票据查询及票据作废,可以查询由本机填制的票据信息,对结账前发现填制错误的票据进行作废处理;票据单号查询可查询本机请领发放情及使用情况。
(3)统计报告,包括财收四统计及其他信息综合处理。财收四统计按系统时间做日统计,也可以按指定起止日期进行旬统计。统计内容包括票数、作废张数、财收情况、发送重量等,是本站财务统计上报的基本文件,分别包括内部货票、外部货票、内部杂费、外部杂费的财收四统计数据及汇总。
如果勾选了“货票财收打包”复选框后,系统将生成正式财收四,即对当日票据进行结账打包,此项功能一天只能运行一次,为确保票据信息的安全可靠性,结账后所有票据信息将不能做任何改变。
信息综合处理则是根据用户要求及基层制票的实际需要,提供相关的票据信息处理、统计功能。
4 徐沛铁路管理处管理维护应用系统功能
徐沛铁路管理处维护应用系统功能包括货票信息的查询、统计、管理、维护等,后台建立货票信息库,前台采用客户端方式实现用户提出的各种查询、统计、管理需求。管理维护及综合应用系统主要包括以下几方面的内容。
(1)通过基层制票点对货票及相关信息的一次性输入,在铁管处建立完整的中央货票信息库。
(2)具有货票及相关票据信息查询功能,可供铁管处各级业务和管理部门进行票据信息查询,包括实时信息或历史信息。
(3)根据用户需要,提供相应的汇总统计分析功能及报表打印。
(4)为用户提供良好准确的权限管理及基础数据字典维护手段。其中基础数据字典包括统一字典和专用字典。统一字典维护的数据为与国铁统一的制票系统基本字典一致,包括品名字典、站名字典、车种字典等,管理人员也可以进行部分微调。
专用字典维护与铁管处或本系统实际应用相关的基础数据字典,包括货运站字典、货运制票点字典、装卸车作业点字典、操作用户字典、收发货人字典等。
(5)提供灵活可靠的各项计费参数、公式维护手段。维护计费相关字典,包括计费公式及计费参数记事字典等。
(6)票据管理,统一对各种票据进行管理,包括票据审核发放(根据制票点填制的票据请领申请,经领导审核后,生成可使用票据号码段,并打印票据发放单)、票据使用情况查询(根据指定票据号码段,查询每张票据的使用情况,包括制票日期、操作人、制票点等)、票据作废与调拨、票据使用情况统计(根据实际制票情况,对已发放的票据使用情况进行统计,包括已使用及未使用票据,根据制票点、号码段生成清单)及报表打印等。
5 徐沛铁路管理处货运制票及票据管理系统开发的特点及作用
货运制票及票据管理系统具有以下特点。
(1)人机界面友好,操作简洁方便。系统采用C#.NET软件工具开发,符合Windows系统操作习惯。
(2)易学易用,尽量减少用户的记忆负担。制票系统操作界面基本模拟国铁制票软件,对于熟悉国铁制票软件的货运员基本上不用培训都可以直接进行操作。同时,对应很多输入项都有提示栏提供相关的录入帮助。
(3)尽可能减少输入数据的工作量。
(4)能对输入的数据进行校验,保证数据的正确性和完整性。
(5)具有良好、可靠的维护管理功能。
(6)功能尽可能全面,基本满足用户对各种制票的要求。
(7)提供灵活的计费维护手段,系统使用后,当计费方式发生变更时,一般情况下,只需管理用户维护计费公式及相关计费参数表即可实现收费的变更或添加新的计费科目,而不需对软件进行大的修改升级。
由于系统采用了统一的数据库管理方式,使得货票、杂费票据信息的管理水平都得到了加强,同时,提高了货票信息监督、维护等手段。灵活的收费方式,可以有效加大企业货运营销力度、使营销策略和市场紧密相连,严格的票据管理功能有效减少了票据使用中的浪费现象,杜绝了虚假现象的发生。随着系统的投入使用,使得铁管处货运水平得到总体提升,进一步为增加铁路运输量提供优质高效的信息技术支持。
参考文献