中国工业企业数据库以及海关贸易数据库合并方法概述

摘要:随着国际贸易理论的发展以及微观计量经济学的引入,越来越多的研究关注到了微观企业行为在国际贸易中起到的作用,中国经济学者越来越重视微观数据的开发和使用。其中,中国工业企业数据库和海关贸易数据库成为国内外学者研究中国企业在国际贸易中行为和绩效的主要数据库。但是,将企业层面的生产数据和产品层面的贸易数据合并会面临一定的技术问题。两组数据库的编码系统完全不同,企业数据库中企业编号为9位,而贸易数据库中企业编号为10位,将两个数据库匹配起来是有困难的。本文介绍了将两个数据库合并的几种方法,并给出了各种方法匹配出来的效果。

关键词:中国工业企业数据库;海关贸易数据库;合并

一、中国工业企业数据库和海关贸易数据库使用概况

在经验研究中,企业级和产品级的微观数据正在受到越来越多的重视。数据是经验研究的根本,因此数据质量的好坏直接决定了经验研究的质量。其中,中国工业企业数据库和海关贸易数据库成为国内外学者研究中国企业在国际贸易中行为和绩效的主要数据库。他们的研究成果广泛的发表在国内著名学术期刊上,包括《经济研究》、《管理世界》、《经济学(季刊)》、《世界经济》等。

杨汝岱在《区位地理与企业出口产品价格差异研究》中用两个数据库从区位地理的角度解释中国出口产品的价格差异,越偏远的地方,企业出口产品的价格相对越低,初步反映出我国出口产业的梯度分工模式。余淼杰在《企业出口强度与进口中间品贸易自由化:来自中国企业的实证研究》一文中,使用中国制造企业数据和贸易数据,发现企业面临的中间品关税的下降显著提高了企业的出口强度,即出口占销售的比例。戴觅在《中国出口企业生产率之谜:加工贸易的作用》一文中,通过2000―2006年企业―海关数据的分析表明,中国存在“出口企业生产率之谜”完全是由中国大量的加工贸易企业导致。除此之外,还有一系列研究运用中国工业企业数据库和海关贸易数据库得出了很好的结论。

但是,将企业层面的生产数据和产品层面的贸易数据合并会面临一定的技术问题。两组数据库的编码系统完全不同,企业数据库中企业编号为9位,而贸易数据库中企业编号为10位,将两个数据库匹配起来是有困难的。并且,两个数据库原始数据存在很多问题,如样本匹配混乱、指标缺失、变量大小异常、侧度误差明显和变量定义模糊等严重问题。本文介绍了将两个数据库合并的几种方法,并给出如何整理数据,剔除异常值的步骤和建议。

文章余下部分安排如下:第二部分简要介绍了两个数据库的特征;第三部分介绍了两个数据库的并方法;第四部分是结论和建议。

二、两个数据库基本介绍

(一)中国工业企业数据库的基本介绍

中国制造业企业数据库由国家统计局建立,它的数据主要来自于样本企业提交给当地统计局的季报和年报汇总。包括2000年到2006年每年约230000个制造业企业的生产信息。这套数据包括了3张会计报表:损益表,资产负债表和现金流量表,共100多个会计变量。这套数据每年涵盖的企业生产总值占中国总工业生产总值约95%,实际上《中国统计年鉴》中的加总的工业数据就是从这套数据加总而来。数据包括两大类型企业,所有国有企业以及年销售额在500万元以上的非国有企业。企业数目从2000年的162885家增长到了2006年的301961家。

(二)海关贸易数据库的基本介绍

海关数据库包括了2000-2006年产品层面交易的月度数据。每个产品都是在HS8位码上,产品数量从2000年1月的78种增加到2006年12月的230种,每年平均的观测值数目由2000年的1000万增加到2006年的1600万,最终这7年的观测值总数约为118333831个,大约有286819家企业参与了国际贸易。

三、两个数据库合并的方法

(一)按企业名称对接两个数据库

根据企业的姓名和年份匹配,在同一年的两套数据中有相同的名字则认为是同一个企业。年份这一变量对于匹配是重要的,因为一些企业在不同年份企业名称可能不同,并且新进入的企业有可能采用他们原来的名称。

《中国的多产品出口企业及其产品范围:事实与解释》采用此种方法,目的是为了剔除中间商。同时出现在海关数据库和工业企业数据库中的企业必然不是纯粹的中间商,因此留下来的样本就是剔除了中间商的样本。用此种方法合并,最后得到2000-2005年的企业数量分别为22631,26038,30629,37103,42259,44136家。合并后的数据库企业出口额达到了原海关数据中出口额的60%。这样,合并后的数据就近包括有出口行为的工业企业的进出口和企业的投入产出信息。

两篇文章匹配出的结果一样。

(二)使用邮***编码和电话号码对企业进行识别

通过企业的邮***编码和最后7位电话号码进行匹配,因为在每一个邮***地区中,企业的号码不同。《加工贸易、企业生产率和关税减免――来自中国产品面的数据》一文采用此种方法。筛选之后,有218024家企业的产品贸易数据(海关贸易数据)保持有效,占到了全部640352个企业样本中的34%。同理,对企业数据集,剔除掉其中邮***编码或电话号码无效的样本后,剩余的企业样本数为973207。继续按照先前的标准进行筛选,则还剩下433273个企业样本,占到了973207家企业中的44.5%。在此基础上,文章将产品贸易数据和企业生产数据归并整合起来。

(三)采用企业名称以及邮***编码和电话号码两种方法匹配,然后取并集

《企业出口强度与进口中间品贸易自由化:来自中国企业的实证研究》一文首先根据企业的姓名和年份匹配,在同一年的两套数据中有相同的名字则认为是同一个企业。这样如果使用原始的工业企业数据,我们可以匹配到83679家企业。如果使用筛选(根据“通用会计准则”(GAPP)中的规定)过后的,我们可以匹配到69623家企业。第二种方法通过企业的邮***编码和最后7位电话号码进行匹配。

一些企业有可能在工业库或海关库中没有汇报企业名称,同样,其邮编和电话号码也可能只出现在一套数据中。为了保证能匹配到更多的企业,将两种方法得到的数据取并集。如此,用原始工业企业数据成功匹配的企业数有90558个。筛选(根据“通用会计准则”(GAPP)中的规定)后的有76823个。

(四)将企业名称拆分成若干词段,用这些词段去搜寻匹配

在数据匹配上,首先按每家企业的企业名称完全匹配,接下来将不能完全匹配上的海关库企业中,按贸易额大小排序,将每家企业的企业名称拆分成若干词段,用这些词段去和工业库企业名称搜寻匹配,如果每个词段都能匹配上,赋值匹配类型为“1”,如果只有部分词段匹配上,按匹配要求的精度可逐步赋值。

四、小结和建议

从现有文献来看,合并两个数据库的主要方法有:1.通过企业名称和年份进行匹配;2.邮***编码和最后7位电话号码进行匹配;3.将企业名称分为若干词段来匹配;4.代码表转换。由于第三种方法要求匹配的精度不好确定,以及第四种方法代码表转换不全面,不建议使用。建议使用第一种和第二种方法匹配所得到的数据取并集。

参考文献:

[1]钱学锋,王胜,陈勇兵.中国的多产品出口企业及其产品范围:事实与解释[J].管理世界,2013(01):9-27.

[2]杨汝岱,李艳.区位地理与企业出口产品价格差异研究[J]管理世界,2013(07):21-30.

[3]戴觅,余淼杰.中国出口企业生产率之谜:加工贸易的作用[J].经济学:季刊,2014,13(02).

[4]陈勇兵,李燕,周世民.中国企业出口持续时间及其决定因素[J].经济研究,2012(07):48-61.

转载请注明出处学文网 » 中国工业企业数据库以及海关贸易数据库合并方法概述

学习

温柔分娩是准妈妈的最佳选择

阅读(59)

本文为您介绍温柔分娩是准妈妈的最佳选择,内容包括怀孕生产分娩日记,预产期分娩日记。蒋荣萍,主治医师,高级育婴师。从医37年,有丰富的实践经验。擅长0~3岁婴幼儿早期发展和家庭计划生育的咨询指导。惊心动魄的事实从一个肉眼无法看到的受精

学习

难以抗拒瑞士芝士火锅/黎巴嫩生羊肉:独具特色的美味

阅读(24)

本文为您介绍难以抗拒瑞士芝士火锅/黎巴嫩生羊肉:独具特色的美味,内容包括巴基斯坦芝士羊肉做法,巴基斯坦羊肉的做法大全。难以抗拒瑞士芝士火锅文/万芝瑞士人离不开的四种芝士:艾蒙塔尔(Emmentaler)是一种上乘奶酪,重约90公斤,瑞士人说它“

学习

青岛附医:移动医院初体验

阅读(22)

本文为您介绍青岛附医:移动医院初体验,内容包括青岛医学院附属医院就诊攻略,青岛大学附属医院看病经历。2014年,与许多医院一样,青岛大学附属医院开始全面拥抱互联网。不同的是,这家医院在这条道路上走得更快,走得更远。这一年,青岛大学附属

学习

冷冻机房的设计

阅读(48)

本文为您介绍冷冻机房的设计,内容包括冷冻机房设计技巧,超高效全自动冷冻机房设计规范。“制冷”就上使自然界的某物体或空间达到低于周围环境温度,并使之维持这个温度.随着工业、农业、国防和科学技术现代化的发展,制冷技术在各个领域中

学习

全媒体时代传统媒体如何打造核心竞争力

阅读(64)

本文为您介绍全媒体时代传统媒体如何打造核心竞争力,内容包括举例说明旅游媒体的核心竞争力,新媒体时代最核心竞争力。美国密苏里新闻学院副院长BrainBrooks早在2006年4月于中国人民大学的前沿学术讲座中明确指出,“媒介融合是不可逆转的潮流”??。随着几

学习

东西岩风景名胜区导游词

阅读(46)

本文为您介绍东西岩风景名胜区导游词,内容包括东西岩导游词,中国的风景名胜导游词。旅客朋友们,大家好!我是你们的导游。我姓,大家称呼我导就是了。欢迎大家到东西岩风景名胜区旅游。在开始欣赏风景之前,我把这里的基本情况向大家作个概略介

学习

保姆车 并非明星专属

阅读(23)

什么是保姆车?对于国人来说“保姆车”还是一个比较新鲜的概念,保姆车,顾名思义,像保姆一样的车,涵盖的功能有很多,通常意义上的“保姆车”是指一辆7座以上既可以装货又可以装载多名乘客的车型。其实,“保姆车”是个舶来词语,其来源于香港明星的

学习

Dream car

阅读(25)

本文为您介绍Dream car,内容包括dreamcar中文意思,dreamcar怎么读语音。Dreamcar这两个单词分开来谁都明白是什么意思,摆一起却不好翻译。梦幻车、梦想车、梦中之车?以上这些,语焉不详之外多少也缺乏韵味。用中文确切的表达或许要再拉长点:

学习

宝信加大云计算投入 宝之云IDC二期将投5.2亿

阅读(23)

本文为您介绍宝信加大云计算投入 宝之云IDC二期将投5.2亿,内容包括宝信idc数据中心,宝信idc服务费。中国软件资讯网2014年7月9日消息,宝信软件公告称,公司预计将以5.2亿元的自有资金,用于投资“宝之云IDC二期项目。在全球范围内,欧美传统IDC

学习

物质决定意识研讨

阅读(22)

本文为您介绍物质决定意识研讨,内容包括物质决定意识原文是啥,为什么意识决定物质。上个世纪80年代初期,曾出现过对物质对意识能否起决定作用的大争论,结果是肯定与否定双方难以说服对方而未有定论。本文认为马克思主义哲学的主要观点“物

学习

物理这一门学科在生活中的作用

阅读(46)

本文为您介绍物理这一门学科在生活中的作用,内容包括物理学的核心内容是什么,物理学知识在生活中有什么作用。物理是一门历史悠久的自然学科,物理科学作为自然科学的重要分支,不仅对物质文明的进步和人类对自然界认识的深化起了重要的推动

学习

成功是被逼出来的

阅读(25)

本文为您介绍成功是被逼出来的,内容包括成功是熬出来的本事是逼出来的,人的成功是逼出来的。许多人都读过《狮子与羚羊》这则寓言故事:每天,太阳刚刚升起的时候,非洲大草原上的动物们就开始奔跑了。狮子妈妈这样教育自己的孩子:“孩子,你必须

学习

“新瓶+新酒”

阅读(22)

本文为您介绍“新瓶+新酒”,内容包括旧瓶新酒文章,旧瓶新酒小说。“新瓶+旧酒”的计量在时下显然已经OUT了,想要吸引更多品尝者,必须要“新瓶+新酒”,而东风日产骊威的这瓶“新酒”究竟如何呢?在试驾过程中,厂方安排了一个有趣的比赛:在规定时

学习

批评家是如何炼成的

阅读(22)

1990年代以来,学院批评逐渐成为当代文学批评的主流。但随着学院批评的日益壮大和成熟,这种批评所暴露出来的问题也越来越多,像不读作品的空头批评,专在作战的迂回批评,大帽子底下开小差的宏大批评,缺少经验和感悟的纯理性批评,以新闻、广告为手

学习

甲骨文NoSQL数据库第一印象

阅读(20)

本文为您介绍甲骨文NoSQL数据库第一印象,内容包括数据库公司甲骨文,甲骨文数据库学习笔记。对NoSQL的先行者而言,甲骨文推出NoSQL数据库可以被解读为:“模仿是最真诚的赞赏”。过去几年间,NoSQL数据库领域充满了令人兴奋的新项目、雄心勃勃

学习

数据库营销功能

阅读(32)

本文为您介绍数据库营销功能,内容包括数据库营销功能,营销活动数据库设计。所谓数据库营销,就是利用企业经营过程中收集、形成的各种顾客资料,经分析整理后作为制订营销策略的依据,并作为保持现有顾客资源的重要手段。在网络营销中,数据库营

学习

工业企业资金筹措管理

阅读(14)

本文为您介绍工业企业资金筹措管理,内容包括企业资金来源及筹措方案,工业企业资金筹措的方式。【提要】本文主要阐述了工业企业的主要筹资渠道与方式、工业企业的主要流动负债与长期负债、工业企业资金筹措的资金成本等问题。【关键词】

学习

山海关站:长城第一站

阅读(21)

本文为您介绍山海关站:长城第一站,内容包括山海关古城景区今日长城,长城东起山海关西到古关。山海关素称京津门户,是联系我国东北、华北的重要枢纽,素有“天下第一关”之美誉。山海关长城是万里长城的重要组成部分,是举世闻名的长城入海处

学习

回忆山海关镇远镖局

阅读(26)

本文为您介绍回忆山海关镇远镖局,内容包括山海关镇远镖局的历史,山海关镇远镖局。山海关古城西大街有一四合院落,门前立有一杆“镖”字大旗随风摆动,灰砖翘脊的屋檐下悬挂着一块“镇远镖局”的匾额。这里曾是威震华北、辽西及口外等地的山

学习

澳大利亚海关反倾销

阅读(36)

本文为您介绍澳大利亚海关反倾销,内容包括澳大利亚反倾销税率是多少,如何查询澳大利亚反倾销。和其他国家的海关一样,澳大利亚海关承担了监管进出口货物及相关物品、征收关税、编制海关统计、打击武器及走私等职责。但同时,它还有一种其他

学习

利用中间数据库实现多系统数据共享

阅读(47)

本文为您介绍利用中间数据库实现多系统数据共享,内容包括数据库可以实现数据共享,多个系统的数据库如何共享。【摘要】本文介绍了山东能源龙矿集团通过制定统一数据交换规范,详细规划各业务系统之间数据的对接、共享及数据整合等问题,利用

学习

欧美国家DNA数据库的建设及应用前景

阅读(23)

[摘要]DNA数据库在打击犯罪方面的发挥着巨大作用,因而受到世界各国的普遍重视。近十年来,欧美等一些发达国家相继建成了以PCR-STR分型技术为基础的罪犯DNA数据库,并且也已制定了相关的法律法规以规范数据库的整个运作过程。西方发达国家的