WGI法治指数的评估程序与经验审视

摘要：法治指数评估不仅涉及对“法治”定义的解读，而且涉及社会学方法意义上的概念化操作。WGI对法治的评估建立在不同潜在数据库的基础上，采用“未观测组合模型”进行测量。全面理清WGI法治指数的概念操作方法、数据整合和收集方法及其结果的反思与平衡，会发现WGI法治指数评估采用的数据处理模型本质上是一个“去伪存真”的过程，其数据采集过程、数据库之间的关联度、数据透明度以及样本偏差性等因子共同构成法治指数结果的可信度因素。我国法治指数评估要在借鉴WGI法治指数评估经验的基础上，不断在实践中完善法治评估主体、数据生成与结果应用的方法，从而充分发挥法治评估在测度法治发展水平以及推进法治建设方面的重要作用。

关键词：法治；定量；WGI法治指数

***的十八届三中全会指出，要加快国家治理体系和治理能力现代化建设，推进法治中国，建立科学的法治建设指标体系和考核标准。尽管世界各国对“法治”观念定义不尽相同，但“法治”观念在实践中能够被量化的事实越来越成为学界共识。对“法治”概念进行操作化研究，并借助社会统计学以及数学计算知识得出系列量化评估数据，能够形成衡量一国法治发展水平的“法治指数”（the rule of law index）。虽然法治指数在监测和评估法治发展状况方面具有重大意义，但法治指数的评估并不是简单意义上的收集法治数据，运用数理统计方法处理数据，从而得出法治评估数据，它其实体现的是一种认识法治的思维方法，一种在生活中发现法治微观形态的具体实践。因而对待法治评估的量化，采用何种“法治”概念化指标操作，以及如何在过程当中体现评估的科学性，依然是法治指数评估活动必须持续关注的问题。显然，深入这些问题的实质，就必须全面整体辩证地看待法治指数评估，充分认识到量化“法治”的科学性及其限度。基于此，本文以全球治理指标（worldwide governance indicators，简称WGI，下同）法治指数为研究个案（case study），对其内部构造、逻辑结构、计算方法以及结果运用等方面进行深入研究，以期对WGI法治指数有个反思性的理解，从而在理论和实践层面不断推进中国法治指数评估不断向前发展。

一、WGI中的“法治”观

自1996年开始，来自世界银行的Kaufmann，Daniel 和 Kraay，Aart和 Zoido，Pablo（以下简称KKZ）三位学者建议，在整合来自国际***府组织和非***府组织的各种指标数据基础上，发展一套能够有效评估世界各国治理状况的全球治理指标体系 KKZ综合广义和狭义的“治理”概念之后，把治理定义为“一个国家权力运行的传统和机制”。在此定义下，主要包括三个方面内容：（a）***府的选举、监督和替代的过程；（b）***府有效制定和推行合理***策的能力；（c）公民和国家得到调整经济和社会关系的制度的尊重。同时，用六个聚合性维度测量“治理”观念：发言权与问责（Voice and Accountability）、***局稳定与无暴力（Political Stability and Absence of Violence）、***府效能（Government Effectiveness）、监管质量（Regulatory Quality）、法治（Rule of Law）以及腐败控制（Corruption Control），形成全球治理指标体系。。自1996年至2014年，世界银行共16份全球治理指数报告，其中1996年至2002年每两年一次，2003年至2014年每一年一次。在历份的全球治理指数报告中，对不同国家法治状况进行评估并计算相应的法治指数是世界银行全球治理指数的重要组成部分。“法治”指标作为衡量全球治理水平六个重要标准之一，通过对法治水平的测量，可以判断出一国的***治和经济环境，并将影响投资者的投资行为和决策。

在全球治理指标体系下，“法治”这个聚合性指标来自不同数据库的变量得出。这些数据库分为代表性数据库和非代表性数据库，代表性数据库包含了许多国家并且用作这些国家的法治指标可能是世界上所有国家的共性指标，也即涵盖了大部分发达国家和发展中国家的所有指标。非代表性数据库要么覆盖具体的区域范围（例如，拉美民主动态调查只覆盖拉丁美洲国家）；要么覆盖特殊的收入水平国家（世界银行国家***策与制度评估只针对发展中国家）。测量“法治”观念的数据库有23个数据库，其中代表性数据库9个，非代表性数据库14个。按照数据库类型划分，民间调查组织和***组织分别都有7个，商业信息提供者有3个，非***府组织有6个。其中，民间调查组织和***组织数据库分别占所有数据库总和的34%，而商业信息提供者和非***府组织所占比例分别为10%和22%。详见下表1和***1：

从测量“法治”观念的数据库分布类型和比例来看，***组织以外的数据库类型占大多数，这有利于减少样本偏见，保证数据来源的多样性和客观性。另一方面，数据库来源的多样性能尽可能地测量一国“法治”真实值，使得不同国家之间的比较具有意义。从测量形式上看，代表性数据库和非代表性数据库通过专家评估、民意调查等方式测量不同国家的“法治”观念，直接反映了一国公民、组织和机构对“法治”观念的感知，间接反映了一国法治发展状况。从代表性和非代表性数据库所测量的“法治”内容来看，包括七个方面的“法治”观念：财产权利保护、司法***与司法公信、行***责任、规则的治理、犯罪控制、知识产权保护。因此，如果仅从定性分析的角度看，这七个法治观念基本都是法治建设和发展的重点内容，但能否用量化分析工具对“法治”观念准确测量法治发展水平，则须借助科学的统计方法和量化工具。

测量方法贯穿着不同学科复杂的技术思维，也是自然科学的核心观念（Ginsburg，2011）。与WJP法治指数 2006年美国律师协会前***威廉・纽康姆（William H.Neukom）创立了一个名为世界正义工程（The World Justice Project）的非营利组织，该组织在微软、通用、福特等跨国公司的基金会提供大笔经济支持的前提下，于2008年了一套***的法治指数。此后，于2010年公布了世界正义工程法治指数第一份报告，至2015年已连续公布了5份研究报告。从2015年WJP法治指数最新报告得出，WJP“法治”的四项基本原则下，设置9个一级指标和47个二级指标，并在此指标体系下运用专家咨询和民意调查的方式直接获得“一手”（first hand）数据测量法治水平，最终运用加权平均法来计算国家整体的法治水平。参见，The World Justice Project Rule of Law Index（2010-2015），http：//world justice .最大的区别就在于，WGI法治指数是基于不同数据库对法治内容或观念测量得来的数据，采用一种聚合性方法（aggregation method）构建“法治”的组合性指标（composite indicator），通过未观测组合模型（unobserved components model，以下简称UCM）的统计方法来处理不同数据库之间对同一国家的“法治”观念测量数据之间的内在联系。这种内在联系体现了一国真实的法治水平，从而生成“法治指数”。与观测到的测量数据不同，WGI法治指数体现为一种“未观测值”。在KKZ看来，UCM统计方法至少有以下三个方面的优势（Kaufmann et al.，2011）：一是UCM方法用共同单元重新把数据标度，有助于保存潜在数据资源最基本的信息；二是UCM方法提供正常的逻辑架构，可以根据指标数据的精确程度来加权重新标度的指标，而不是简单的不加权平均；UCM方法的第三个优势本身强调了与“法治”组合性指标相关的不确定性，适用UCM统计方法的前提是为了说明这样一个事实：每一个数据的“法治”变量提供的是不完整的信息，而这种信息蕴含了难以直接观测到的深层次潜在“法治”观念。UCM提供了一套合理且更加包容的能够连接不同数据资源的方法，运用UCM处理不同数据库之间“法治”指标数据的过程，本质上一个“数据提取”（single extraction）的过程。它建立在数理统计技术以及标准误差估计值的基础上，能对各个潜在数据库的数据信息进行“去伪存真”，从而得出各国真实的“法治”估计值。

二、UCM的“去伪存真”

（一）权重配置

在区分了每一个数据库与“法治”观念相关的变量之后，接下来的问题便是，如何最佳地组合不同数据库的测量信息，以最大可能地准确测出一国真实的法治水平。显然，运用UCM模型离不开对不同数据库之间提供的数据信息有效性的估计。UCM模型一个关键假设是：不同数据库之间的误差是***的或不相关联的，因此不同数据库之间高强度的数据联系不是数据库之间的测量误差关联，而是反映数据库测量数据的高度准确性。在KKZ看来，这种高度准确性的关联表明，不同数据库测量的信息是丰富有效的。因而，在对代表性数据库之间分配权重时，相比那些弱相关的数据库，应该给那些强相关的数据库确定低的误差变量并配置高的权重。在构建“法治”组合性指标时，KKZ须对代表性和非代表性数据库的权重进行配置，具体分为五个步骤：（1）识别各个数据库内部与“法治”相关的变量，然后通过聚合方法计算这些变量，得出每一个数据库的一个简单而不加权平均的数据。例如，在“世界市场***中心”组织的调查中，只有“司法***和犯罪”两个变量与法治有关，用简单的算术平均法把这两个变量求出一个代表“世界市场***”调查组织测量法治观念的指标数据。（2）运用公式计算每一个数据库的指标数据之后，根据各数据库覆盖国家的数量和发展水平，确定是否是代表性数据库和非代表性数据库。（3）在对法治组合性指标估计值进行聚合计算过程中，对代表性数据库形成的指标数据进行权重配置。所不同的是，在聚合法治组合性指标时，不是用简单的平均赋权，而是根据其相互关联程度配置权重。低的误差变量和强的关联性，表明该数据库提供的信息越丰富，则配以高的权重。（4）对非代表性数据库形成的指标数据进行相关回归分析（regress），获取误差变量和参数的估计值。如果与权重配置高的数据库之间的关联很大，并且得到的误差估计值也低，则配以高的权重。（5）对法治组合性指标的每一数据库配以新的权重，重新计算法治组合性指标估计值（Christiane Arndt和Charles Oman）。显然，代表性数据库和非代表性数据库的权重配置过程不一样，前者运用最大似然函数功能对误差变量和参数进行估计，从而确定权重配置，后者考虑到不同数据库之间测量的国家和指标的不连续性，则采用相关回归分析法对误差变量和参数值进行估计，进行确定权重配置。但是，二者都遵循同样的假设：每一个数据库都是***的、不相关联的；误差变量与权重配置成反比关系。

按照上述数据处理步骤，可以得出WGI对中国的法治评估值（1996―2014），具体详见表2。

通过上表的分析可知，世界银行全球治理指标体系对中国的法治评估所采用的数据库资源整体上呈增加趋势，而标准误差呈下降趋势。从统计学原理来看，数据库资源越丰富，采取的法治观念数据信息越多，标准误差将逐渐降低，也即数据库越充分，标准误差越小，这种关联性充分体现在上述表格当中，具体详见***2。当然，仅从上表的估计值来看，很难看出中国法治发展变化情况，但是这并不否定借助具体数据的技术中立性来分析和描述UCM的内部逻辑架构。

（三）结果反思与平衡

在整个计算过程中，确定代表性数据库和非代表性数据库的权重非常重要，甚至可以说，权重设置的准确性与否决定了测量偏见的程度有多大。在可能存在相互关联的数据库之间配置权重，不是一个在指标理论上的“重要性”问题，而是考虑到一个不同数据之间的一个“信息重合”问题。在对一个国家真实的法治估计值计算后，需充分考虑该估计值的误差问题。

而根据KZZ体系的推断，如果该国的可利用“法治”观念信息越多，则标准方差越小，也就是说，k的值越大，这些***数据资源就越准确，则σk2 越小。“法治”估计值的标准误差对于法治估计值的信度和效度是必不可少的，因为固有的不确定性是测定估计值时就存在的。例如，不管什么时候，比较两个国家的法治值，或者比较一个国家在不同时期的法治值，总会联系两个法治的估计值并给出90%的置信区间，也就是说，法治估计值是标准方差的+/-1.64倍。这个值域，即“边际误差”，可以用以下叙述来解释：根据观测数据，那些真实但未观测到的数值有90%的可能性在此区间。一个相当有用的基本原则是：当两个国家的这些边际误差重叠时，或者是同一时间的两个点，它们的治理估计差值是非常小的，对统计分析几乎没有什么影响。

在估计各国“法治”水平中，存在“边际误差”不仅是一个使用主观数据库来测量法治值的结果，而且更反映了一个基本事实：用可利用的数据资源来表示标准性概念是不完善的。例如，采用问卷调查来测量各国“司法***”观念认知，显然是不能准确测量各国“法治”的全部观念。况且，在发展水平不同的国家，有着不同的社会、法律和***治传统以及不同的信仰和期待，这使得尝试比较各个国家的公共的正义观念没有太大意义（Jim Parsons，2011）。但WGI法治指数的一个核心优势是：研究者充分认识到它的不完善性，除此之外，当他们比较不同国家或者不同时间的法治估计值时，让WGI法治指数适用者正面考虑用此方法存在边际误差，并提供量化完善技术把这种不完善性充分考虑进去。

三、批判与回应：WGI法治指数争议性问题探究

在KKZ公布的系列工作性文章中，提及同行学者对WGI指标体系及其统计方法的批判。这些批判都直接或间接地揭示了用聚合性方法估计WGI六个组成性指标可能存在的问题。针对这些批判，KKZ都做了回应。在批判和回应之间，能够清晰可见WGI“法治”组合性指标的路径依赖及其潜在风险，分析这些争议性问题将从整体上把握WGI法治指数生成的科学依据及其限度。

（一）是否可用于比较？

这种比较既包括“法治”估计值在同一时间段不同国家之间的比较，也包括同一国家在不同时间段的比较。KKZ建立这种比较的前提是，假定世界平均值是不变的，因此一个国家的相对位置在同一时间段的比较和相对位置随着时间段的变化比较都是有意义的。但是批评者认为，在不考虑世界平均值变化的情况下，这种比较不能看出国家内部变化及不同国家之间法治水平的升降。此外，由于数据库每一年都在变动，国家在同一时间段的比较和同一国家在不同时间段的比较，不能建立在潜在的两个极不相同的数据库基础之上，因而很难比较。

为了回应上述批判，KZZ选取了近三年更新的数据库，并对潜在数据库做连续性估计以寻找有利证据证明世界平均水平是否存在显著的变化。但最终表明，这些数据库没有表明世界平均值存在显著的变化，也说明把世界平均值设定为0是没有太大关系的。而针对两个国家可能不出现在同一数据库的测量中或者同一国家不能连续出现在同一数据库等极端情形，KKZ认为，“法治”组合性指标的聚合性优势就在于，尽管缺乏共同的数据库，它仍能使不同国家做比较。因为，聚合性方法能够提供一种科学合理的方式使不同的潜在数据置于同一个共同单元之中，使没有出现在同一数据库中的国家进行比较。聚合性指标的一个品质就在于，把不同的数据库的指标数据转换成共同的单元，并且不考虑是否为共同的数据库情况下做一个比较。当然，这也要考虑标准误差。

上述批评与回应，主要围绕KZZ构建治理指标体系的目的展开，那就是在不同国家之间和时间段之间能否用于比较各国法治发展水平，这种比较的前提是不同数据库之间存在的大量的潜在“法治”观念信息，对此，KZZ用聚合性方法并考虑误差的前提下，来解决不同国家之间比较的问题。如果仅从目的来看，很难说这种比较是没有意义的，但也应该看到其缺陷之所在。无可否认的是，KZZ开创了UCM聚合性方法来解决不同数据库之间的信息联系和提取的问题，因而从本质上说UCM模型对数据的处理就是一个“去伪存真”的过程，目的是得出各国真实的法治估计值。但是，UCM模型又是建立在许多个前提假设基础之上的，其中一个关键假设是：不同数据库的误差是相互***并且不相关的，并以此为前提分别配置代表性数据指标和非代表性数据指标的权重。但这种“假设”是否现实？这就涉及UCM测量的数据库之间关联度问题。

（二）数据库之间不相关？

这是许多批评者都质疑的地方。可以说，一个核心假设在KKZ本身看来都不太现实的是：数据库的误差是不相关联的。在批评者看来，至少以下四个方面的事实能够足以证明数据库之间的误差存在相互关联：（1）一个数据库的专家主观评估数据可能成为其他数据库的来源或者影响其他数据库专家的评估，例如，在法治观念测量数据库体系中，国家***策和风险评估的数据可能成为或影响遗产基金会组织专家的评估。（2）两个数据库的数据来源可能都来源第三方数据库的专家评估。例如，“自由之家”评估可能成为两个不同的数据库的来源。（3）数据库中的数据来源往往受国家的经济发展水平或者财***、***治危机的影响，因为具有时间性和不稳定性。（4）由于对数据库的问卷回答带有具体的文化语境，而不同数据库的问卷调查往往来自同一国家居民的回答，因而具有相关性。上述事实的存在使得KKZ指标体系的信赖度大打折扣。由于数据库之间的指标数据存在关联，这使得每一数据库提供的“法治”观念信息并没有像KKZ所设想的那样是非常充分的，并且边际误差比实际计算还要大。例如，不同的数据库之间，尤其是商业风险评级机构之间在评估中产生的关联误差，使得并没有像它们显现的那样提供丰富的法治观念信息。带来的后果便是，相互关联的数据库配置较高的权重的合理性将减损，进而跨国间比较的正当性缺失。

为了解决这种问题，KKZ希望通过相关的统计和技术手段，来证明这种关联性很小或者不存在。在KKZ看来，数据库之间的关联并不是整个数据库指标数据之间的系统特征。然而，评价这种批评有多大的重要性很难，因为来自不同数据库“法治”观念的高度联系要么确实归因于观念误差，要么是基于这样一个事实：这些数据资源事实上准确测量了不同国家“法治”观念的差异，因此就很有必要相互采纳。通过比较商业风险评级机构（经常被认为最能证明“群体思维”）提供的排名，KKZ提出一种新的计算方式区分这两种产生关联性的原因。最终惊讶地发现，相比公司问卷调查，这些数据资源相互之间没有关联性，这就把数据资源之间的相互关联的偏见引向怀疑。

毫无疑问，不同数据库之间存在相互关联的误差，问题是如何采用科学的统计方法使得这种误差减少到最低程度。虽然KZZ提出的关键“假设”毕竟与现实不符，但是如果没有这个关键“假设”，KZZ聚合性方法的理论基础将不存在，也就很难建构整个“法治”量化指标体系的正当性。毕竟，建构“法治”指标的正当性是，数据库指标之间必须是测量“法治”观念，从这种意义上讲，数据库之间必须是相互关联的。但每一个数据库的测量必须与其他数据库在测量形式和方法上都不同，因而又必须是相互区别的。而在现实中，每一个数据库在测量时，为了不低估同一国家“法治”水平就必须提高数据的准确性，于是希望采用***的数据库信息来补充或印证已有的数据库信息，这就不可避免会引用其他相关的数据库或者受其影响，而这种现实总是会与KZZ的“假设”存在冲突。因此应该认识到，用UCM聚合性方法估计不同法治水平的国家并在不同国家之间比较，有其固有缺陷。

（三）样本偏见

在批评者看来，即便假设成立，那么各个数据数据库之间也存在样本偏见。涵盖“法治”观念测量的代表性数据库和非代表性数据代表不同利益相关者，包括从民意调查到专家评估再到商业调查的差异。由于存在不同的利益主体，再加上问卷回答者往往受国家经济发展水平和***治、财***危机的影响，这就不可避免形成样本偏见。批评者坚信，由于存在样本偏见，各个数据库的数据指标提供的信息不太准确，造成权重配置不合理，使得聚合性指标方法不能准确衡量一国的法治水平。例如，在经济学人智库调查中，商业经营者希望更少的管制和低的税收，但合理的税收和适当管制有利于维护公共利益。如果测量“法治”观念只注重商业人士的观念，那么就不可避免形成样本偏见。这样，不但影响准确评估一个国家法治发展状况，而且不能为发展中国家提供发达国家的法治衡量标准的准确信号，因而不能有效为本国改革和发展提供参照和解决对策。除此之外，有些商业精英阶层评估法治状况经常受国家发展水平影响。也就是说，那些发展水平高的国家，法治水平得分就高。然而，在过去的十年里，商业精英阶层对发展中国家财***经济危机的主观偏见，表明投资者的信心水平并不是建立在一个国家真实的治理水平之上的。

为了回应上述争议，KKZ宣称他们依赖的数据库不仅来自商业组织，也有来自非商业组织和个体的数据。并在报告中，他们进一步说到，其数据来源不仅包括跨国商业调查组织的数据，还包括非***府组织和多边机构提供的数据。而在所有的商业调查组织中，所有受访者并非都是商业精英或外国投资者，也有相当一部分的调查者是公司员工。在他们看来最关键的问题是，商业精英阶层是否本质上与其他社会成员对“法治”观念有着截然不同的观点。事实上，不同类型的数据库的相关系数是一致的。这也就表明，商业精英的评估与其他类型的受访者并不是明显不同。KZZ认为，这种批评的背后隐含了另外一种相关批评，那就是专家评估不仅仅会形成偏见，而且可能是错误的评估。因此，在批评者看来，专家主观评估与家庭问卷调查的关联性很弱。家庭式的问卷调查更能捕捉“法治”信息的客观性，而专家评估更显微弱。但在KZZ看来，并没有明显证据证明专家评估存在测量误差，而家庭问卷调查就没有测量误差。在一个对国家抽样的更大样本中，专家评估和家庭问卷调查的关联性很低将是不太现实的。因此，KZZ认为，商业调查、专家评估以及家庭问卷调查是相互关联，直接测量反映“法治”观念信息的代表性样本。

尽管如此，由于社会研究中人的特殊性和社会现象的复杂性等因素（风笑天，2009），数据采集的样本偏见始终是存在的，并直接影响最终的法治测量水平。再加之研究者本人的价值观影响了社会实证研究的客观性，“法治”的社会实证研究就存在天然的局限性（任岳鹏，2009）。因为，法治观念的代表性数据库和非代表性数据，本身是对不同国家的个人、组织潜意识的法治观念最直接测量，这种测量不但带有主观性，而且具有不确定性。“法治”观念变量本是法治水平不完美的代表，很难从根本上去衡量真实的水平。从统计学的原理来看，各个数据库的生成从源头上就含着样本偏见。从某种意义上讲，意识到样本偏见就是要揭开WGI中的法治指数“遮羞布”，至少在两个方面具有重要意义：一是提醒数据库的制作者采用科学的统计方法和多样的数据类型，以最大可能减少样本偏见的误差；二是提醒数据库的使用者，尤其是“法治”组合性指标数据使用者不要过度解读某些数据，在使用时保持谨慎的态度。

（四）缺乏透明

这也是批评者较为关注的。每一个数据库差异化的变量是如何与其他变量结合成一个数据库的代表性指标数据的？数据库给国家排名的系列标准是什么？等等，这都是KZZ治理指标体系缺乏透明性的表现。例如，在“全球***市场”的调查中，怎样把“司法***”和“犯罪”这两个法治变量结合成一个该数据库的组合性指标数据，数据库内部变量的计算过程如何，KKZ并没有做详细说明。由于指标之间没有一个演算过程，使得人们很难理解每一个数据库指标数据的生成过程，就更加难理解作为用聚合性方法计算之后的“法治”组合性指标，更遑论如何使用好它。另外，有些数据库是难以查阅到的，有的甚至需要花费高昂的价钱才能获取。由于构成组合性指标的数据库数据不公开透明，这就使得缺乏一定同行学者的批评和使用。

作为回应，KKZ表示，对于构建组合性指标的指标数据已经向公众公开，大部分数据库数据都已经进入公众视野，公众可以通过其***网站查阅，同时也能在世行***中查阅。但是，其他通过商业风险评级机构和商业信息调查得到的数据资源只能用商业手段获取。为了做到最大透明，这些组织原则上同意使用这些保密数据用作计算治理指标。但至今仍没有向公众完全公开的数据库包括世界银行国家***策与制度评估（Country Policy and Institutional Assessment，以下简称CPIA），还包括非洲发展银行和亚洲发展银行的评估。因为涉及这些组织机构***策的披露，并且也不是构建组合性指标所需要的，所以没有公开。当然，KKZ自己也意识到，接受公众审查WGI指标体系数据具有重要意义。因此，除了CPIA的数据之外，所有的数据库的分散数据以及组合性指标的聚合数据都已向公众开放，这足以保证数据向使用者开放和同行的审查。甚至在KKZ看来，这种披露程度已经超过经济专业领域的公开标准。

显然，对于数据使用者而言，是希望能够全面掌握WGI全部数据，不仅是为了全面理解，更是为了准确使用KKZ指标体系的方法。但事实上，出于保护数据者的商业秘密，要做到完全公布又是不太可能的。然而，这并不否定公开WGI“法治”组合性指标构建体系的重要性。换言之，公开透明的指标体系模型是完善KZZ组合性指标体系的重要途径。这里可能需要进一步考量的是，由何人公开、向谁公开、公开的内容和形式如何等问题。因不同的指标体系的量化主体和目的不同，公开的内容和形式也不尽相同。就KKZ“法治”指标体系而言，如果能够进一步公开不同数据库的指标数据以及如何用聚合性方法演算成单一的组合性指标，将有助于使用者更好地理解量化一国“法治”评估水平的技术手段。仅公布量化模型和公式，还不足以告诉使用者或者研究者一国“法治”评估水平是如何生成的。

从对KKZ指标体系的批评和回应中可以看出，量化“法治”观念最关键的三步是采集数据、分析数据、处理数据。采集数据是前提，分析数据建立在系列假设基础之上，而处理数据决定了最终结果。从某种意义上说，批评者产生样本偏见的质疑及对关联性假设的质疑，大都来自于KKZ采集和分析数据的过程。对数据结果是否可用于比较以及对公开透明性的质疑则贯穿于采集、分析以及处理数据的全过程。其中，数据分析和处理是整个量化评估过程的关键，所以就决定了同行学者批评的主攻方向。

毫不奇怪的是，也许在KKZ看来，其数据处理和分析模式已经是万无一失，但批评者总是以一种“完美的眼光”去挑剔聚合性方法在分析处理数据时的不足。从目的上看，无论是批判还是回应，误差变量和测量结果的边际误差是批评者和KKZ都希望极力避免的。但实际上，任何一个“法治”测量指标体系都存在误差，一方面，这是因为“法治”本身一个复杂的社会现象，难以全面测量，测量结果不可避免存在误差；另一方面，“法治”观念在社会生活中总是具有相对的稳定性和一致性，尤其是对KKZ“法治”组合指标体系来讲，其“法治”变量并不是“法治”观念的全部代表，仅靠科学的统计方法是难以消除误差的存在。或许，评估设计者能做的只能是保持谨慎的态度以最大可能减少误差。所以，如果不考虑指标生成的具体语境（context），即便得出全球治理组合性指标是多么地准确和可信，那仍然可能是错误的结论（Juan Carlos Botero et al.，2011）。这一点为KKZ所认同，同时KKZ认为全球治理指标体系的一个核心优势是：研究者充分认识到它的不完善性，除此之外，当他们比较不同国家或者不同时间的值时，让WGI使用者正面考虑用此方法存在边际误差并提供量化完善工具把这种不完善性充分考虑进去。

四、结语

仔细分析WGI法治指数的逻辑框架、内在结构以及结果应用等方面的量化实践之后，我们发现WGI法治指数评估在评估主体、数据来源以及结果应用等方面对我国当前法治评估实践具有重要借鉴意义。从评估主体上看，WGI法治指数评估采用第三方学术机构进行评估，有利于保证评估主体的中立性；从数据来源来看，WGI法治指数评估尽可能采取数据来源不同的多方面数据库进行评估，有利于保证样本的真实性，提升了评估的效度；从结果应用来看，KKZ在设计评估指标时要求使用者在应用评估结果时要注意指标的生成语境，正面考虑标准误差问题，有利于科学看待评估结果的限度。因此，为充分发挥法治评估在测度法治发展水平、找准法治建设方向以及推进法治改革方面的重要作用，我国法治指数评估应充分借鉴WGI法治指数评估在评估主体、数据来源以及结果运用等方面的经验实践进一步完善和改进。这就要求，首先在评估主体方面，要改变以往***府主导的法治绩效考核方式，注重充分调动学术机构、科研院所等第三方社会评估机构的力量积极参与法治建设的评估，以确保评估主体的中立性；其次在法治评估数据生成方面，需要建立多方面的数据来源渠道，保证量化样本的代表性和真实性，不断减少数据的生成和处理时产生的标准误差；最后在评估结果方面，不应夸大法治评估结果，而应该结合数据的生成语境来分析结果的适用范围，正确区分数据之间的相关性和因果关系，注重定性分析与定量描述的结合。

总之，由于我国法治评估起步较晚，法治评估方法还不成熟，因此需要借鉴域外法治评估经验不断实践。从某种意义上讲，不断实践可能是支撑法治指数评估体系日趋完善的强大动力，这是因为法治指数评估体系本身是一个具有实践品质的动态机制。只有通过不断和反复实践，才可能在实践中不断发现法治指数评估体系暴露出的各种问题，找准问题方向、寻求改进措施，进而在新的层面上提出完善对策。再加之，由于法治建设具有普遍性和特殊性，域外法治评估的理论和实践经验也只有在中国法治建设具体实践中，才可能印证其生命力。

参考文献：

[1] 风笑天，2009，《社会学研究方法》（第三版），中国人民大学出版社。[Feng Xiaotian，2009，“Sociological Research Methods”（Third Edition），Renmin University of China Press.]

[2] 任岳鹏，2009，《法的社会实证研究能与不能》，《***治与法律》第8期。[Ren Yuepeng，2009，“Social and Empirical Studies of Law Can and Can not”，Politics and Law，8.]

[3] Christiane Arndt and Charles Oman，2006，“Uses and Abuses of Governance Indicators”，Development Centre Studies by OECD，pp.49-55，pp.103-105.

[4] Ginsburg，Tom，2011，“Pitfalls of Measuring the Rule of Law”，Hague Journal on the Rule of Law，Vol.3，No.2，p.274.

[5] Jim Parsons，2011，“Developing Clusters of Indicators： An Alternative Approach to Measuring the Provision of Justice”，Hague Journal on the Rule of Law，p.179.

[6] Juan Carlos Botero et al.，2011，“Indices and Indicators of Justice，Governance， and the Rule of Law： An Overview”，Hague Journal on the Rule of Law，p.158.

[7] Kaufmann，Daniel et al.，2007，“Worldwide Governance Indicators Project： Answering the Critics”，World Bank Policy Research Working Paper，No.4149，pp.12-14.

[8] Kaufmann，Daniel et al.，2011，“The Worldwide Governance Indicators： Methodology and Analytical Issues”，Hague Journal on the Rule of Law，pp.220-246，pp.237-239.

WGI法治指数的评估程序与经验审视

转载请注明出处学文网 » WGI法治指数的评估程序与经验审视

WGI法治指数的评估程序与经验审视

煤矿井下架空乘人装置的使用和维护

浅谈统计相对数的应用

《借东西的小人阿莉埃蒂》:自力更生,不当“宠物”

小学家长寄语

文化下乡活动简论

浅析四川民居的设计形式与选择

国产LWD地质导向测量技术及应用

春风杨柳万千条

江南特色小吃

基于青主的音乐创作观对音乐创作的探析

《我爱书画》黄胄作画秘闻大曝光

梅山武术轶闻

德国表现主义:冲动的艺术

浅析“三人制”篮球特性及意义

法治新闻范文

对“搭便车”问题的再审视

风险评估报告范文

基于风险矩阵的风险投资项目风险评估

企业价值评估中收益法的应用探析

从依法治国到依宪治国

浅论企业价值评估

网络广告效果评估分析