大数据征信初探

摘要:大数据征信作为一种新的征信方式在金融领域的应用越来越广,对完善征信体系的推动作用开始显现。文章结合我国大数据征信的发展情况,从个人征信视角对大数据征信的概念、价值与意义、发展应用、面临的主要挑战等问题进行了初步探讨,对完善与发展我国大数据征信进行了初步思考,提出了相应的对策与建议。

关键词:大数据;大数据征信;价值;挑战

一、 大数据与大数据征信

1. 什么是大数据。在互联网已经成为一种普遍的生活方式的今天,我们已经迈入大数据时代。“大数据正在改变我们的生活以及理解世界的方式,成为发明和新服务的源泉”。什么是大数据?仁者见仁,智者见智。维基百科将大数据定义为“一种广义的数据集,因其体量巨大、复杂,传统数据处理方式不足以处理”。高德纳咨询公司(Gartner Group)认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”;国内有学者将大数据定义为“是指伴随着可作为处理对象的数据外延不断扩大,依靠物联网、云计算等新的数据搜集、传输和处理模式的一种新型数据挖掘和应用模式”;***印发的《促进大数据发展行动纲要》将大数据界定为“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。多种多样的定义为我们从不同视角理解大数据提供了有益参考,但无论如何界定,“多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力,而这个数据集在数量、速率与种类上持续扩大。换言之,现在,数据可以更快获取,有着更大的广度和深度,并且包含了以前做不到的新的观测和度量类型”。由此,我们可以得出大数据的几个基础特征:数据规模庞大、具有多样性、较高应用价值和较高的处理速度(也就是通常所说的4V特征,即Volume、Variety、Velocity、Value)。这些特征有助于我们更直观的理解什么是大数据,有助于我们更好地发现日益增长的数据中隐藏的价值,满足人们的现实需求。

2. 什么是大数据征信。随着大数据技术在金融领域的广泛应用,大数据征信受到越来越多的重视。大数据征信主要通过对海量的、分散的、多样化的、具有一定价值的数据进行快速的收集、分析、挖掘,运用机器学习等模型算法多维度刻画信用主体的违约率和信用状况。大数据征信从其本质上来看是将大数据技术应用到征信活动中,突出强调的是处理数据的数量大、刻画信用的维度广、信用状况的动态呈现、交互性等特点,这些活动并未超出《征信业管理条例》中所界定的征信业务范围,本质上仍然是对信息的采集、整理、保存、加工和公布,只不过是以一种全新的方式、全新的视角来进行而已。

3. 大数据征信与传统征信。与传统征信相比,大数据征信呈现出与当前互联网快速发展相契合的诸多时代特点和印记。

(1)数据来源广泛。大数据征信的数据来源既包括交易、消费、支付等交易数据,也包括社交活动、网络行为、地理位置等交互数据,还包括通过可穿戴设备、RFID设备、视频监控设备等获取的传感数据。这些数据主要是通过互联网获取,可称之为网络大数据。“网络大数据有许多不同于自然科学数据的特点,包括多源异构、交互性、时效性、社会性、突发性和高噪声等,不断但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生”。与传统征信仅依靠信贷记录、公共信用信息等数据刻画信用主体信用状况不同,大数据征信基于网络大数据,通过数据挖掘,从多个维度刻画、描述信用主体的违约状况、人际关系等,丰富了传统信用评价的维度和深度。

(2)市场定位清晰。大数据征信作为传统征信的补充,主要针对的是央行征信系统无法覆盖的没有信用记录的人群。根据央行的《中国征信业发展报告(2003-2013)》,截至2013年底,国内没有信用记录的人群达3.2亿人,占全国人口的23.7%;央行征信系统收录的8.39亿自然人中有5.18亿人没有信贷记录,这部分未被覆盖的人群也有融资需求。借助于互联网这个大平台,利用大数据技术可以较为快速、高效刻画这部分人群的信用状况,市场潜力巨大。

(3)应用场景多样化。与传统征信运用具有强相关性的信贷数据刻画信用主体的信用状况不同,大数据征信基于大数据技术,应用机器学习等模型,对海量的弱相关性的互联网大数据进行采集、清洗、匹配、整合和挖掘,转换成信用数据,使得信用评估的效率和准确性得到一定程度的提升。基于大数据征信的这些优势和特点,沉淀了大量用户的电商、社交媒体、P2P等互联网公司纷纷涉足大数据征信,运用数据挖掘等技术来实现快速的身份识别、风险识别、反欺诈、精准营销、个性化服务等,而这些多样化的应用场景则进一步丰富了大数据征信的内容和结构。

四是技术高度复杂。大数据征信的应用是以互联网的快速发展与普及为基础的,需要在技术及研发上持续不断的投入。技术上看,由于大数据征信的数据源较为复杂,需要处理的变量远超传统征信模式,开发一套针对用户的信用评价系统通常需要经过数据收集、数据清洗、关联分析等环节,再由一套复杂的模型算法最终得出用户的信用报告或信用分,需要从事大数据征信的企业在大数据收集、分析、挖掘等技术上持续不断的投入。理论上看,由于互联网数据的多源异构性,发现、理解进而熟练运用互联网数据背后的社会学、心理学、经济学的机理以及互联网信息涌现的内在机制,使之服务于对信用主体的信用刻画中,确保信用刻画的准确性,还需要充分吸收、利用社会学、心理学、经济学等学科的相关研究成果,又进一步加剧了大数据征信的复杂性。

此外,大数据征信不能仅仅强调数据的大,更重要的是强调数据的准,数据维度反映信用主体信用状况的关联度要强。由于互联网时代数据产生速度很快,很多数据都需要及时更新才能保证准确性,因此大数据征信要求对实时的数据进行实时的处理,才能保证信用结果的准确性。根据中国互联网信息中心统计,截至2014年12月,中国网民达6.49亿,互联网普及率达47.9%。如此巨量的互联网用户产生的数据也是巨量的,利用大数据技术对这些支离破碎的数据进行整合、分析、挖掘并最终开发出具有商业价值的产品需要持续的研发投入、技术投入、资金投入和管理投入,门槛较高。

二、 大数据征信的价值与意义

大数据征信在***策夹缝中快速发展,除了中国征信体系不健全等客观原因外,还与其自身所具有的价值与意义紧密相关。从业务应用上看,一些大的征信公司、传统金融机构、互联网金融机构以及大型电商平台等都将已经或者正在布局大数据征信,将其作为企业的核心竞争力,如芝麻信用、鹏远征信、前海征信、腾讯征信、宜信、京东金融等都已经或正在开发大数据征信产品,并不断扩展其产品的应用场景;从市场价值来看,大数据征信可以化解信息不对称导致的交易风险,降低交易成本,扩展交易范围,可以使用户能以合理的价格获取多元化、可持续、高效、低成本、高质量、多样性的金融服务,享受公平信贷机会,有利于企业特别是小微企业改善经营状况,有利于个人通过融资获得进一步发展的机会,有利于维护金融稳定。从应用场景上看,大数据征信的主要应用领域为互联网金融,除此之外,一些大的互联网征信公司如芝麻信用,通过与机场等第三方公共服务机构合作,将芝麻信用分用于快速通关等场景之中,大数据征信产品的全面应用时代已经悄然来临。从可拓展性看,大数据征信除了应用于金融风险控制,还可用于客户画像、行为研究、产品跟踪、精准营销、企业内部治理优化等多个方面,表现出较强的可拓展性;从市场需求看,除了央行征信系统未覆盖的近3亿人群外,还有海量的企业信息可以通过大数据技术处理,形成企业信用档案,提高交易的透明度;从社会效应来看,大数据征信在控制市场风险、重塑市场信用体系方面具有积极的正面示范作用。

三、 大数据征信的发展应用

1. 大数据征信在国外的应用情况。在国外,***策层面,美、英、日、澳等国纷纷将发展大数据作为一项重要战略来实施,制定了一系列***策来推动数据开放共享、加大数据基础设施研发、促进***府和公共部门应用大数据技术。实践应用中,谷歌、EMC、惠普、IBM、微软、甲骨文、亚马逊、脸谱等企业很早就通过收购或自主研发等方式布局大数据发展,成为大数据技术的主要推动者,并快速推出大数据相关的产品和服务,为各领域、各行业应用大数据提供工具和解决方案。在征信领域,一方面传统的征信公司开始涉足大数据征信,充分利用自身的数据优势开发新的信用衍生服务,如Experian(益百利)开发出跨渠道身份识别引擎,布局投入研发社交关系数据,积极探索互联网大数据与征信的关系;Equifax(艾克飞)通过加大研发投入及收购行为布局大数据产品与服务;FICO(费埃哲)在传统FICO信用模型中引入社交媒体、电商、移动用户数据,提高了模型的用户区分度。另一方面,一些新兴的创业公司利用自身的技术优势,通过走差异化道路,给用户提供个性化的信用产品和服务。如ZestFinance公司,利用大数据技术为缺乏征信数据而只能接受高利贷的人群进行信用评估服务,采集了海量跟消费者信用弱相关的数据,利用基于机器学习的大数据分析模型进行信用评估,处理效率提高了近90%,模型性能提高了40%,相关贷款人的违约率降低了将近50%。总的来看,由于国外征信体系较为完善,大数据征信作为传统征信的补充,仅在市场细分领域具有一定的应用价值,更多的是以提供征信增值服务的形式出现的。

2. 大数据征信在国内的应用情况。***策层面,我国***府出台了《社会信用体系建设规划纲要(2014-2020年)》、《***积极推进“互联网+”行动的指导意见》、《促进大数据发展行动纲要》等顶层制度设计文件,将“互联网+”、“大数据发展”上升为国家战略,为发展大数据征信创造了良好的***策环境。实践应用中,BAT、京东、宜信等公司也纷纷涉足大数据征信。2015年年初,央行下发《关于做好个人征信业务准备工作的通知》,要求包括芝麻信用、腾讯征信、前海征信等8家企业做好开展个人征信业务的准备工作,开启了个人征信市场化的大门。就征信领域而言,互联网金融的快速发展催生大数据征信在风控、消费金融及精准营销等领域的应用。各大互联网公司、电商平台及网贷公司纷纷搭建自己的信用评价模型,推出各种信用分,如芝麻信用的芝麻分、考拉征信的考拉分、前海征信的好信度、京东金融的白热度等等,在服务于企业信用风险控制的同时,力***通过大数据分析、挖掘来寻找新的盈利增长点。但总的来看,由于市场监管体系不完善,法律制度建设滞后,市场的巨大需求和目前落后的征信体系形成较大反差,迫使企业利用科技和大数据的力量在征信与信用管理领域进行一次真正的创新,加之央行对个人征信市场开放的限制,互联网及大数据技术的发展迅猛,特别是互联网金融的快速发展,在风险控制等方面提出了更高的要求,催生了大数据征信的快速发展。

四、 大数据征信面临的主要挑战

在大数据时代,大数据征信将在金融等领域发挥着越来越重要的作用。但我们也应看到,由于***治、经济、文化等多重因素的影响,大数据征信在中国现阶段仍然面临着诸多挑战。

1. 大数据征信重构信用主体信用状况的准确性问题。大数据征信的数据主要来自互联网大数据、企业大数据、***府大数据和个人大数据等几大块,其中刻画个人信用的数据又主要来自互联网和个人提交的数据,包括身份数据、行为数据、社交数据、网上消费及交易数据等。如何科学确定信用评价的维度并赋予这些数据在各个维度中的权重决定着信用主体信用状况刻画的精准度,这也是大数据征信企业最为核心的竞争力所在。此外,准确刻画信用主体的信用状况除了要获取足够多的有价值的数据外,还需要综合考虑经济环境、文化背景、社情民意等因素,需要充分吸收利用这些领域的最新研究成果,来印证、丰富大数据信用评价模型,提高信用评价的准确性。要做到这一点,需要在学界和业界形成良性的互动,是一个长期的过程。

2. 个人隐私保护问题。大数据征信的核心是信息的收集和处理,在这个过程中如何平衡个人隐私保护与信息利用关系到产业创新与隐私保护的协调问题,至关重要。从大数据征信的数据获取途径看,主要有自有平台累积数据、通过交易获取数据、通过技术手段获取数据、用户自己提交数据、基于综合分析获得数据等。在获取数据的过程中,需要综合考虑法律、技术、运作机制等因素对个人隐私保护的影响,如法律对个人信息的保护、数据交易过程中的匿名化处理、原始数据采集授权及二次加工使用授权、侵犯个人隐私的救济渠道等,这些都是大数据征信需要认真考虑和解决的问题。

3. 数据的所有权、控制权、收益权问题。由美国倡导并实践的数据开放运动已经持续了一段时间,在全球范围内引起了广泛共鸣。而英国在此基础上更进一步,提出了“数据权”的概念。数据承载着信息,信息蕴含着价值。数据权概念的提出意味着数据价值的归属需要明确界定,由此引申出数据的所有权、控制权和收益权问题。由于大数据征信具有数据来源的多源性、技术处理的复杂性以及应用场景的广泛性等特点,在中国不完善的征信体系及特定的法律文化背景下,数据的所有权、控制权和收益权问题也尤为复杂。这里需要考虑的问题有:不同途径获取的数据所有权归谁?二次加工、三次加工的数据所有权归谁?涉及个人信息的数据个人是否有控制权?如何实现控制权?数据交易过程中,个人如何实现数据的收益权?这些问题仍需要我们在现有法律及***策框架下作进一步的讨论和研究。

4. ***策及监管的不确定性问题。大数据征信作为传统征信的补充,受《全国人民代表大会常务委员会关于加强网络信息保护的决定》、《征信业管理条例》、《征信机构管理办法》等法律法规的约束。但作为一种新兴的征信形式,大数据征信涉及问题的复杂程度已经超出了这些法律法规规制的范围,特别是在数据的采集、加工、使用和交易方面,多数大数据征信机构都在一定程度上存在着违法采集个人信息的行为,只不过是以一种不平等或隐蔽的方式来规避法律管制,如将获取个人信息与提供服务捆绑在一起,利用网民个人信息保护意识淡薄等弱点,使用复杂的免责条款来规避法律责任,使用流氓软件非法获取个人信息,利用技术优势非法获取个人信息,非法交易个人信息等。这些问题的出现一方面是由于网络用户个人信息的自我保护意识和手段的不足,另一方面也反映出现行的立法及监管措施的缺乏。随着隐私观念深入人心及互联网活动对个人生活的全面深入,这些问题都将倒逼监管层出台更多措施来保护个人权利、规范行业发展,特别是近期央行拟发放个人征信牌照,即是对此做出的积极回应。

五、 结论

大数据征信作为一种新的征信技术面临诸多挑战,同时也面临着难得的发展机遇,特别是在国家***策层面加大对大数据产业的支持、积极推进互联网与金融业深度融合的背景下,大数据征信将大有可为。与国外业已形成的较为完善的征信体系相比,我国征信体系建设还有很长的路要走。在互联网和大数据时代,创新是主线,作为在征信领域的本土化创新,中国的大数据征信完全可以实现弯道超车,引领征信发展的新潮流。与此同时,我们也应清醒的认识到,在当前中国经济社会转型的关键期,发展大数据征信需要***府加强引导与适度监管,从构建和完善适应大数据征信的监管法律制度入手,做好金融信用信息基础数据库等金融基础设施建设,加强基础理论研究,为大数据征信产品开发和服务创新创造良好条件,营造良好信用环境,真正使大数据征信成为服务社会经济发展的助力器。

参考文献:

[1] (英)维克托・迈尔―舍恩伯格,肯尼思・库克耶,著.盛杨燕,周涛,译.大数据时代[M].杭州:浙江人民出版社,2013.

[2] 中国电子技术标准化研究院.大数据标准化白皮书,2014.

[3] 王忠.大数据时代个人数据隐私规制[M].北京:社会科学文献出版社,2014

[4] 美国总统行***办公室.大数据:抓住机遇、保存价值,2014-5.

[5] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,(9).

作者简介:孔德超(1979-),男,汉族,河南省信阳市人,中国人民大学财***金融学院博士后,研究方向为征信理论与实务、大数据征信。

收稿日期:2016-02-15。

大数据征信初探

转载请注明出处学文网 » 大数据征信初探

学习

谈谈成语“三六九等”

阅读(34)

本文为您介绍谈谈成语“三六九等”,内容包括三六九成语有哪些,三六九等是成语吗。成语“三六九等”在社会中被广泛使用,人们用它来形容社会的人和物有种种差别和不同的等级。如把人分为“三六九等”,把事物分为“三六九等”等等。“三六九

学习

你看,你看,动物的眼睛

阅读(20)

对人类来说,眼睛是心灵的窗户;对动物们来说,眼睛更是感知世界的重要器官。通过了解动物的眼睛,你可以知晓许多动物感知世界的方式。物体反射或者发出的光线进入人眼,人的眼睛才能看见物体。所有动物的眼睛也都是相似的,它们都需要光才能看清周

学习

肯尼迪航天中心

阅读(32)

本文为您介绍肯尼迪航天中心,内容包括肯尼迪航天中心名字由来,肯尼迪航天中心在什么城市。肯尼迪航天中心对于那些充满好奇和探索精神的人来说,是知识探索的圣地,也是未来世界的起点。宇航探索和星际飞行是每一个发达国家都会关注和重视的

学习

论明代瓷圣何朝宗的雕塑艺术

阅读(25)

被后世尊称为“中国瓷圣”的明代德化瓷塑大师何朝宗,一生创作的雕塑作品不多,但件件都是追求至高艺术境界的佳作,他的艺术表现手法成为传承者学习瓷塑的圭臬。关键词:何朝宗;瓷塑艺术中国当代著名历史学家、社会科学家蔡尚思教授曾尊称一位明

学习

浅谈“三一律”在电影中的价值

阅读(239)

电影《十二怒汉》是典型“三一律”结构的作品,本文将由“三一律”与电影的关系进行切入,从电影在故事情节构架、人物形象塑造以及戏剧冲突的铺陈,这几点上分析“三一律”这一传统的戏剧结构在电影中的价值。关键词:三一律故事情节人物形象戏

学习

堕胎还是坠胎

阅读(21)

本文为您介绍堕胎还是坠胎,内容包括坠胎与堕胎的拼音区别,坠胎和堕胎的读音。关键词:堕胎;坠胎;规范化古书中“堕”和“坠”当“落、落下”讲是同义词,二者都有使动用法,但“堕”的使动用法比“坠”普遍。这对“堕胎”与“坠胎”的出现以及二

学习

全球转基因作物概览

阅读(21)

什么是转基因作物?从表面上来看,转基因作物同普通植物似乎没有任何区别,它只是多了能使它产生额外特性的基因。从1983年以来,生物学家已经知道怎样将外来基因移植到某种植物的脱氧核糖核酸中去,以便使它具有某种新的特性:抗除莠剂的特性、抗

学习

浅谈档案电子化管理和保存

阅读(20)

档案电子化是档案管理的方向,是科学规范管理和保存档案的重要途径,这能提高档案利用率,提高档案信息的时效性,一次投入多次产出,扩大了社会影响,拓宽了服务范围。这要求我们必须做好档案电子化的存储软硬件工作,做好归档整理电子文件和保护电子

学习

一个人,一种人生

阅读(26)

本文为您介绍一个人,一种人生,内容包括一个人就是一个世界原文,一个人生活的日子全文。莫言在获得诺贝尔奖后所说的一番话引起了我很多的思考。他说:“我所从事的文学相对于科学来说是毫无意义的,而文学的意义就在于他的毫无意义。”人经

学习

眼前人是心上人

阅读(16)

本文为您介绍眼前人是心上人,内容包括眼前人是心上人全文阅读免费,眼前人是心上人全文阅读沈冉。一东杉和南烟是高中同学。南烟算不上是漂亮的女孩子,家境也不是很富足,穿衣打扮也一般,当然引不起“高富帅”东杉的注意。那一天晚自习,女同学

学习

中国卫生经济

阅读(63)

本文为您介绍中国卫生经济,内容包括中国卫生经济与中国公共卫生管理,中国卫生经济研究中心刊物。昆明市社区卫生服务站运行现状分析尹文强,姜润生,祁秉先,许晓锐社区老年慢性病患者实施家庭医疗与护理的费用分析吕桦,田晓燕,李盛,王柏松,倪宗瓒

学习

生活笔记作文400字

阅读(29)

本文为您介绍生活笔记作文400字,内容包括生活随笔作文400字左右范文,生活记事作文400字汇编8篇。听说契科夫作家有一生活笔记,里边记录了许多有趣的事,观测世间语言变化。老师说:“你怎么这么赖的你,你姓赖的啊!咱班姓赖的都比你强多。”老师

学习

文创产品设计范文

阅读(28)

本文为您介绍文创产品设计范文,内容包括文创产品设计方案范本500字,文创产品设计说明范文。文创产品设计范文第1篇[摘要]数字技术的发展应用,促使学校教育、行业企业、社会生活都在改变适应。研究广西文创产品设计教学实践与数字技术的融合

学习

“国宝帮”帮主群像

阅读(16)

“国宝帮”帮主群像2013年7月7日,马伯庸在自己的博客中发表了一篇题为《少年Ma的奇幻历史漂流之旅》的博文,披露了河北衡水冀宝斋博物馆“令人颠覆三观”的藏品。这个原本无人知晓的乡村博物馆彻底火了一把,随着冀宝斋一同浮出水面的,还有在

学习

浅谈WEB数据库应用

阅读(18)

本文为您介绍浅谈WEB数据库应用,内容包括web服务器怎么写数据库,web数据库的基本知识。摘要:伴随着Internet的日益发展和壮大,如何在浩瀚的网络信息海洋中快速、高效地寻找特定的主题内容,成为困扰信息服务提供者的主要问题。针对该问题

学习

对扭矩实时检测和数据分析系统的研究

阅读(12)

本文为您介绍对扭矩实时检测和数据分析系统的研究,内容包括扭矩测量方法现状及发展趋势,扭矩测量标准技术报告。在机械设备中,扭矩是确保设备安全、高效、稳定工作的重要参数。因此,在工业生产当中,对扭矩的检测具有非常重要的作用,本文主要

学习

大数据和BI的关系

阅读(29)

本文为您介绍大数据和BI的关系,内容包括大数据bi与传统bi的区别,大数据与bi最大的区别是。大数据是传统数据库、数据仓库、BI概念外延的扩展,手段的扩充,不存在取代的关系,也并不是互斥的关系。最近有人问:如今大数据风头正劲,而传统商业智能

学习

可靠性数据收集与分析方法

阅读(21)

本文为您介绍可靠性数据收集与分析方法,内容包括可靠性数据的收集与分析,质性数据的收集分析与呈现。【摘要】可靠性数据是开展可靠性工作的基础,是提高产品质量、改进使用和维修方法的重要资料,其对推进可靠性技术的发展起着重要作用。本

学习

常见数据存储方式比较

阅读(26)

本文为您介绍常见数据存储方式比较,内容包括数据存储方式有哪几种,存储数据用什么类型的硬盘。【摘要】随着计算机系统的迅速发展,存储系统体系结构先后经历了“直接存储(DAS,DirectAttachedStorage)体系结构、网络附加存储(NAS,NetworkAttach

学习

数据灾备技术及方案设计研究

阅读(18)

本文为您介绍数据灾备技术及方案设计研究,内容包括灾备系统的最佳实践,灾备技术主要研究的方面。随着信息技术的发展,大数据和云计算已经深入到各个行业。人们在享受信息化带来快捷的服务决策和方便管理的同时,也面临着数据丢失带来的巨大

学习

我国征信体系建设及建议

阅读(36)

本文为您介绍我国征信体系建设及建议,内容包括征信管理工作的意见建议,征信出现建议审核。【摘要】随着市场活动的深入和频繁,信用越来越成为市场活动的重要资源之一。而征信体系在我国还尚不成熟,那么征信体系建设目前在我国的发展情况如

学习

无二之旅:用数据打造专属定制旅行

阅读(15)

本文为您介绍无二之旅:用数据打造专属定制旅行,内容包括无二之旅定制的旅行如何,旅行定制师无二之旅。无二之旅打破跟团旅行的窠臼,主打充满个性化的定制出游,通过数据,完成了定制旅行1.0的升级。在定制旅行日渐火热的当下,它率先跻身于行业