数据密集型科研第四范式

编者按:本刊2013年第7期推出《大数据问题》一文,受到读者广泛好评。为推进计算机前沿技术的传播,我刊特开辟“前瞻技术”专栏,邀请陈明教授主持并撰文,后续将推出《NoSQL数据库》《大数据处理的利器Hadoop》《分布计算中的CAP理论》等文章。期望本栏目能以精练的文字为广大读者展现相关领域的最新技术和研究成果。

专栏作家:陈明,男,中国石油大学教授,博士生导师,特聘教授,研究方向为分布式并行计算、计算智能、软件工程、大数据计算等,。

摘要:由于数据爆炸式增长,为了解决数据密集型知识发现,出现了科学研究的第四范式。文章介绍第四范式的产生背景、核心内容、格雷法则、范式转变和第四范式时代等内容。

关键词:数据密集;知识发现;第四范式

1.背景

万物之灵的人类对外部世界的认识已达到令人惊叹的高度,在宏观上放眼亿万光年的宇宙,在微观上已深入层子、夸克世界。随着科学的发展,人们发现蕴藏着科学理论的科学数据经常被掩埋在零散的实验记录中,很容易丢失,只有少数大项目的数据被存储在磁介质中。如何获取、管理与分布保存科研群体数据成为科学发展面临的巨大挑战。

1962年美国著名科学哲学家托马斯·库恩(Thomas Samuel Kuhn)在《科学***的结构》一书中阐述了范式的概念与理论,认为范式就是一种公认的模型和模式,是常规科学的理论基础和实践规范,是研究者在从事科学研究时共同遵守的世界观和行为方式,是共同接受的一组假说、理论、准则和方法的总和。

***灵奖获得者、美国计算机科学家詹姆斯·格雷(James Gray)于2007年1月11日在加州山景城召开的计算机科学与电信委员会会议上的最后一次演讲中描绘了关于科学研究第四范式的愿景。这个新的范式成为由实验、理论与仿真所主宰的历史阶段的符合逻辑的自然延伸。

科学研究的前两个范式是实验和理论。实验法可以追溯到古希腊和古中国。那时,人们尝试通过自然法则来解释观察到的现象。现论科学则起源于17世纪的艾萨克·牛顿(1saacNewton)。20世纪下半叶高性能计算机问世之后,诺贝尔奖得主肯尼思·威尔逊(Kenneth Wilson)又把计算和模拟确立为科学研究的第三范式。第四范式同样要用到性能强大的计算机,与第三范式的差别在于科学家们不是根据已知的规则编制程序,而是以数据为中心编程。

2.科学研究第四范式的核心内容

科学研究的范式不等同于科学知识的各种范式,是一种新的科研模式,主要用于数据密集型科学研究。相比库恩科学动力学理论,网络可以帮助我们更好地理解海量数据策略。

2.1科学研究范式的演化过程

在漫长的科学研究范式进化过程中,最初只有实验科学范式,主要描述自然现象,是以观察和实验为依据的研究,也称为经验范式。后来出现的理论范式是以建模和归纳为基础的,是对某种经验现象或事实的科学解说和系统解释,是由一系列特定的概念、原理(命题)以及对这些概念、原理(命题)的严密论证组成的知识体系。开普勒定律、牛顿运动定律、麦克斯韦方程式等正是利用了模型和归纳而诞生的。但是对于许多问题,用这些理论模型分析解决过于复杂,科学家们只好走上了计算模拟的道路,提出了第三范式。第三范式是以模拟复杂现象为基础的计算科学范式,又可称为模拟范式。模拟方法已经引领我们走过了上个世纪后半期的全部时间。现在,数据爆炸又将理论、实验和计算仿真统一起来,出现了新的密集型数据的生态环境。计算模拟正在生成大量数据,同时实验科学也出现了巨大数据增长。研究者已经不用望远镜来观看,取而代之的是通过把数据传递到数据中心的大规模复杂仪器上来观看,开始研究计算机上存储的信息。

无需质疑,科学世界发生了变化,新的研究模式是通过仪器收集数据或通过模拟方法产生数据,然后利用计算机软件进行处理,再将形成的信息和知识存于计算机中。科学家通过数据管理和统计方法分析数据和文档,只是在这个工作流中靠后的步骤才开始审视数据。可以看出,这种密集型科学研究范式与前三种范式截然不同,将数据密集型科学研究范式从其他研究范式中区分出来,作为一个新的、科学探索的第四种范式,其意义与价值是重大的。

2.2数据密集型科学研究的基本活动

数据密集型科学研究由数据的采集、管理和分析三个基本活动组成。数据的来源构成了密集型科学数据的生态环境,主要有大型国际实验,跨实验室、单一实验室或个人观察实验,个人生活,等等。各种实验涉及多学科的大规模数据,如澳大利亚的平方公里阵列射电望远镜、欧洲粒子中心的大型强子对撞机、天文学领域的泛STARRS天体望远镜阵列等每天能产生几个千万亿字节(PB)的数据。特别是它们的高数据通量,对常规的数据采集、管理与分析工具形成巨大的挑战。为此,需要创建一系列通用工具来支持从数据采集、验证到管理、分期和长期保存等整个流程。

2.3学科的发展

格雷认为所有学科x都分有两个进化分支,一个分支是模拟的x学,另一个分支是x信息学。如生态学可以分为计算生态学和生态信息学,前者与模拟生态的研究有关,后者与收集和分析生态信息有关。在x信息学中,把由实验和设备、档案、文献、模拟产生的事实以编码和表达知识的方式存贮在一个空间中,用户通过计算机向这个空间提出问题,并由系统给出答案。为了完成这一过程,需要解决的一般问题有:数据获取、管理PB级大容量的数据、公共模式、数据组织、数据重组、数据分享、查找和可视化工具、建立与实施模型、数据与文献集成、记录实验、数据管理与长期保存等。可以看出,科学家需要更好的工具来实现大数据的捕获、分类管理、分析和可视化。

3.以数据为中心发展的格雷法则

数据爆炸式的增长对前沿科学带来了巨大挑战,但科学家还没有掌握管理和分析大数据的方法,而小数据的管理和分析方法已不能胜任,数据密集型计算面临着难以克服的挑战。正是在这种情况下,对于大型科学数据集的大数据工程,格雷制定了如下的非正式法则,代表了一系列设计数据密集系统的优秀指导原则。

1)科学计算趋于数据密集型。

计算平台的I/O性能限制了观测数据集的分析与高性能的数值模拟,当数据集超出系统随机存储器的能力,多层高速缓存的本地化将不再发挥作用,仅有很少的高端平台能提供足够快的I/O子系统。

高性能、可扩展的数值计算也对算法提出了挑战,传统的数值分析包只能在适合RAM的数据集上运行。为了进行大数据的分析,需要对问题进行分解,通过解决小问题获得大问题解决的还原论方法是一种重要方法。

2)解决方案为“横向扩展”的体系结构。

对网络存储系统进行扩容并将它们连接到计算节点群中并不能解决问题,因为网络的增长速度不足以应对必要存储逐年倍增的速度。横向扩展的解决方案提倡采用简单的结构单元。在这些结构单元中,数据被本地连接的存储节点所分割,这些较小的结构单元使得CPU、磁盘和网络之间的平衡性增强。格雷提出了网络砖块的概念,使得每一个磁盘都有自己的CPU和网络。尽管这类系统的节点数将远大于传统的纵向扩展体系结构中的节点数,但每一个节点的简易性、低成本和总体性能足以补偿额外的复杂性。

3)将计算用于数据,而不是数据用于计算。

大多数数据分析以分级步骤进行。首先对数据子集进行抽取,通过过滤某些属性或抽取数据列的垂直子集完成,然后以某种方式转换成聚合数据。

近年来,MapReduce已经成为分布式数据分析和计算的普遍范式,具有分布式分组和聚合的功能。根据这一原理构造的Hadoop开源软件已成为目前大数据处理的最好的工具,Hadoop技术成为推动大数据安全计划的引擎。企业使用Hadoop技术收集、共享和分析来自网络的大量结构化、半结构化和非结构化数据。

Hadoop是一个开源框架,它实现了MapReduce算法,用以查询在互联网上的分布数据。在MapReduce算法中,Map(映射)功能是将查询操作和数据集分解成组件,Reduce功能是指在查询中映射的组件可以被同时处理(即约简),以快速地返回结果。

Hadoop具有方便、健壮、可扩展、简单等一系列特性。Hadoop处理数据是以数据为中心,而不是传统的以程序为中心。在处理数据密集型任务时,由于数据规模太大,数据迁移变得十分困难,Hadoop强调把代码向数据迁移。

4)以“20个询问”开始设计。

格雷提出了“20个询问”的启发式规则,在他参与的每一个项目中,他都寻求研究人员让数据系统回答最重要的20个问题。他认为5个问题不足以识别广泛的模式,100个问题将导致重点不突出。由于与人类选择有关的大多数决定都遵循长尾理论,询问中的相关信息根据重要性排序显然是呈对数分布。长尾理论是网络时代兴起的一种新理论。长尾实际上是统计学中幂律和帕累托分布特征的一个口语化表达。过去人们只能关注重要的人或重要的事,如果用正态分布曲线来描绘这些人或事,人们只能关注曲线的“头部”,忽略处于曲线“尾部”、需要更多精力和成本才能关注到的大多数人或事。例如,在销售产品时,厂商关注的是少数几个所谓“VIP”客户,“无暇”顾及大多数普通消费者。长尾理论是对传统的二八定律的彻底叛逆。

20个询问规则是一个设计步骤,使领域科学家与数据库设计者可以对话。这些询问定义了专门领域科学家期望对数据库提出的有关实体与关系方面的精确问题集,填补科学领域使用的动词与名词之间、数据库中存储的实体与关系之间的语义鸿沟。这种重复实践的结果是专门领域科学家和数据库之间可以使用共同语言。

这种方法非常成功地使设计过程集中于系统必须支持的最重要特征,同时帮助领域科学家理解数据库系统的折中,从而限制特征的蠕动。

5)工作至工作。

工作至工作是指工作版本的升级,这是另一个设计法则。无论数据驱动的计算体系结构变化多么迅速,尤其是当涉及分布数据的时候,新的分布计算模式每年都出现新的变化,使其很难停留在多年的自上而下的设计和实施周期中。当项目完成之时,最初的假设已经变得过时。如果要建立只有每个组件都发挥作用才开始运行的系统,那么我们将永远无法完成这个系统。在这样的背景下,唯一方法就是构建模块化系统。随着潜在技术的发展,这些模块化系统的组件可以被代替,现在以服务为导向的体系结构是模块化系统的优秀范例。

4.范式的转变

库恩认为范式的演变是科学研究的方法及观念的取代过程,科学的发展不是靠知识的积累而是靠范式的转换完成的,新范式形成表明建立起了常规科学。库恩的模型描述了这样一种关于科学的***景:一组观念成为特定科学领域的主流和共识,创造了一种关于这个领域的观念(所谓范式),进而拥有了自我发展的动力和对这个领域发展的控制力。这种观念之所以强有力是因为它代表了对观察到的现象的合理解释。这种观念或范式从渐进发展的机制中获得启发和力量,同时被科学家逐渐完善。当现有范式无法解释观察到的现象,或者实验最终证明范式出错时,那么范式失败、被解体,转变范式的机会也就到了。数据泛滥是第四范式出现的导火索。处理、存储、分析可视化数据的能力是科学必须具备和适应的新事实,数据是这个新范式的核心,它与实验、理论、模拟共同成为现代科学方法的统一体。在科学发展的长河中,前三种范式作出了巨大的不可磨灭的贡献,在历史上已成功地将科学的发展引领至今天的辉煌,而且模拟仍处于现代科学的核心。毫无疑问,依据现有的范式与技术,科学研究还将获得增量型进展,但是如果需要更重大的突破,就需要新的方法,需要接纳和开创新的范式。数据密集型科学研究将会给科学家带来技术挑战,IT技术和计算机科学将在推动未来科学发现中发挥作用。

5.第四范式时代

第四范式时代的序幕已经揭开,其核心是各领域科学家与计算机科学家协同研究工作需求,他们之间的关系不是主从关系,而是平等的关系,两个领域的专家共同努力,推动和丰富科学发现。几十年前,科学是以学科为中心,今天,重大进展是多学科协作的结果,未来也将如此。在需要利用科学认识去实现事关人类生存的重要目标阶段中,还需要科学知识渊博的科学家和技术经验丰富的工程师密切合作,实现科学与技术的结合,实现理论和技术创新。

将数据丢进巨大的计算机群中,只要有相互关系的数据,统计分析算法就可以发现过去的科学方法发现不了的新模式、新知识以及新规律。对于PB级的数据,没有模型和假设就可以分析数据。如谷歌的广告优化配置、战胜人类的沃森回答系统都是这样实现的。又如沃尔玛百货公司分析顾客资料与天气相互关系时,发现暴风雨之前,人们会买更多的手电、也会买更多夹心派,尽管市场营销人员无法确定天气与糕点之间的关系。也就是说,第四范式既不能像理论和模拟那样在一定程度上告诉“为什么”,更不能像实验那样明确地告诉“是什么”,只能告诉“大概是什么”,其精髓就是“客观”,从海量的数据中发现数据的共性和客观性,这展现了第四范式的应用潜力和吸引力。

6.结语

科学研究第四范式是科学家从事科学研究的一种新型范式,也是一种新的观念和新的思维方式。其主要特点是以数据考察为基础,是理论、实验和模拟一体化的数据密集计算的范式,它在多学科研究及数据密集型科学研究中发挥越来越重要的作用。

参考文献:

[1]李国杰,天数据研完的科学价值叨,中国计算机学会通讯,2012,8(9):8-15.

[2]Hey L Tansley S,Tolle S.The fourth paradigm:data-intensive scientific discovery[EB/OL].[2012-04-02].http://amazon.de/The-Fourth-Paradigm-Data-Intensive-ebook/dp/B00318D9Y2#reader_B00318D9Y2.

转载请注明出处学文网 » 数据密集型科研第四范式

学习

城市水景中的驳岸设计

阅读(30)

驳岸设计是城市水景观设计中的重要组成部分,是美学与工程的结合。驳岸设计中涉及到诸多环节,也是水体景观能否得到尽情展示的重要环节。然而驳岸设计目前的技术化、模式化倾向十分明显,不同类型、不同地区的驳岸,因其现状环境、水文地质条件

学习

货物自动进口许可管理规定

阅读(30)

本文为您介绍货物自动进口许可管理规定,内容包括货物自动进口许可管理办法,2022年海关许可进口目录。2007年3月10日,商务部、海关总署联合2007年第14号公告,根据《货物自动进口许可管理办法》,对2007年《自动进口许可管理货物目录》进行了

学习

《使命召唤13 无限战争》

阅读(28)

本文为您介绍《使命召唤13 无限战争》,内容包括使命召唤13无限战争攻略,使命召唤13怎么设置全屏。《使命召唤》是由Activision公司于2003年最初制作发行的FPS游戏,从发行以来一直受世界各游戏玩家喜爱,是FPS中的经典游戏之一,尤其是《使命

学习

HPLC法测定20种中药饮片中芦丁的含量

阅读(43)

本文为您介绍HPLC法测定20种中药饮片中芦丁的含量,内容包括反相hplc测芦丁含量,hplc法测定芦丁含量的公式。【摘要】目的测定20种中药饮片中芦丁的含量。方法采用反相高效液相色谱法,以HypersilGOLD柱(5μm250mm×4.60mm)为分析柱,乙腈∶水(

学习

铁路长大隧道施工

阅读(26)

本文为您介绍铁路长大隧道施工,内容包括长大隧道,长大隧道通风方案。【摘要】随着我国交通事业的蓬勃发展,交通隧道的优越性正逐渐得到交通土建工程界的认可与接受,铁路隧道也得到了巨大的发展。在长大铁路隧道施工过程中,技术要求较高,本文

学习

吃力不讨好?

阅读(22)

本文为您介绍吃力不讨好?,内容包括吃力不讨好意思,吃力不讨好古语。为了一件事费尽心机和力气,最终得到的结果却并不讨好,有时候甚至与期望截然相反―工作中遇上这样的情境总是特别让人沮丧,次数多了,甚至怀疑“一分耕耘一分收获”这样的定

学习

深山秘境 隆里古城

阅读(37)

我们沿着侗族村寨一路驱车游玩,到达隆里时已是掌灯时分。一轮明月高高挂在城门上,城内屋檐下灯笼高悬,红色的灯光映照着光滑的鹅卵石路面,显得幽静且略带神秘。在灯笼的映照下,几户人家的门口摆放着小吃摊,一些年青人聚在昏黄的灯下,静静地品尝

学习

新型位移电涡流传感器设计

阅读(22)

本文为您介绍新型位移电涡流传感器设计,内容包括电涡流传感器位移特性实验曲线,电涡流式传感器怎么测量位移的。电涡流传感器具有对介质不敏感、非接触、全方位智能测量等特点,广泛应用于对金属的距离检测中。为提高普通电涡流传感器的灵

学习

为人类献身的九种实验动物

阅读(40)

自一个多世纪之前克拉伦斯・库克・利特尔开始其具有划时代意义的老鼠遗传实验以来,老鼠便再未摘掉医学研究动物模型的帽子。除了老鼠,还有其他一些动物也是医学实验室里不可或缺的角色。它们拥有某些与人类相似的生物学特征,可作为人类的实

学习

爱读书 会读书 读好书

阅读(25)

本文为您介绍爱读书 会读书 读好书,内容包括单位读书会分享一本好书,读书会怎样介绍一本好书。博览群书,可以开阔思路,活跃文思。因此,要从小培养学生读书的兴趣,读书的方法和和读书的习惯,从而读好书,这是提高素质教育的途径之一。关键词:读书

学习

《飘》中完美女人梅兰妮给我们的启示

阅读(27)

内容本文通过对《飘》中梅兰妮的性格特征的分析,从事业上的勇敢、婚姻中的信任与尊重、人际交往中的人格魅力三个方面提出了当今女性可以学习的性格特征。关键词:《飘》梅兰妮启示古往今来小说中,刻画了无数在事业上成功,并赢得尊重的女性形

学习

也谈杜鹃盆景的制作与养护

阅读(30)

本文为您介绍也谈杜鹃盆景的制作与养护,内容包括日本杜鹃盆景冬天的养护,怎么养护盆景皋月杜鹃。花木盆景杂志2010年第一期刊登湖南何柏松先生《浅谈杜鹃盆景的制作与养护》一文,本人拜读后有受益也有不同见解,现说明如下,请广大爱好杜鹃盆

学习

学会与人分享

阅读(27)

二十多年前,一个在美国长大的犹太裔青年到以色列访问,教堂神父给他讲了二战期间发生的一桩往事。一个冬天,德国纳粹将犹太人驱赶在一起,用火车运往欧洲某地的集中营,火车必须经过漫长一夜才能到达目的地,欧洲冬季的深夜是那样的寒冷――而每六

学习

草莓的贮藏保鲜

阅读(40)

本文为您介绍草莓的贮藏保鲜,内容包括草莓运输的保鲜方法,草莓保鲜要放冰箱吗。草莓果皮极薄,在采摘和运输过程中容易受损伤而遭受微生物侵染,导致腐烂。因而,正确的贮藏保鲜方法对延长草莓的鲜食期尤为重要。经过多年研究和实践,目前常用的

学习

大数据背景下个人隐私保护

阅读(29)

本文为您介绍大数据背景下个人隐私保护,内容包括大数据安全与隐私保护ppt,大数据隐私保护。计算机网络技术的飞速发展使得社会进入到大数据时代,各个领域和网络技术之间的关联日益密切,并正在大数据推进中获得了良好的发展契机。大数据具

学习

学术不端行为与科研诚信建设

阅读(42)

最近10余年来,抄袭剽窃、数据作假等学术不端行为和滥用权力、不当得利等学术腐败现象在我国大面积爆发,高频进入公众视野,加强科研诚信建设,遏制学术不端行为至为迫切,刻不容缓。本文对学术不端行为的成因作了六点剖析,并据此提出:加强宣传教育

学习

测绘数据的外业采集与内业处理

阅读(56)

本文为您介绍测绘数据的外业采集与内业处理,内容包括测绘内业数据处理流程,测绘外业数据采集软件。这些年计算机技术得到了空前的发展,由于其自身优势,在测绘中得到了很好的应用。除此之外,相关的测绘仪器也有了新的更新,直接推动了整个测绘

学习

中金数据:做中国最强数据中心外包商

阅读(30)

本文为您介绍中金数据:做中国最强数据中心外包商,内容包括中国十大数据中心中金数据,中金数据总裁。中金数据系统有限公司(简称“中金数据”)是目前国内规模最大、设施最完备、服务能力最强的数据中心外包、信息系统灾难备份以及业务持续

学习

大数据时代临床医学教学的思考

阅读(29)

本文为您介绍大数据时代临床医学教学的思考,内容包括医学大数据零基础学习,大数据在临床医学方面的研究。(海西州职业技术学校青海省海西州817000)随着信息技术的快速发展,海量数据的产生推出了"大数据"的新名词。大数据有利于培养和发展医

学习

电子数据安全审计

阅读(27)

本文为您介绍电子数据安全审计,内容包括电子数据安全审计,数据安全审计多久开展一次。一、对电子数据安全的基本认识电子数据安全是建立在计算机网络安全基础上的一个子项安全系统,它既是计算机网络安全概念的一部分,但又和计算机网络安全

学习

浅议公权力与私权利冲突及解决范式

阅读(209)

本文为您介绍浅议公权力与私权利冲突及解决范式,内容包括处理公权力与私权利的准则,正确处理公权与私权的冲突。【摘要】公权力与私权利冲突实质是不同价值观的对立统一。通过界定利益冲突范围,分析公权力与私权利冲突产并非应然状态,从而

学习

浅谈大数据技术在物流领域的应用

阅读(27)

本文为您介绍浅谈大数据技术在物流领域的应用,内容包括说明大数据技术在物流中的应用,社会物流总额数据怎么来。【摘要】本文从大数据概念和本质入手,分析了大数据技术在物流领域应用的潜在价值,提出了大数据时代我国物流发展应在打牢基础