血缘关系数据分析论文

1依托血缘分析的数据熵减

对于使用数据的动机,除了对数据对象主体的认知识别之外,还有要对数据呈现的显性和隐性规律进行发现,从自然语言上看,脑力活动对数据处理的第一步就是降低数据间的差异化,进行熵减的分析行为。哲学家维特根斯坦认为,对于哲学本质的界定都属无法言说之物,应用到数据分析领域,数据存在一种由内而外的泛化惯性,不断对原有数据形成新的描述,造成数据阵营的扩张,而其信息主体则是稳定的,对描述性数据和活动数据存在吸附力,属于无法言说的本质最边缘。立足于这种思想观点,我们可以认为貌似松散无序的数据间存在一种牢固的血缘数据关系,因为所有数据都是基于信息主体泛化出的描述性和活动性数据,而这种熵减的动作其表现形式可以等同于对数据血缘关系的向上追溯,技术上则表现为一种寻找最大扇出的上层。这样,熵减的技术实现就是通过建立血缘关系而去寻找最大扇出的上层,这种分析法易于在数据发现应用中,通过检索建立模糊入口点去组织发现数据,其与扇出或扇入点的血缘关系越近,入口点对其的吸附力越强、权重越高。但这样会出现另一个无法回避的问题,即通过活动在最外界的数据从体量上看相当可观,由外到内追溯扇出上层的劳动比较沉重,从而会理所当然地采取抽样的方式进行,此项活动的进行必须假定数据世界观上层的有限集合认定上,坚信必定会将血缘关系归集到某几个关键数据表达之上,这样才会使本项活动的实施行为具备基本的意义和价值。从效果上看,对数据进行熵减有利于我们甄别数据关系隐含的内在规律,也有利于我们建立具有良好适应性的数据生态模型,为更好地认识和利用数据打下基础。可以合理畅想一下,当我们就一个焦点议题开展讨论后,熵减让我们迅速聚焦到议题的内核,甚至直面议题背后隐含的现象实质,不必纠缠于不必要的信息干扰,对讨论内核进行强化呈现,智力活动所崇尚的方式也可以在计算活动中得以体现。熵减在某种意义上不是对某一类数据分析所采取的手段,而是对数据认识的宏观行为,其在计算领域内的呈现方式,与我们对事物自然认知而采取的抽象和引申别无二致,如此深入下来,对熵减策略的研究更重要于对熵减活动的归纳,通过对策略模型的推演,可以有效地发挥机器学习的能力,如果在策略模型的研究上实施开展,将会极大降低加工难度。

2建立标签关系的反向工程

当我们框定了熵减的方法体系后,在数据间建立血缘关系则显得尤为重要,由于数据生长动力呈现由内而外的泛化驱动,但是本身这种泛化在信息化过程中很多是无组织的行为,缺少逻辑上预先定义,所以数据生成后,大量的数据关系被衰减掉,从正向渠道难以对数据关系建立血缘,工程极其浩瀚复杂。由于血缘关系无法完全在数据生长中自然形成,正向人工干预又存在操作难度,所以反其道而行之则是唯一通道。数据加工的反向性,优势首先体现在由微观到宏观的加工难度大幅下降,因为其工作处于抽象的最底层,使采用众包模式加工成为可能。其次,这种加工模式,可以在有效建立一种数据关系的闭环管理的同时,不会抑制数据生长的空间和速率,不会因加工效率低而凝固数据资产化的进程。在反向加工的过程中,需要通过标签联结数据关系,这时候我们要关注标签的质量和复用度,由于标签定义存在难度,所以要松绑标签定义来促成数据加工的快速实施,解决的重点则迁移到标签在后期管理中的智能化上。首先,可以通过标签在关系联结中的重复出现进行跟踪,识别是标签二义性还是加工者的活动差异。活动差异标签最基本的处理方法是进行聚合,形成知识归纳;二义标签则需要改进表达。其次,依赖血缘关系建立可视化***谱,从数据结构工程里可以有效识别关系路径的黏合点,即发现重复路径中出现的一个以上的标签,消除由知识结构差异造成的人为误会,对标签进行合并。这样,通过标签的智能化后期管理就可以将加工难度上移,建立分层加工的工厂模式。这种加工存在基本准则,并要建立基本的衡量尺度来保证标签有效性,加工工艺可以从标签质量、使用度、命中率等指标进行测量。其中,质量有赖于标签本身定义成分的内涵,要确认其被受众广泛理解;使用度是在加工活动中的使用次数,是否被数据关系广泛应用,使用度较低的标签要确认其存在价值,通过标签间同时出现概率决定其含义表达是否具备唯一性;命中率则建立在使用者的自然需要基础上,如果某一标签绝少被使用者利用或调度,与整体观测结果是否存在数值上的明显差异。整体上看,通过这些基本准则建立标签管理的异常检测分析,来保证加工质量的方式具备技术的可行性,但同时更需要对后期的数据运行建立领域指标模型来校验。

3利用词条原子化推导入口点

摆脱了数据关系组织有效到达的困境,就面临着人机操作中难度所在的入口点识别问题。不可回避的是,在数据发现和信息提取过程中,存在根深蒂固的操作者对自然认知的表达差异,同样的数据诉求在不同操作者中提供的信息接口是多样化的。先从系统方向看,数据在延伸过程中越到生长关系的末端,越体现其高度领域化的特征,而处于顶端的数据则呈现出朴素原始的特征。再从操作者方向上看,对数据发现的诉求来源于操作者对诉求数据产生的逻辑意识活动结果与其位置的可能性预期,从而出现输入信息的参差不齐,呈现或概括、或空泛、或简单、或专业的表现形式。而作为人机交互这种两个世界的重要对话,应尽量保持其信息输入两界的对称性,做出逻辑处理相应的努力。由上所述,系统边界的数据宏观上呈领域和朴素这种两极分布,与之相映成趣的操作者边界也是这样,在某种程度上,分析模型建立就是要对操作者和系统间达成高度一致。另外,信息输入词条的原子化,重要依赖途径是词库的建设,词库的丰歉决定了原子化能力和词条准度,很难想象一个低级词库在操作者允许其机器学习前的表现,其应用体验是不堪一击的。作为人机交互的摆渡机制,词库建设必须承担相应的任务,依赖人机边界的极化特征建立基础和专业的极化词库。同时,不能将词库建设看做是毕其功于一役的建设模式,要充分利用在血缘关系中数据加工活动形成的知识归纳,建立基于血缘关系的分析模型运行生态。有鉴于此,努力尝试建立的数据分析方法,其实也是提升对混沌数据的认识能力,数据在运行周期内存在某一临界点,存在急速生长的非线性事件,使得数据急剧膨胀,血缘数据关系的建立,则在另一维度上对数据体量的不稳定进行调和,使其在关系谱***上存在规律和一定的容积,可以允许我们进行更具效率的水平观测和定位能力。这样的话,数据生长的临界水平在血缘关系维度上转而呈现线性,不会使得该种数据分析方法在临界点出现随机事件,造成大量的数据拥堵和执行效率低下,防止系统坍塌。从信息安全角度,我们也可以有效剥离关系模型和数据实体,使得基于关系认识上的分析模型脱离数据集本身,防止数据对上层模型的浸透,有效缓解了数据开放性过强带来的安全隐患。从数据组织能力角度,我们可以预设定量的数据关系,从IT架构上去考虑其数据的关联性,从信号源、操作者等特性组织数据,建立基本的关系***谱来保障数据在其生态环境中的基本生态地位。

作者:姜振华张晓磊单位:浪潮软件股份有限公司

血缘关系数据分析论文

转载请注明出处学文网 » 血缘关系数据分析论文

学习

中国援越抗法始末

阅读(45)

本文为您介绍中国援越抗法始末,内容包括援越抗法对中国意义,援越抗法纪实完整版。很多人都知道我国上个世纪50年代的抗美援朝,但说起援越抗法,则知之甚少。

学习

幼儿园性别认知教育

阅读(38)

本文为您介绍幼儿园性别认知教育,内容包括孩子性别认知障碍怎么办,幼儿性别教育知识。摘要:现代教育发展的背景下,幼儿性别教育并没有得到很好地发展,并存在严重的刻板印象,在现代社会,固化的性别观念对幼儿的性格培养、个人发展极为不利,因此

学习

倪妮:天生明星

阅读(32)

本文为您介绍倪妮:天生明星,内容包括倪妮穿越到现代完整版,倪妮仙女下凡完整版。在《杀戒》片场见到倪妮,前一分钟她还和刘烨在法庭上针锋相对、你死我活,后一分钟出了戏,两人在台下立刻谈笑风生起来。和刘烨一起接受采访时,她更像一个邻家

学习

痛风辨证论治8方

阅读(64)

本文为您介绍痛风辨证论治8方,内容包括中医痛风名方解读,痛风经方医案。本病临床以关节红、肿、热、痛反复发作,关节不灵活为主要表现,可归属于中医学“痹证”等病范畴。病因多为素体脾胃虚弱,或后天失养;病机关键为浊毒淤中阻脾胃;病位主要

学习

评《围城》之主人公方鸿渐

阅读(32)

本文为您介绍评《围城》之主人公方鸿渐,内容包括围城主人公方鸿渐故事,围城主人公方鸿渐读音。书中的人物自然性格各异:传统道德观念强烈的长辈们;顽劣不醒世事的少年们;风流潇洒幽默的男人们;锱铢必较柔弱的女人们。众多人物无疑是那个时代

学习

姜昆与李文华,五年搭档凝成一世师徒情

阅读(32)

本文为您介绍姜昆与李文华,五年搭档凝成一世师徒情,内容包括姜昆李文华合作多少年,相声姜昆与李文华是师徒关系。2009年5月10日,著名相声表演艺术家李文华因咽喉癌转发心肺病在北京去世,享年82岁。李文华曾经的搭档姜昆在李文华最后的时刻

学习

小学数学教材中的《九章算术》

阅读(28)

本文为您介绍小学数学教材中的《九章算术》,内容包括九章算术小学生版,小学数学课本中九章算术。【摘要】数学史融入数学课程是数学课程改革提出的新要求。小学数学教材的各个版本,都选择了一些数学史料作为背景知识,《九章算术》在各个版

学习

“囧爸”的创业征途

阅读(29)

当来到位于软件园福建海峡文化创意产业基地的金豹动漫公司时,一个顶着方脑袋的漫画形象立马跳入记者的视线,各种独特造型憨态可掬,看起来十分讨喜。它叫“囧囧”,虽然没有凯蒂猫、迪斯尼那样风靡全球,也没有喜羊羊那般为大众所耳熟能详,但你一

学习

浅析如何培养英语语感

阅读(37)

本文为您介绍浅析如何培养英语语感,内容包括培养英语语感的软件,培养英语语感的英文歌曲。【摘要】有很多英语学习者感觉学习英语很困难,听不懂也不会说,其中一个重要原因就是缺乏语感。良好的英语语感是学习英语的一项重要前提,可使我们的

学习

应用小儿危重病例评分法预测婴幼儿重症肺炎的预后

阅读(30)

本文为您介绍应用小儿危重病例评分法预测婴幼儿重症肺炎的预后,内容包括小儿肺炎护理病历讨论与分析,小儿重症肺炎护理评价。[摘要]目的:应用国内儿科危重病例评分法(PCIS)评价婴幼儿重症肺炎的患儿的病情危重度,预计病死风险率,探讨死亡相关

学习

曲艺大师土登:从小僧人到多才“笑星”

阅读(140)

年过70的土登老人,满头银发,和蔼可亲。拉萨市民经常可以碰到这位老人或骑着一辆自行车或走路出现在街头巷尾。这位就是获得中国曲艺界最高奖――第四届中国曲艺牡丹奖终身成就奖的藏族曲艺大师土登。

学习

“碳补偿”先于“碳配额”

阅读(32)

本文为您介绍“碳补偿”先于“碳配额”,内容包括碳配额有效期限,碳配额是怎么定的。上世纪70、80年代,由于工业的快速发展,美国很多地区遭遇“酸雨”侵袭,管制与经济效率之间的矛盾反复上演。美国国会共提出并否决了70部不同的酸雨提案

学习

干部考核管理办法

阅读(23)

本文为您介绍干部考核管理办法,内容包括干部考核管理实施办法,干部考核优缺点怎样说。第一条目的

学习

广东音乐的一代宗师――吕文成

阅读(211)

本文为您介绍广东音乐的一代宗师――吕文成,内容包括吕文成对广东音乐的贡献,音乐名家吕文成代表名作。我非常喜欢广东音乐,因为它的旋律清新明快,曲调流畅,优美动听,既具有鲜明的民族风格和地方特色,又具有一定的时代和生活气

学习

新石器时代女性人物雕塑研究分析

阅读(18)

本文为您介绍新石器时代女性人物雕塑研究分析,内容包括新石器时代女性雕塑,新石器时代女性雕塑表现什么。这些现代意义上的艺术品在原始先民那里并不是纯粹用来欣赏的。我们不会否认这些原始的雕塑具有一些现代艺术品所具有的审美的特征

学习

我国铁路CTC系统的应用现状分析

阅读(38)

本文为您介绍我国铁路CTC系统的应用现状分析,内容包括浅谈ctc系统在铁路系统中的应用,铁路ctc系统怎么提高可靠性。摘要:分散自律型调度集中(CTC)是新型的车调度指挥设备,能够提高调动效率,确保行车安全,文章首先对我国铁路CTC系统的基本功能

学习

双数据顶板平整度调整

阅读(24)

本文为您介绍双数据顶板平整度调整,内容包括顶板平整度用数字怎么表示,住宅顶板平整度偏差允许值。摘要:随着科学技术的发展,消费者的性价比理念有了很大的提高,我们作为一个工程施工人员就必须努力让业主肯定我们的工程质量、施工工艺、以

学习

赛络紧密纺特细纱生产工艺分析

阅读(66)

本文为您介绍赛络紧密纺特细纱生产工艺分析,内容包括云南赛络紧密纺工艺流程,紧密赛络纺工艺流程3d演示。摘要:文章简要分析了赛络紧密纺特细纱的生产工艺要点,以赛络紧密纺特细纱7.3tex、5.2tex品种为例,根据赛络紧密纺的纺纱原理、品种生

学习

供应链管理案例分析

阅读(19)

本文为您介绍供应链管理案例分析,内容包括供应链管理典型案例分析,煤炭供应链金融案例分析。摘要:

学习

中国经济增速回落原因分析

阅读(194)

本文为您介绍中国经济增速回落原因分析,内容包括比上年同期增速回落是什么意思,全国经济增速下行表现在哪里。当前人们谈论最多的是中国经济增速回落问题,从经济学的角度看,中国经济增速回落是经济进入新常态的重要特征,问题主要是经济结构

学习

关于本质主义的探讨分析

阅读(22)

本文为您介绍关于本质主义的探讨分析,内容包括本质主义的优势和劣势是什么,什么是本质主义。一、克里普克的本质主义

学习

交通流量分析与实时最优控制研究

阅读(24)

本文为您介绍交通流量分析与实时最优控制研究,内容包括交通数据统计分析理论与方法,交通流量模拟分析。摘要:交通流量分析关系到整个交通运行水平,随着社会不断发展,私家车的数量不断猛增,这给交通管理带来了压力。交通流量分析是路上权重变