1依托血缘分析的数据熵减
对于使用数据的动机,除了对数据对象主体的认知识别之外,还有要对数据呈现的显性和隐性规律进行发现,从自然语言上看,脑力活动对数据处理的第一步就是降低数据间的差异化,进行熵减的分析行为。哲学家维特根斯坦认为,对于哲学本质的界定都属无法言说之物,应用到数据分析领域,数据存在一种由内而外的泛化惯性,不断对原有数据形成新的描述,造成数据阵营的扩张,而其信息主体则是稳定的,对描述性数据和活动数据存在吸附力,属于无法言说的本质最边缘。立足于这种思想观点,我们可以认为貌似松散无序的数据间存在一种牢固的血缘数据关系,因为所有数据都是基于信息主体泛化出的描述性和活动性数据,而这种熵减的动作其表现形式可以等同于对数据血缘关系的向上追溯,技术上则表现为一种寻找最大扇出的上层。这样,熵减的技术实现就是通过建立血缘关系而去寻找最大扇出的上层,这种分析法易于在数据发现应用中,通过检索建立模糊入口点去组织发现数据,其与扇出或扇入点的血缘关系越近,入口点对其的吸附力越强、权重越高。但这样会出现另一个无法回避的问题,即通过活动在最外界的数据从体量上看相当可观,由外到内追溯扇出上层的劳动比较沉重,从而会理所当然地采取抽样的方式进行,此项活动的进行必须假定数据世界观上层的有限集合认定上,坚信必定会将血缘关系归集到某几个关键数据表达之上,这样才会使本项活动的实施行为具备基本的意义和价值。从效果上看,对数据进行熵减有利于我们甄别数据关系隐含的内在规律,也有利于我们建立具有良好适应性的数据生态模型,为更好地认识和利用数据打下基础。可以合理畅想一下,当我们就一个焦点议题开展讨论后,熵减让我们迅速聚焦到议题的内核,甚至直面议题背后隐含的现象实质,不必纠缠于不必要的信息干扰,对讨论内核进行强化呈现,智力活动所崇尚的方式也可以在计算活动中得以体现。熵减在某种意义上不是对某一类数据分析所采取的手段,而是对数据认识的宏观行为,其在计算领域内的呈现方式,与我们对事物自然认知而采取的抽象和引申别无二致,如此深入下来,对熵减策略的研究更重要于对熵减活动的归纳,通过对策略模型的推演,可以有效地发挥机器学习的能力,如果在策略模型的研究上实施开展,将会极大降低加工难度。
2建立标签关系的反向工程
当我们框定了熵减的方法体系后,在数据间建立血缘关系则显得尤为重要,由于数据生长动力呈现由内而外的泛化驱动,但是本身这种泛化在信息化过程中很多是无组织的行为,缺少逻辑上预先定义,所以数据生成后,大量的数据关系被衰减掉,从正向渠道难以对数据关系建立血缘,工程极其浩瀚复杂。由于血缘关系无法完全在数据生长中自然形成,正向人工干预又存在操作难度,所以反其道而行之则是唯一通道。数据加工的反向性,优势首先体现在由微观到宏观的加工难度大幅下降,因为其工作处于抽象的最底层,使采用众包模式加工成为可能。其次,这种加工模式,可以在有效建立一种数据关系的闭环管理的同时,不会抑制数据生长的空间和速率,不会因加工效率低而凝固数据资产化的进程。在反向加工的过程中,需要通过标签联结数据关系,这时候我们要关注标签的质量和复用度,由于标签定义存在难度,所以要松绑标签定义来促成数据加工的快速实施,解决的重点则迁移到标签在后期管理中的智能化上。首先,可以通过标签在关系联结中的重复出现进行跟踪,识别是标签二义性还是加工者的活动差异。活动差异标签最基本的处理方法是进行聚合,形成知识归纳;二义标签则需要改进表达。其次,依赖血缘关系建立可视化***谱,从数据结构工程里可以有效识别关系路径的黏合点,即发现重复路径中出现的一个以上的标签,消除由知识结构差异造成的人为误会,对标签进行合并。这样,通过标签的智能化后期管理就可以将加工难度上移,建立分层加工的工厂模式。这种加工存在基本准则,并要建立基本的衡量尺度来保证标签有效性,加工工艺可以从标签质量、使用度、命中率等指标进行测量。其中,质量有赖于标签本身定义成分的内涵,要确认其被受众广泛理解;使用度是在加工活动中的使用次数,是否被数据关系广泛应用,使用度较低的标签要确认其存在价值,通过标签间同时出现概率决定其含义表达是否具备唯一性;命中率则建立在使用者的自然需要基础上,如果某一标签绝少被使用者利用或调度,与整体观测结果是否存在数值上的明显差异。整体上看,通过这些基本准则建立标签管理的异常检测分析,来保证加工质量的方式具备技术的可行性,但同时更需要对后期的数据运行建立领域指标模型来校验。
3利用词条原子化推导入口点
摆脱了数据关系组织有效到达的困境,就面临着人机操作中难度所在的入口点识别问题。不可回避的是,在数据发现和信息提取过程中,存在根深蒂固的操作者对自然认知的表达差异,同样的数据诉求在不同操作者中提供的信息接口是多样化的。先从系统方向看,数据在延伸过程中越到生长关系的末端,越体现其高度领域化的特征,而处于顶端的数据则呈现出朴素原始的特征。再从操作者方向上看,对数据发现的诉求来源于操作者对诉求数据产生的逻辑意识活动结果与其位置的可能性预期,从而出现输入信息的参差不齐,呈现或概括、或空泛、或简单、或专业的表现形式。而作为人机交互这种两个世界的重要对话,应尽量保持其信息输入两界的对称性,做出逻辑处理相应的努力。由上所述,系统边界的数据宏观上呈领域和朴素这种两极分布,与之相映成趣的操作者边界也是这样,在某种程度上,分析模型建立就是要对操作者和系统间达成高度一致。另外,信息输入词条的原子化,重要依赖途径是词库的建设,词库的丰歉决定了原子化能力和词条准度,很难想象一个低级词库在操作者允许其机器学习前的表现,其应用体验是不堪一击的。作为人机交互的摆渡机制,词库建设必须承担相应的任务,依赖人机边界的极化特征建立基础和专业的极化词库。同时,不能将词库建设看做是毕其功于一役的建设模式,要充分利用在血缘关系中数据加工活动形成的知识归纳,建立基于血缘关系的分析模型运行生态。有鉴于此,努力尝试建立的数据分析方法,其实也是提升对混沌数据的认识能力,数据在运行周期内存在某一临界点,存在急速生长的非线性事件,使得数据急剧膨胀,血缘数据关系的建立,则在另一维度上对数据体量的不稳定进行调和,使其在关系谱***上存在规律和一定的容积,可以允许我们进行更具效率的水平观测和定位能力。这样的话,数据生长的临界水平在血缘关系维度上转而呈现线性,不会使得该种数据分析方法在临界点出现随机事件,造成大量的数据拥堵和执行效率低下,防止系统坍塌。从信息安全角度,我们也可以有效剥离关系模型和数据实体,使得基于关系认识上的分析模型脱离数据集本身,防止数据对上层模型的浸透,有效缓解了数据开放性过强带来的安全隐患。从数据组织能力角度,我们可以预设定量的数据关系,从IT架构上去考虑其数据的关联性,从信号源、操作者等特性组织数据,建立基本的关系***谱来保障数据在其生态环境中的基本生态地位。
作者:姜振华张晓磊单位:浪潮软件股份有限公司
转载请注明出处学文网 » 血缘关系数据分析论文