浅谈Web数据挖掘技术

摘要:随着网络的快速发展与普及,大量有用的网络信息给人们生活、工作和学习带来了便利。与此同时网络中还存在着许多无用的信息,如何从浩如烟海的数据海洋中,快速准确的查找数据,成为了当今社会不可忽视的问题。Web数据挖掘技术,正是解决这一问题的关键。该文从Web数据挖掘技术的角度,阐述Web数据挖掘的概念、分类、过程及常见的Web数据挖掘算法。

关键词: Web数据挖掘;PageRank算法;网络数据

中***分类号:TP311.12 文献标识码:A 文章编号:1009-3044(2013)22-4992-02

1 概述

当前,人们随时随地都在利用网络获取信息,不断利用网络进行着上传和***的操作,这些信息数据在网络上传播和储存着。因此,网络就形成了一个庞大的数据存储集散地。如何从海量的网络数据中快速有效地对数据进行分析和检索,并在其中发觉潜在有用的信息,是当今社会需要解决的问题。Web数据挖掘技术正是很好的解决了这个问题,以下将探讨一下Web数据挖掘技术。

2 Web数据挖掘概念

2.1数据挖掘

Web数据挖掘是数据挖掘的一个分支,首先需要了解什么是数据挖掘。数据挖掘(Data Mining, DM),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的知识的过程。在数据库系统中称其为知识发现(Knowledge Discovery in Database, KDD)。Web数据挖掘技术融合了数据库系统、统计学、信息科学、人工智能、机器学习等,是一个新兴的多学科交叉应用领域。

2.2 Web数据挖掘

Web数据挖掘是在数据挖掘技术的基础上,针对网络数据主要是Web文档和服务日志文件进行的数据分析、归纳和汇总并在其中发现和提取潜在有用的信息及知识的技术。

3 Web数据挖掘的分类

根据 Web 数据挖掘的对象,可将 Web 数据挖掘划分为三种类型。

3.1 Web 内容挖掘(Web Content Mining)

Web内容挖掘指从Web网站的内容中发现潜在的有价值的信息和抽取知识的过程。Web网站的内容分为:文本、***像、音频、视频和动画等。因此,Web 内容挖掘又可分为文本数据挖掘(包括文本和网页文件格式)和多媒体数据挖掘(***像、音频、视频等多媒体数据),Web内容挖掘主要应用于文献检索系统、垃圾邮件的处理、信息过滤、电子资源检索等。

3.2 Web 结构挖掘(Web Structure Mining)

Web 结构挖掘是对网站的超级链接进行分析和处理,从各个超级链接中发现权威网页和有价值的网页,并根据此标准对网页和网站进行评级、分类。Web结构挖掘主要任务是查找权威网页,并识别各网页之间的相互关系,从而发现网站的结构,获取不同网页相似度和网站的关联度。Web结构挖掘主要应用于搜素引擎,对同一主题的网页进行排序。

3.3 Web 使用挖掘(Web Usage Mining)

Web 使用挖掘是通过对计算机上的日志文件,如在服务器的 Log 文件和 cookies 文件等,涉及关联规则的挖掘,从中发现频繁使用的网页模式。如购买计算机的用户过一段时间购买打印机的概率,或者买计算机同时买电脑包的概率等.通过挖掘用户的访问模式,发现日志记录中的规则,如通过经常访问的路径,对网站的结构进行改进.通过聚类把不确定形式的用户和数据进行归类,发现潜在的客户和隐含群体,针对用户进行相关的营销等策略,提供针对性的活动,从而提高服务质量。Web使用挖掘主要应用于商业营销,并为商业决策提供依据。

4 Web数据挖掘的过程

5 常用Web数据挖掘算法

Web数据挖掘有很多算法,其中 Web 结构挖掘有 PageRank 、HITS和 CLEVER等很多经典算法。其中PageRank算法是1998 年斯坦福大学的博士研究生 Sergey Brin 和Lawrence Page最早提出利用超链接信息进行Web 结构挖掘的算法。PageRank是超链接结构分析中最成功的代表之一,是评价网页权威性的一种重要工具,搜索引擎 Google 公司就是利用 PageRank 算法和其他统计因素相结合的方法,对检索出来的大量结果进行相关度的排序。下面简单介绍一下PageRank算法。

5.1 算法思想

PageRank算法的基本思想是:如果网页M 被网页N 超级链接,则N 就认为M是重要的,也就相当于N 投了M一票,如果网页M被多个网页超级链接,则是多个网页投了网页 M 的票,它们都认为网页M 是重要的,那么网页M 一定是重要的;一个网页即使没有被其他网页多次超级链接到,但在一个重要的网页中使用了指向它的超级链接,则这个网页很可能也是重要的,因为PageRank 算法把每一个网页的重要性均分并被传递到它所链接的网页中,这样被重要网页链接的网页就可以分到更多的重要性值,它被列入推荐的能力值就越大。因此,网页之间的超级链接关系在一定程度上能表明 Web 文档的重要性。

6 小结

近年来网络的迅猛发展,使网络数据成几何级数增长,Web数据挖掘技术也得到了长足发展,为网络数据的检索提供了可靠地技术保证。但是随着多媒体和流媒体在网络上的大量使用,Web数据挖掘技术在这些领域还存在一定不足。因此,Web数据挖掘技术还有很大的提升空间,相信随着研究的不断深入Web数据挖掘会有更广阔的发展前景。

参考文献:

[1] 陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社,2004.

[2] 吴淑燕,许涛.PageRank算法的原理简介[J].***书情报工作,2003(2):55-60.

[3] 宋健康,张礼平.Web结构挖掘算法探讨[J].华东理工大学学报,2003(10):537-540.

[4] 刘兵.Web 数据挖掘[M].北京:清华大学出版社,2009.

[5] 刘正涛,王建东.Web 数据空间技术研究[J].计算机工程与应用,2012(7):12-17.

[6] 涂承胜,陆玉昌.Web使用挖掘[J].小型微型计算机,2004(7):1177-1183.

[7] 朱丽红,赵燕平.Web挖掘研究综述[J].情报技术,2004(7):2-5.

浅谈Web数据挖掘技术

转载请注明出处学文网 » 浅谈Web数据挖掘技术

学习

中国心理卫生

阅读(22)

本文为您介绍中国心理卫生,内容包括心理卫生协会证书,心理卫生专著。幼儿园教师不良教育方法干预研究王芳芳,叶广俊,王燕,WangFangfang,YeGuangjun,WangYan

学习

电子节能灯制造

阅读(25)

本文为您介绍电子节能灯制造,内容包括电子节能灯电路图详解,led节能灯材料清单。1引言

学习

化学教育

阅读(39)

本文为您介绍化学教育,内容包括化学教育考研推荐,化学教育专业读本。1.新课程背景下中学化学课堂教学实效性探究崔长东

学习

中国循证医学

阅读(27)

本文为您介绍中国循证医学,内容包括循证医学什么意思,中国循证医学中心。卫生技术评估和卫生技术准入管理祁国明

学习

小议基坑监测工程中位移测量的应用

阅读(24)

本文为您介绍小议基坑监测工程中位移测量的应用,内容包括基坑位移测量方法,后方交会测量基坑水平位移。摘要:笔者结合实际工程项目,根据设计单位提出的要求,对实际技术进行探讨,以供学习交流。

学习

史学理论研究

阅读(20)

本文为您介绍史学理论研究,内容包括史学理论及史学史,史学理论研究期刊。1.史学理论与改革开放陈启能

学习

卢铿:一个地产思想者的海尔生活

阅读(28)

拿中国第一民族品牌、国内最优秀的企业海尔来说,海尔地产已是旗下响当当的品牌。尤其是在卢铿入主的那几年中,海尔地产跻身地产界一线品牌行列。要知道2037年之前的海尔,仅是附属于海尔金融集团的一家小公司,即使在青岛也没什么名气。

学习

如何使用Fax虚拟传真机接收管理传真文件

阅读(40)

本文为您介绍如何使用Fax虚拟传真机接收管理传真文件,内容包括兄弟传真机fax2990如何取消传真,佳能fax-l170传真机如何发送传真。摘要:该文详细介绍了利用传真moderm和WindowsXP文件安装虚拟传真机Fax的方法,如何设置和使用虚拟传真机,以及

学习

食品生物技术论文范文精选

阅读(24)

本文为您介绍食品生物技术论文范文精选,内容包括食品生物技术毕业论文题目,食品专业论文范文。食品生物技术论文篇11.生物技术的主要特点

学习

LTE时代分组传送网的演进策略

阅读(20)

本文为您介绍LTE时代分组传送网的演进策略,内容包括lte是什么长期演进技术,lte的接入方式和多址方案。【摘要】通过分析分组传送网络对三层技术、UTRAN多接口综合接入、高带宽、时延要求的适应性,详细介绍了分组传送网对LTE网络的支持能

学习

校园文化

阅读(28)

本文为您介绍校园文化,内容包括校园文化系列大全,校园文化设计。校园文明既是校园文化建设的智慧结晶,也是学校持续发展的有力支撑。尽管一些学校“有文化无文明”的校园文化建设结果的出现表面上看是由“文化建构的任意性”、“文化引导

学习

《男人的一半是女人》的精神分析解读

阅读(26)

本文为您介绍《男人的一半是女人》的精神分析解读,内容包括男人女人心理情感经典日志,男人和女人精神分析。摘要:本篇论文试引入精神分析中梦的理论和“里比多”概念来解读小说《男人的一半是女人》,对作品进行深层心理分析。

学习

“山寨本”头悬利剑

阅读(19)

山寨本产业厉兵秣马、蓄势待发,还有众多厂商跃跃欲试,想跳进去分一杯羹。山寨机曾经的暴利发家史,更是让很多尝过山寨机甜头的玩家们对上网本这一新的山寨产品寄予厚望。

学习

计算机信息系统的安全技术

阅读(20)

本文为您介绍计算机信息系统的安全技术,内容包括计算机安全技术主要有哪些,不属于计算机安全技术的是。【摘要】计算机信息信息技术的飞速发展为国家经济增长起到了重要作用,其也走进了人们的生活中。然而网络环境存在安全问题,容易造成信

学习

认知无线电技术:无线电管理新助手

阅读(31)

本文为您介绍认知无线电技术:无线电管理新助手,内容包括无线电管理技术手段,无线电通讯与管理。无线电通信领域,认知无线电技术(CR,CognitiveRadio)

学习

浅谈厂区蒸汽管道设计

阅读(27)

本文为您介绍浅谈厂区蒸汽管道设计,内容包括蒸汽管道支架设计,蒸汽管道设计地埋。摘要:探讨了蒸汽管道的布置方式和补偿,蒸汽系统的排气以及疏水阀的选取。

学习

浅谈大孔吸附树脂

阅读(50)

本文为您介绍浅谈大孔吸附树脂,内容包括安阳大孔吸附树脂回收,大孔吸附树脂的优缺点。【关键词】:大孔吸附树脂;类型;预处理;再生;中药生产

学习

转基因技术

阅读(21)

本文为您介绍转基因技术,内容包括转基因技术的资料,转基因技术中文版。1983年,世界上第一例转基因植物――一种含有抗生素药类抗体的烟草在美国成功培植。当时有人惊叹:“人类开始有了一双创造新生物的‘上帝之手’。”随后,“转基因”一词

学习

浅谈架上绘画的前途问题

阅读(29)

本文为您介绍浅谈架上绘画的前途问题,内容包括绘画的出路是什么,浅谈绘画的前言。摘要:架上绘画从文艺复兴至今已经历六百多年的历史,它见证着人类的发展,并与音乐,文学一同构建着人类的精神世界。如今,随着社会发展,大量利用媒体科技的前卫艺

学习

新卢德主义者与新技术

阅读(32)

本文为您介绍新卢德主义者与新技术,内容包括卢德主义者的含义,卢德主义者啥意思。魏宁,专栏作者。为多家报刊撰写专栏文章,关注教育、技术。

学习

浅谈电气化铁路接触网的分段绝缘器

阅读(23)

本文为您介绍浅谈电气化铁路接触网的分段绝缘器,内容包括接触网分段绝缘器故障抢修预案,接触网分段绝缘器的检修工艺。摘要:本文主要概述了电气化铁路接触网的分段绝缘器在高速铁路中的运行现状及施工安装中存在的问题,并且提出了一些在安

学习

机载激光雷达与点云数据处理技术简述

阅读(24)

本文为您介绍机载激光雷达与点云数据处理技术简述,内容包括机载激光雷达点云数据处理方法,机载激光雷达点云数据的应用领域。摘要介绍机载激光雷达的点云数据获取与处理流程,总结其关键技术,从中可以预测未来遥感与GIS技术在数据获取方面