数据挖掘篇1
关键词:数据挖掘;因特网;服务
中***分类号:TP
文献标识码:A
文章编号:1672-3198(2010)17-0357-01
1 数据挖掘的概念
数据挖掘(Data Mining)最早是在数据库领域发展起来的。称为数据库中的知识发现(KDD,Knowledge Discovery in Database),据挖掘是从大量的包括结构化和非结构化数据中提取隐含在其中的、事先不为人知的、潜在的、有用的信息和知识的过程,它要求数据源应该是大量的、真实的、多媒体的;所发现和提取的信息和知识是潜在的、有效的并隐藏在大量数据背后,是用户感兴趣的、可理解、可运用的知识,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程。
2 数据挖掘的系统简介
2.1 AuthorLink系统
最近,美国开发出了基于文献计量分析的知识查询系统,并借助于可视化技术首次将复杂的统计结果,用通俗易懂的***像形式显示给用户,从而实现了知识信息提供服务的一次变革。
2.2 专利统计分析系统
人们关于专利的统计分析,事实上也是一种知识挖掘。目前,包括英国的WPI及美国、日本专利局等网络站点,都在提供专利文献检索服务的同时提供专利统计分析的服务。
2.3 OLAP系统
OLAP系统(On-Line Analytical Processing联机分析处理系统)也是一种典型的数据挖掘系统。这是一种含有数据导航、数据查询、建模、预测和数据挖掘的数据分析系统。其中OLAP引擎可以在前端接口接受用户提交的多维提问,并转换成SQL语句,然后将提问查询提交数据库,最后以***表的形式输出。
3 数据挖掘的步骤
(1)确定应用领域:包括此领域的基本知识和目标;(2)建立目标数据集:选择一个数据集或在多数据集的子集上聚焦;(3)数据预处理:在大数据集中,根据需求,利用数据净化和整合技术,选择与任务相关数据,在不降低其准确度的状况下减少处理数据量;(4)数据转换:找到数据的特征进行编码,减少有效变量的数目;(5)数据挖掘:根据数据和所要发现知识的种类来确定相应的挖掘算法;(6)数据评价:将挖掘出的知识和数据以各种可视化方式显示,并将其以***形、文本等方式存储在库中,以便对它们进一步挖掘,直至满意为止;(7)实施和应用:实施和应用阶段是指利用数据挖掘技术所建立模型在实际项目中的应用,包括数据库的构建,个性化用户服务、基于知识的企业信息管理(MIS)、金融、证券、股票分析、电子商务、企业目标管理、决策支持等等。
4 数据挖掘服务的实现
4.1 数据挖掘为个性化服务打下基础
收集用户有关的信息,建立用户信息库。用户是数字***书馆的重要资源,一个信息完整的用户信息库,能保证在充分挖掘的基础上,了解用户的普遍性需求与特殊性需求,从而开展有针对性的个性化服务。通过对用户访问日志记录信息的挖掘,把握用户兴趣,有助于开展网络信息推送服务以及个人信息的定制服务。但从用户群整体来看,用户的信息需求又是随机的,这为一般用户需求信息分析带来了很大困难。数据挖掘从全局出发,以丰富、动态的联机查询和分析来了解用户的信息需求。通过***提问、调查表等方式,系统可以获取关于用户的用户名、用户访问IP地址、用户的职业、年龄、爱好等原始信息。然后,采取一定的挖掘规则(如关联规则、联机分析处理等),对这些数据进行融合分析,其结果是为每个用户建立一个信息需求模型。根据用户需求,主动跟踪本地信息库和网络相关信息,收集用户所需信息。为了提高准确度,还应对所收集的信息进行相关性分析,可以根据用户提供的检索词,确定所检索到的信息与该检索词的相关度。同时还可以利用智能推送技术将用户所需信息推到用户的计算机、电子信箱,甚至手机、PDA上。
4.2 数据挖掘使网络资源的内容检索成为可能
网络内容挖掘是一个从文本、***像、音频、视频、元数据等形式的网络源信息中采用分类、聚类等形式的挖掘方法,发现有用信息,并将这些信息按满足某种检索方式的形式加以组织的过程。通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网络资源。有的学者应用数据和文本挖掘技术在网络上进行问题跟踪,从而获得了以前未知的有用知识,为信息内容分析提供了极大的可能性。网络内容挖掘是目前网络信息检索发展的一个关键,通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过对用户所使用的提问式(query)的历史记录分析,可以有效地进行提问扩展(query expansion),提高查全率和查准率;可以运用网络内容挖掘技术进行关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。
数据挖掘篇2
沃尔玛公司在对顾客的购物行为进行分析时发现,“跟尿布一起购买最多的商品竟是啤酒。”针对这一现象,沃尔玛对消费数据进行了调查分析。分析的结果揭示了隐藏在“尿布与啤酒”背后的美国人的消费行为倾向――美国的太太们经常叮嘱她们的丈夫为小孩买尿布,一些年轻的父亲下班后到超市购买婴儿尿布时,其中30%~40%的人同时也会为自己购买啤酒。既然尿布与啤酒放在一起会增加购买的机会,于是沃尔玛开始将众多门店的尿布与啤酒并排摆放,结果是两类商品的销售量均大大增长。
上面的例子,源于《财富》杂志报道的沃尔玛案例,从这一例子中,人们看到了对消费者行为模式的准确把握。实际上,沃尔玛能够找到这样的规律,是基于对原始交易数据进行深入分析的结果,而这都要归功于一项特殊的工作――数据挖掘。
所谓数据挖掘,是指寻找隐藏在海量数据中有价值的信息,进而支持决策的过程。“挖掘”的目标包括趋势、特征及相关性等多个方面的信息。
在计算机与信息技术普及的今天,人们的消费需求、行为和习惯都可以化为海量的用户数据,进而被银行、电信运营商、信用卡公司等机构进行“挖掘”。而这样的数据挖掘成果,正逐步为公众所分享。
例如,在网上购买一本小说时,不少网站都会自动推荐相关度极高的另一本书籍;查询电话话费时,电信运营商也往往根据用户通话数据,给出更省钱的套餐作为参考。这些都是数据挖掘呈现的效应,一方面给企业带来了更好的营销方式,另一方面也让用户享受到了便利。
商业支撑
除了较早介入该领域的电信运营商和银行之外,数据挖掘正被应用在零售、金融服务、制造业、电话销售、保险等更多行业中。
在商业领域,数据挖掘尤其具有巨大的潜在价值。通过分析用户消费行为和交易纪录,数据挖掘可用于帮助企业回答较为复杂的问题。比如大客户的特征是什么?应该给这些客户提供什么样的促销手段?客户在1个月内再次购买的可能性有多大?什么样的产品与花钱最多的客户相联系?
时下火爆的团购网站们,也将数据挖掘视为重要的运营支撑。团购网站的高管们常常把各种数据挂在嘴边。在简单同化的网站页面背后,很多公司正在数据挖掘上暗自角力,以求通过更加科学有效的方式精准匹配消费需求,在众多商家中遴选最合适的商品,进而更好地控制用户粘性。
实际上,在互联网领域,最早利用数据挖掘技术的是电子商务公司。尤其是B2C网站,比如,通过“啤酒-尿布”案例中体现的关联性规则和相应算法,商家可向买过商品的用户推荐第二件最可能消费的商品。
“目前国内数据挖掘做的比较好的是淘宝,这与公司的重视程度有很大关系。”刘毅向《财经国家周刊》记者说。
刘毅出身统计学专业,从事数据挖掘工作多年,早前曾在网络游戏公司网龙从事数据挖掘工作,如今在艾瑞咨询创新研发部进行数据产品研发。
“我看过淘宝数据魔方,个人认为,它展现出来的结果还是冰山一角,更多是一些报表分析。”刘毅表示,淘宝每天把交易数据做成数据仓库,并根据淘宝品类和关键词设置等维度进行展现,但目前也仅限于这些。
据悉,淘宝网每天产生约7000G容量的数据。3月31日,淘宝网对外宣布,面向全球开放淘宝数据,商家、企业及消费者将在未来分享到来自淘宝网的海量原始数据。
刘毅认为,对于像当当、卓越这样的B2C网站来说,更需要深入进行数据挖掘工作。一个类似数据魔方的报表只限于日常运营的需要,想要更深入地了解客户,使其获得更好的体验,或许还是自己做数据挖掘更有用。
数据挖掘流程
具体到数据挖掘的流程,大致可分为“总体规划――数据仓库――数据挖掘”的三个步骤。由于数据挖掘人员需要具有不同的知识结构,因此通常一个数据挖掘团队在5人左右。
首先,由负责总体规划的人员提出需求,即要做哪些方面的分析。接下来,有专门的人员负责收集来自不同数据源的海量数据,以统一的形式整合在数据仓库里,同时设置多个维度,形成针对不同主题的结构化数据。
此时,数据挖掘人员才开始登场,根据对业务的深入理解,在不断的测试和计算过程中,形成合理的挖掘模型。同时,对于挖掘得出的结果,还需要有对业务特别熟悉的人员反复验证。几次下来,数据模型基本固定,就可以按照例行的周期从数据仓库提取分析数据,进行数据挖掘工作了。
例如游戏公司要预测哪些玩家会在下周流失,可在数据仓库中设置***情况、充值情况、活动参与情况等多个维度,通过相应算法进行挖掘工作。一旦发现玩家诸如上线时间变短,或者“打怪”不积极等行为,就会进行标记,同时了解他们对哪些类型的活动或任务感兴趣。接下来,运营部门会根据标记向玩家发送相应活动信息等,以维持用户粘性。
而在欧美银行业的应用中,通常是从客户的年龄、受教育程度、收入状况、信用记录等资料入手,“挖掘”出相应的社会、经济和消费特征,进而对客户进行分群和档案管理,区分大众消费群体和高端群体。具体到信用卡用户分析,还会考量持卡人用款数量、用卡频率、是否按时还款等因素,进而确定发放信用卡的人群、信用额度、风险及防范等问题。
另外,数据挖掘结果还可以整合成为营销策略,在识别客户行为优化服务,调整产品以符合客户需求,以及寻找新客户等方面,成为企业决策的好帮手。
多种技术的应用
上述三步流程是一个相对比较完整的数据挖掘过程,在要求不高、数据量不大的情况下,数据挖掘和数据分析的结果差别不是很大,很容易被混淆。
“现在数据挖掘的概念炒得很火,但是很多人做的只是针对数据的一个简单统计分析,按照标准的数据挖掘流程去运行的公司仍是少数。”刘毅说。
当然,要更好地实现数据挖掘的效果,还需要数据统计团队和调研团队的进一步配合。在进行数据挖掘之前,先要统计分析具体情况。而数据挖掘的结果,有时候也无法回答“为什么”这样的问题,解答这些问题还需要后续的调研工作作为补充。
比如要评价某个活动的效果,需要在做数据挖掘之前,先由统计人员分析市场参与度有多大,有怎样的特征规律等。而在“挖掘”出不同群体的行为偏好,对应以不同营销手段和个性化服务后,还要进行跟踪调研,通过问卷形式了解活动效果,以及何种活动愿意参加等问题。
数据统计、数据挖掘、结果调研三者作用叠加,方能构成一个完整的市场调查链条。
在刘毅看来,数据挖掘是一种结合多种专业技术的应用,但其本身并不能提供因果关系,只是呈现出某个结果,告诉人们发生这个行为的概率是多少。
数据挖掘篇3
对于上述问题,海量信息技术有限公司(简称海量公司)的副总裁兼首席科学家周富秋博士认为,通过采用智能计算技术,对海量信息进行筛选,从中可以得到用户真正想要的信息。对于智能计算技术,周富秋做了进一步的解释,该技术是建立在自然语言处理(Nature Language Process,NPL)基础上的,通过人工筛选的庞大语料库,按照事先设计的算法,对海量数据进行识别,从中找到对用户有用的信息和情报。
周富秋所在的海量公司是一家成立于1999年、专注于中文智能计算和信息数据挖掘技术的民营企业。该公司沿着“字符到语义、非结构化到结构化”的技术路线,经过多年的技术积累,所研发的海量中文智能分词基础件已经广泛应用于腾讯、猫扑网、Myspace等大型网站。此外,海量公司还为微软、Autonomy、Askjeeves等国外公司提供中文智能计算技术,帮助他们实现软件本土化。
周富秋将数据信息处理分为3个层次。为了更好地解释这3个不同的层次,他绘制了一个3层金字塔模型:位于底部的是数据,在其之上是筛选出来的信息,而在金字塔塔尖的就是经过技术提取的精华内容―情报。对于数据和信息的处理,周富秋认为目前主要采用了浅度智能自然语言处理技术(NPL Shallow),而通过这种方式提取出来的内容(数据和信息),主要是Google和百度等搜索引擎厂商正在从事的主要工作。而对于在数据和信息基础上进行精加工产生的精华―情报,则是海量公司正在致力去做的工作,而他们所采用的技术叫做深度智能自然语言处理技术(NPL Deep)。这种技术,周富秋认为正是海量公司的核心竞争力所在。
目前,海量公司已经开发除了基于上述技术的数据挖掘产品“海纳”。该产品可以通过智能计算技术为网络媒体、行业门户、企业情报部门提供***网络数据挖掘服务。“海纳”可以自动对指定的网站页面进行监控,对于所发现的新增页面及时提示,并对重复信息进行归总。用户只需要单击鼠标,就可以对网页内容进行转载收录。“海纳”运用智能计算技术,替代人工完成大量信息加工工作,简化编辑工作,经过深度加工提升信息价值。海纳是一款***产品,用户所有操作都是在客户端完成,而其所有的智能分析和自然语言处理工作均在海量公司的专用机房内完成。据产品总监沈止戈介绍,该公司目前为“海纳”投入了100台大型服务器。
数据挖掘篇4
关键词: Web数据挖掘;PageRank算法;网络数据
中***分类号:TP311.12 文献标识码:A 文章编号:1009-3044(2013)22-4992-02
1 概述
当前,人们随时随地都在利用网络获取信息,不断利用网络进行着上传和***的操作,这些信息数据在网络上传播和储存着。因此,网络就形成了一个庞大的数据存储集散地。如何从海量的网络数据中快速有效地对数据进行分析和检索,并在其中发觉潜在有用的信息,是当今社会需要解决的问题。Web数据挖掘技术正是很好的解决了这个问题,以下将探讨一下Web数据挖掘技术。
2 Web数据挖掘概念
2.1数据挖掘
Web数据挖掘是数据挖掘的一个分支,首先需要了解什么是数据挖掘。数据挖掘(Data Mining, DM),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的知识的过程。在数据库系统中称其为知识发现(Knowledge Discovery in Database, KDD)。Web数据挖掘技术融合了数据库系统、统计学、信息科学、人工智能、机器学习等,是一个新兴的多学科交叉应用领域。
2.2 Web数据挖掘
Web数据挖掘是在数据挖掘技术的基础上,针对网络数据主要是Web文档和服务日志文件进行的数据分析、归纳和汇总并在其中发现和提取潜在有用的信息及知识的技术。
3 Web数据挖掘的分类
根据 Web 数据挖掘的对象,可将 Web 数据挖掘划分为三种类型。
3.1 Web 内容挖掘(Web Content Mining)
Web内容挖掘指从Web网站的内容中发现潜在的有价值的信息和抽取知识的过程。Web网站的内容分为:文本、***像、音频、视频和动画等。因此,Web 内容挖掘又可分为文本数据挖掘(包括文本和网页文件格式)和多媒体数据挖掘(***像、音频、视频等多媒体数据),Web内容挖掘主要应用于文献检索系统、垃圾邮件的处理、信息过滤、电子资源检索等。
3.2 Web 结构挖掘(Web Structure Mining)
Web 结构挖掘是对网站的超级链接进行分析和处理,从各个超级链接中发现权威网页和有价值的网页,并根据此标准对网页和网站进行评级、分类。Web结构挖掘主要任务是查找权威网页,并识别各网页之间的相互关系,从而发现网站的结构,获取不同网页相似度和网站的关联度。Web结构挖掘主要应用于搜素引擎,对同一主题的网页进行排序。
3.3 Web 使用挖掘(Web Usage Mining)
Web 使用挖掘是通过对计算机上的日志文件,如在服务器的 Log 文件和 cookies 文件等,涉及关联规则的挖掘,从中发现频繁使用的网页模式。如购买计算机的用户过一段时间购买打印机的概率,或者买计算机同时买电脑包的概率等.通过挖掘用户的访问模式,发现日志记录中的规则,如通过经常访问的路径,对网站的结构进行改进.通过聚类把不确定形式的用户和数据进行归类,发现潜在的客户和隐含群体,针对用户进行相关的营销等策略,提供针对性的活动,从而提高服务质量。Web使用挖掘主要应用于商业营销,并为商业决策提供依据。
4 Web数据挖掘的过程
5 常用Web数据挖掘算法
Web数据挖掘有很多算法,其中 Web 结构挖掘有 PageRank 、HITS和 CLEVER等很多经典算法。其中PageRank算法是1998 年斯坦福大学的博士研究生 Sergey Brin 和Lawrence Page最早提出利用超链接信息进行Web 结构挖掘的算法。PageRank是超链接结构分析中最成功的代表之一,是评价网页权威性的一种重要工具,搜索引擎 Google 公司就是利用 PageRank 算法和其他统计因素相结合的方法,对检索出来的大量结果进行相关度的排序。下面简单介绍一下PageRank算法。
5.1 算法思想
PageRank算法的基本思想是:如果网页M 被网页N 超级链接,则N 就认为M是重要的,也就相当于N 投了M一票,如果网页M被多个网页超级链接,则是多个网页投了网页 M 的票,它们都认为网页M 是重要的,那么网页M 一定是重要的;一个网页即使没有被其他网页多次超级链接到,但在一个重要的网页中使用了指向它的超级链接,则这个网页很可能也是重要的,因为PageRank 算法把每一个网页的重要性均分并被传递到它所链接的网页中,这样被重要网页链接的网页就可以分到更多的重要性值,它被列入推荐的能力值就越大。因此,网页之间的超级链接关系在一定程度上能表明 Web 文档的重要性。
6 小结
近年来网络的迅猛发展,使网络数据成几何级数增长,Web数据挖掘技术也得到了长足发展,为网络数据的检索提供了可靠地技术保证。但是随着多媒体和流媒体在网络上的大量使用,Web数据挖掘技术在这些领域还存在一定不足。因此,Web数据挖掘技术还有很大的提升空间,相信随着研究的不断深入Web数据挖掘会有更广阔的发展前景。
参考文献:
[1] 陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社,2004.
[2] 吴淑燕,许涛.PageRank算法的原理简介[J].***书情报工作,2003(2):55-60.
[3] 宋健康,张礼平.Web结构挖掘算法探讨[J].华东理工大学学报,2003(10):537-540.
[4] 刘兵.Web 数据挖掘[M].北京:清华大学出版社,2009.
[5] 刘正涛,王建东.Web 数据空间技术研究[J].计算机工程与应用,2012(7):12-17.
数据挖掘篇5
[关键词] 数据挖掘Web挖掘路径分析电子商务
一、引言
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。
Web目前已成为信息、交互和获取的主要工具,它是一个巨大的、分布广泛的、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、***府、电子商务和其他许多信息服务。面向Web的数据挖掘就是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。
二、概述
1.数据挖掘的基本概念
数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘基于的数据库类型主要有: 关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet 信息库以及新兴的数据仓库等。
2.Web数据挖掘
Web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。由于Web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为Web挖掘所要解决的一个难点,也使得用于Web的挖掘技术不能照搬用于数据库的挖掘技术。因此,开发新的Web挖掘技术以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘的重点。
三、Web数据挖掘分类
Web 数据有三种类型, 它们分别是: HTML 标记的Web 文档数据、Web 文档内的廉洁的结构数据和用户访问数据, 相应地,Web 数据挖掘可分为三类: 内容挖掘(Web content mining) 、结构挖掘(Web structure mining) 和用户访问模式挖掘(Web usage mining)。如下***所示。
1.Web内容挖掘
Web内容挖掘是从文档内容或其描述中抽取有用信息的过程,Web内容挖掘按实现方法分为两大类:信息检索(IR)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。
IR方法主要处理非结构数据和Web中由HTML标记的半结构化数据。前者一般采用词集方法,用一组组词条来表示无结构的文本。后者主要利用传统的数据挖掘技术:如关联规则、分类算法、演绎逻辑和规则学习等。
2.Web结构挖掘
Web结构挖掘是从Web组织结构和链接关系中推导知识。挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。Web结构挖掘可以分为Web文档内部结构挖掘和文档问的超链接结构挖掘。
Web结构挖掘的基本思想是将Web 看作一个有向***,他的顶点是Web页面,页面间的超链就是***的边。然后利用***论对Web 的拓扑结构进行分析。常见的算法有HITS (Hypertext Induced Topic Search), PageRank,发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web 结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询***算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询***算法的代表。
3.Web访问挖掘
Web访问挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。
Web访问挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。一般访问模式跟踪通过分析Web日志来理解用户的访问模式和倾向;定制使用跟踪分析单个用户的偏好,根据其访问模式为每个用户定制符合其个人特色的Web站点。Web的log数据包括:senrer log,proxy serverlog,client端的cookie log等。Web使用记录挖掘通常需要经过三个阶段:数据预处理阶段(主要包括数据清洗和事物识别两个部分):模式识别阶段(采用统计法、机器学习等成熟技术.从Web使用记录中挖掘知识):模式分析阶段(采用合适的成熟的技术和工具进行模式的分析,从而辅助分析人员理解.使采用各种工具挖掘出的模式得到很好利用)。对Web使用记录挖掘采用的算法有:路径分析、关联规则和有字模式的发现、聚类分类等,为了提高精度,使用记录挖掘也用到站点结构和页面内容等信息。 转贴于
四、Web数据挖掘中的关键技术
Web数据挖掘中常用的技术有Web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。
1.路径分析技术
用路径分析技术进行Web数据挖掘时,最常用的是***,因为Web可以用一个有向***来表示,G=(V,E),V是页面的集合,E是页面之间的超连接集合,页面定义为***中的顶点,而页面之间的超连接定义为***中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构***,从***中确定最频繁的访问路径。
2.关联规则挖掘技术
关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(SESSION),从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(RIFERENCE)关系.最常用的是用APRIOR算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。
3.序列模式挖掘技术
序列模式数据挖掘就是要挖掘出交易集之间的有时间序列关系的模式.它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术更注重事务内的关系,序列模式技术则注重事务间的关系。
4.聚类分类技术
分类规则可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进行分类。在Web数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问模式得出访问某一服务器文件的用。特征。聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。最后进行模式分析,挖掘出人们可理解的知识的模式解释。
五、Web数据挖掘的应用
随着中国经济的高速发展,数据挖掘将在中国形成一个产业,目前Web数据挖掘已广泛地应用于金融业、远程通讯业、***府管理、制造业、医疗服务以及体育事业中,基于Web的数据挖掘技术已经成为一个热点,下面主要介绍Web数据挖掘的三个应用前景。
1.在电子商务中的应用
在电子商务中,运用Web挖掘技术从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息,对此进行分析加工,通过对客户进行分类和聚类,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。了解系统的访问模式以及用户的行为模式,从而做出预测性分析。同时有效地对这些Web日志进行定量分析,提示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,从而为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
2.在搜索引擎中的应用
利用Web数据挖掘技术,通过对网页内容的挖掘,可实现对网页的聚类和分类,实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果;通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效率。
3.在网站设计中的应用
在网站建设中,使用Web挖掘通过对网站内容的挖掘,可有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;分析用户的Web访问行为,可为用户提供智能化、个性化服务。比如,可根据客户的访问兴趣、访问频度、访问时间,动态地调整页面结构,迎合每个客户的浏览兴趣,使客户在浏览时感觉自己是网站的惟一客户;另外,网站还可以根据实际用户的浏览情况,挖掘用户的兴趣点,定期为用户推送相关信息,以及调整网站中网页的链接结构和内容,为用户提供个人的定制服务。
数据挖掘篇6
关键词:数据挖掘;应用;研究
一 、数据挖掘
随着数据库技术的广泛使用,以及计算技术和计算机性能与网络的迅速发展,人们面临着一个困难的问题,即如何从海量的数据中提取出有价值的信息。查询功能远不能满足人们的需要,数据挖掘应运而生。有人将数据挖掘定义为一个从数据及数据库中抽取隐含的,先前未知的并有潜在价值的信息的过程。但有人认为数据挖掘,即数据库中的知识发现,是从大数据集中快速高效地发现令人感兴趣的规则,数据挖掘是数据库研究的新领域,所挖掘的知识能够用于信息、管理、查询处理、决策支持和过程控制等等。
数据挖掘(DataMining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。随着计算机网络的发展和普遍使用,数据挖掘成为迫切需要研究的重要
课题。
数据挖掘涉及多个学科方向,主要包括:数据库、统计学和人工智能等。数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几方面进行分类。按数据库类型分类:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。按数据挖掘对象分类:文本数据挖掘、多媒体数据挖掘、Web数据挖掘。按数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差检测、预测等。按数据挖掘方法和技术分类:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类。
二、数据挖掘的主要任务
(一)数据总结
数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。
(二)分类
分类的主要功能是学会一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。
(三)关联分析
数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,,即使知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。
(四)聚类
当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。
统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
三、数据挖据的应用
数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。现在已经应用数据挖掘技术的领域都是信息量大、环境复杂、需要知识帮助进行管理和决策的领域。下面介绍一些目前比较活跃的应用方向:
(一)在金融数据分析中的应用
多数银行和金融机构都提供了丰富多样的储蓄,信用,投资,保险等服务。他们产生的金融数据通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。在具体的应用中,采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋势;通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析;利用分类和聚集的方法对用户群体进行识别和目标市场分析;使用数据可视化、链接分析、分类、聚类分析、孤立点分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为。
(二)在电力业的应用
在电力行业中,数据挖掘技术主要用于指导设备更新、业绩评估、指导电力企业的建设规划、指导电力的生产和购买、指导电力的调度等。数据挖掘在电力企业的其它方面也有巨大的用处,比如说指导项目管理、安全管理、资源管理、投资组合管理、活动分析、销售预测、收入预测、需求预测、理赔分析等。
(三)在零售业中的应用
零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费与服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾客群体,使用交互式询问技术、分类技术和预测技术,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析,以便更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满意程度;提高货品的销量比率,设计更好的货品运输与分销策略,减少商业成本;寻找描述性的模式,以便更好地进行市场分析等等。
(四)在医学上的应用
近年来,生物医学研究有了迅猛地发展,从新药的开发到癌症***的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别与研究。在人类基因研究领域具有挑战性的问题是从中找出导致各种疾病的特定基因序列模式。由于数据挖掘中已经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具。基因序列的相关分析,遗传研究中的路径分析等。近期DNA分析的研究成果已经促成了对许多疾病和残疾基因成因的发现,以及对疾病诊断、预防和***的新药物、新方法的发现。
(五)在高校和科研单位以及其他领域的应用
主要是用于海量信息数据的抽取,提供给教研和科研人员有价值的数据。比如在数字***书馆方面可以引入数据挖掘技术。同时还可以应用的电子商务等等众多领域。
参考文献
[1]邹先霞、王淑礼、魏长华.数据仓库与数据挖掘技术浅谈[J].高等函授学报(自然科学版),2000,(03).
数据挖掘篇7
1.1数据挖掘的概念
数据挖掘(DataMining[1])是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘可粗略地理解为三部分:数据准备(DataPreparation)、数据挖掘,以及结果的解释评估(InterpretationandEvaluation)。将数据挖掘技术应用到医学信息数据库中,可以发现其中的医学诊断规则和模式,从而辅助医生进行疾病诊断,实现临床决策支持的效果。
1.2数据挖掘的功能[2-6]
1.2.1关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律,就称为关联。关联可分为简单关联、时序关联、因果关联。
1.2.2分类
分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。
1.2.3聚类
数据库中的记录可被化分为一系列有意义的子集,即聚类。
1.2.4概念描述
对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述。
1.2.5预测
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
1.2.6异常检测
一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,那些不符合大多数数据对象所构成的规律的数据对象就被称为异常数据。
1.3数据挖掘的过程
数据挖掘过程[7-9]是在设计者的主动参与下进行的知识发现过程,是在积累了大量的数据后,从中识别出有效的、新颖的、潜在的、最终可以理解并加以有目的运用的知识。一般分为以下步骤:问题定义:清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。数据准备:①数据理解---将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。②数据的选择及简化—是根据用户的需要从原始数据库中抽取的一组数据。③数据的预处理--研究数据的质量,为进一步的分析做准备。数据挖掘:对所得到的经过转换的数据进行挖掘。结果分析:解释并评估结果。知识的优化:将分析所得到的知识集成到业务信息系统的组织结构中去。
2医院信息系统中数据挖掘的研究
2.1医疗数据挖掘主要分类
2.1.1从数据挖掘的处理过程、功能模型、算法研究,可以将医用数据挖掘按功能模型和挖掘对象两个方面进行如下分类[10-14]。
2.1.1.1按照功能模型分类:常用的数据挖掘技术可以分成统计分析类、知识发现类、和其他类型的数据挖掘技术三大类。①统计分析类:统计是数据搜集和描述数学的一个分支。在医疗数据挖掘中的应用如:聚类分析方法可以对DNA分析、医学影像数据自动分析、多生理参数监护数据分析、中医诊断和方剂的研究、疾病危险因素分析等。②知识发现类:知识发现是用一种间接的方式从数据中抽取信息的一种技术,而这些信息是隐含的、未知的,并且具有潜在应用价值。其中可分为:a.关联规则型知识挖掘技术,是医用数据挖掘的一种主要形式。b.神经网络型知识挖掘技术。c.遗传算法型知识挖掘技术。d.粗糙集型知识挖掘技术。如关联分析可以用来分析预测手术术后和药物***的效果,可以对某种疾病的相关发病因素进行分析以指导患者如何预防该疾病;可以对带病DNA和健康组织的DNA基因序列进行比较,以识别出两类基因的差别,从而得出致病因素;可以对患者的生理参数进行分析,分析各种生理参数之间的关系进而得出有意义预防与***方案等。e.机器学习类,归纳学习方法又可分为决策树、规则归纳等。如决策树用于前庭区与头晕有关的疾病诊断规则的提取。③其他类型:除以上陈述的数据挖掘技术外,近年来,随着各种数据处理工具、先进的数据库技术与因特网技术的迅速发展,还出现了一些其他数据挖掘技术。如文本挖掘技术、Web挖掘技术、分类分析技术、地理信息系统与空间数据挖掘技术以及分布式数据挖掘技术等。
2.1.1.2按照挖掘对象分类:按照不同的数据类型,数据挖掘研究在时间序列数据、空间数据、文本数据、多媒体数据等方面展开。①时间序列数据(TimeSeriesData)是与时间有关的一系列数据。对时间序列数据的挖掘主要是发现序列中事物出现的周期和规律,以及不同时间序列间的同步关系。如应用时间序列预测方法可以对医院药品进、销、存产生的数据进行统计分析。②序列(Sequential)模式序列模式与关联模式相仿,其目的也是为了挖掘数据之间的联系,但是序列模式分析的侧重点在于分析数据之间的前因后果。如:对医院门诊和住院患者量进行预测,可以分析某种疾病发病率的变化趋势,病死率预测等。③文本数据(TextData)就是我们一般的文字,如报刊杂志、设备维护手册、故障描述等的内容。④多媒体数据(MultimediaData)是随着多媒体技术而日益涌现的声音、***形、***像、超文本等数据。应用领域例如针对大量CT、MR***像的存储和查询问题而兴起的基于内容的***像问题。由于与传统的文本数据不同,因此必须采用新的挖掘手段来发现内容和形式间的内在联系。
2.1.2按应用层面可医院数据挖掘可分为诊疗信息挖掘和管理信息挖掘。诊疗应用如:中山大学肿瘤防治中心的研究人员通过肿瘤分子信息和数据挖掘方法可以预测早期非小细胞肺癌5年内是否死亡,这一预测的总正确率达87.2%,该技术一旦成熟,今后每个肺癌患者开刀做完手术后,可借此预测其5年存活情况,而且检测费用远比国外的基因检测便宜;上海同济大学附属医院分析糖尿病患者肌肉组织和脂肪含量与骨密度之间的联系,得出高肌肉和高脂肪含量可以降低患者髋骨骨折的危险性;第四***医大利用数据库和数据挖掘技术建立了恶性血液病数据库分析系统等。管理应用如:北京协和医院开展数据挖掘在临床医疗管理上的研究,为医院业务管理等提供支撑,并辅助领导决策;广州南方医院采用数据挖掘查询系统查询医生有否开大处方,患者是否花了不该花的医药费,且患者有望提前治愈出院。
2.2医疗数据挖掘的应用研究
2.2.1诊疗信息挖掘
诊疗信息挖掘主要目的是通过患者信息分析,提供有参考作用的医疗方案。①建立患者随访信息库。②临床疾病分析、辅助诊断:如:a.判别分析:用于心脏疾病的分类;用于阑尾炎4种不同类型的判别。b.人工神系统网络:用于颅内星形胶质细胞瘤良、恶性的影像诊断;用于肺内孤立结节的影像鉴别诊断。c.决策树:糖尿病分类规则建立;前庭区与头晕有关的疾病诊断规则的提取。
2.2.2管理信息挖掘
2.2.2.1财务管理[15,16]
①患者费用构成分析:患者费用由药品、***、检查、手术、化验等组成。利用数据挖掘技术可以分析医院、科室乃至各个病区专科内的患者费用构成,从而能有针对性地控制费用比例,探究医疗费用项目结构的合理性,使医院管理者有针对性的控制医疗费用。②同期费用对比分析:利用数据挖掘技术可以按不同的时间对各个科室或各个病区同期的各种费用进行对比分析,并以各种专业报表、视***的形式反映给医院管理者,分析变化趋势及可能原因。③成本效益分析:利用数据挖掘技术可以把各个不同系统如物资设备系统、财务系统等的数据汇总到数据仓库,然后对医院的成本效益情况进行全面分析,以便能真正把握医院的经营状况,提高医院的经济效益。例如:对医院资金运转情况作财务分析,了解医院财务状况和资金流向,分析医院运营风险,利用数据挖掘中的环基比和定基比技术分析医院财务资金的增长速度,并用曲线拟合来预测未来的资金需求量,为管理者决策和促进资源的有效配置提供依据。④医保费用构成分析:利用医院业务数据结合医保中心返还数据对医保分科的定额结算进行分析,指导医院各科室合理、高效的利用医保资源,在医保定额下提供更好的医疗服务。
2.2.2.2医疗质量管理[17-19]
①单病种分析:以ICDlO疾病分类为标准,利用数据挖掘技术对单病种进行分析,包括住院费用、住院天数、转归、病情、***方案等方面,为医疗质量管理提供依据,使医生能够及时总结经验,找出最佳***手段,既缩短了患者的就诊住院时间,减轻了患者的负担,同时提高了医疗工作效率,增加了医院经济效益。②手术室感染管理:a.手术室无菌物品及一次性用品智能备库系统;b.总结消毒灭菌工作与消毒效果的规律;c.预测术后切口感染合理安排手术并防止抗生素的滥用;d.利用HIS中知识解决消毒灭菌难点并杜绝差错;e.对参观手术人员和进修生实习生的管理;f.对手术室消毒灭菌和医院感染常规工作动态监测。③药学管理:a.备药量预测:用时间序列预测方法,对HIS中现有的药品用量信息进行计算模拟,得出药品消耗模型。b.制剂最佳批生产量预测:在分析医院制剂历年用量及近期消耗趋势下,得出该制剂效期内用量,并通过计算得出该制剂的最佳批生产量预测模型。c.***药物监测:对药物监测(TDM)历史数据分析、提取、加工、整合,更深层次挖掘(或发现)一些新知识,如开展药物群体药动学研究、药物浓度影响因素相关度分析等,为临床提供更多有价值的资料,实现给药个体化、提高药物疗效、降低药物毒副反应等。d.抗生素合理应用自动监控:对HIS中相关信息进行提取、分析、挖掘,对抗生素的用量、耐药性、联合用药、疗程、围手术期用药、预防用药、用药途径及***效果等指标实行自动监控,从而实时、有效地监测抗生素使用情况。
2.2.2.3医院经营目标管理[20]
①患者构成分析:运用数据挖掘技术中的秩和比法对医院门诊和住院患者的地区分布、性别分布、身份分布、职业分布、年龄分布等方面进行分析,从而得到不同类型患者的经济状况、需求的主要医疗服务类型等信息,了解患者差异对医院收益的影响,从而能够有针对性的采取措施来提高服务质量,增加门诊量和住院量。②患者流动情况分析:该功能可以分析门诊患者从挂号到取药再到离开医院的时间分布以及住院患者从入院到出院各个就医环节的时间分布。分析出患者的就医瓶颈,掌握影响患者诊疗效率的因素,以便能针对这些因素采取措施来帮助医院管理者进行业务流程的更新和改进,提高患者的就诊效率。
2.2.2.4经营决策管理[21]
①患者就诊时间分析:由于患者的入院季节性较强,可以通过分析每月、每季度的门诊人次、住院人次、床位周转率,通过时间维度分析,建立灰色预测模型,来预测下一时期的门诊和住院人次。根据预测信息,医院管理者可以提出有针对性的措施,确定最优的服务项目时间表,从而作出终止或开拓某种医疗服务项目的决定,实现对人力资源、医疗设施、医疗设备的适当配置。②医疗工作量影响分析:科学合理地评价医疗工作量,找出影响医疗工作量变化的主要因素,是进行医疗工作量影响分析的目的。例如:医院收治患者数是医院工作量的重要指标之一,直接影响医院的经济效益和社会效益。利用数据挖掘技术中的灰色关联分析方法对医院收治患者数的影响因素进行分析:病床周转次数、住院患者手术人次、年收治患者人数、平均开放病床数和年平均医生人数与年收治患者数关联程度等。
2.2.2.5医院资源管理
①科室综合评价分析:利用数据挖掘技术对医院各科室进行综合评价分析,选出代表性强、***性好,能反映科室工作效率、***质量、经济效益、综合管理等的多项指标进行综合评价分析,找到科室的薄弱环节,并采取相应的措施,以提高科室的综合水平。②医疗设备绩效预测分析:从HIS中的患者信息中提取病种、数量、诊疗类别等信息后与医疗设备使用信息相关联,利用数据挖掘技术对所得到的信息进行深层次的数据挖掘,构建数据挖掘模型,利用已建立的数据挖掘模型,在医疗设备购置前对其绩效进行预测,使医院领导的决策更为准确、科学;在医疗设备投入使用后,对其绩效进行准确评价,提高医疗设备的完好率和使用率。通过进一步的数据挖掘,实现对医疗设备从购置前的可行性论证到淘汰报废的全程决策支持,使医疗设备的全寿命期都纳入管理者的统筹管理之中,较好地解决医疗设备效益、代价、风险等互相制约的管理难题,充分发挥医疗设备的社会效益和经济效益。因此本研究具有明确的推广应用前景及重大应用意义。
2.3医疗数据挖掘的热点及前景
当前,数据挖掘的研究方兴未艾,其研究与开发的总体水平相当于数据库技术在20世纪70年代所处的地位,迫切需要类似于关系模式、数据挖掘系统和SQL查询语言等理论和方法的指导,才能使数据挖掘的应用得以普遍推广。其研究可能会集中到几个方面,而生物信息或基因的数据挖掘则是热点之一。数据挖掘在医院管理中的应用将会涉及医疗及管理的各个部分及层面,数据挖掘将形成系统,并通过广泛深入的数据挖掘产生医疗方案数据库,为合理诊断、完善临床路径,提供有效帮助;通过数据挖掘分析达到人力资源合理配置;通过数据挖掘为区域性卫生系统构建提供有效依据等。
数据挖掘篇8
院大数据时代的到来,极大的推动了数据挖掘技术的应用,因此,现代企业对数据挖掘技术人才的需求越来越多,《数据挖掘》课程由此得到快速发展。《数据挖掘》是一门综合了多种学科的复杂性学科,具有很强的理论性和实践性,因此对教学的要求较高。本文将围绕《数据挖掘》课程的教学内容、教学方式、考核方法以及其他内容展开论述。
关键词:
院大数据;数据挖掘;教学方式;考核方式
大数据时代的到来,给人们的生产和生活带来极大的变革,由此也引起了社会各界的广泛关注。目前,大数据已经与我们的日常生活息息相关,对各行业的发展也产生了至关重要的作用。数据挖掘技术是信息化的产物,也是现代企业生产和发展过程中需要用到的重要技术之一,因此对数据挖掘技术人才的需求越来越多,《数据挖掘》学科由此得到了快速的发展。本文将对《数据挖掘》课程的教学展开论述,希望能引起同行的共鸣。
1大数据介绍
1.1大数据含义大数据是网络技术发展到一定阶段出现的新兴名词,是指数量巨大、结构复杂、类型众多的数据构成的集合,大数据是以云计算的共享平台为基础,通过数据的交叉复用,形成新的智力资源和知识服务能力。大数据处理需要分布式计算机构架才能完成,仅依靠单台的计算机无法实现大数据处理,因此大数据处理就是借助云计算的分布式处理、分布式数据库、虚拟存储技术对大量数据进行整合处理的过程。
1.2大数据特征大数据具有数量大(Volume)、类型多(Variety)、价值高(Value)和速度快(Velocity)的特点,简称为“4V”。大数据处理的数据规模不断扩大,已经由GB、TB级扩展到EB或ZB级,这是普通计算机硬盘容量所无法达到的;大数据对象包括结构化数据、半结构化数据以及非结构化数据,存储对象由传统的文本内容扩展到了音频数据、视频数据、搜索引擎中关键词等,其数据的类型繁多复杂;数据之间的关联性不断加强,已经对社会经济、系统、信息学、网络学以及心理学等多个领域产生了深远影响;大数据的产生形式以数据流为主,能瞬时产生,具有很强的动态性和时效性。
2数据挖掘曳课程教学探讨
2.1教学内容《数据挖掘》是一门综合性的学科,学科内涉及的主要内容有数据库技术、统计学、信息检索、计算机技术以及可视化技术等,需要不同的学科交叉学习,因此,该课程具有很高的理论性和实践性。在教学过程中,不仅要注重基础理论知识的培养,还要加强对学生创新能力以及问题解决能力的培养。课程的知识结构可按照表1所示组建。数据挖掘前需要进行预处理,然后才能存入数据仓库,再利用相关的挖掘工具和算法,按照挖掘流程进行数据挖掘,最后将挖掘结果以可视化的形式展示出来。在整个教学过程中,教学重点是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和专用挖掘工具两类,而挖掘算法则包括分类法、关联分析法、聚类法等10种方法。学生不仅要了解各类算法的相关概念,还要能利用算法对实例进行分析。
2.2《数据挖掘》课程教学探索
2.2.1培养数据意识《数据挖掘》是以数据为驱动的理论分析和应用课程,具有抽象性和具体性,抽象性是指数据挖掘过程中的理论、技术和方法具有很强的抽象性,学生在有限的时间内无法理解和消化;具体性是指研究内容比较客观,具有一定的解释性和理解性。针对以上特点,教师在组织教学时,应先培养学生的学习兴趣,使学生产生一定的数据意识。具体安排时,可先安排2-4个学时讲解数据及其主要应用,让学生对大数据的产生、影响和应用等内容做初步了解,使学生对该课程的学习目的和实际意义产生客观认识。
2.2.2深化基础,加强理论体系大数据特征对数据分析技术提出了更高的要求,现有的数据分析技术难以满足实际需求,这就说明了数据挖掘技术的应用和发展将面临更严峻的考验。数据挖掘技术涉及的知识内容较多,在大学课程体系中难以全部开设,给学生的学习带来很大阻碍。为解决以上问题,开封大学采取措施:将《数据挖掘》课程授课对象设定为高年级学生,经过两年或三年基础课程的学习,学生已经具备了一定的理论基础,在学习《数据挖掘》课程中,就可节约大量时间学习课程的核心内容。
2.2.3教学方式多样化理论来源于实践,也可以指导实践;实践是检验理论的唯一途径。《数据挖掘》具有很强的抽象性,学生无法在有限的学习时间内对众多概念产生足够清晰的认识,只能借助实践教学使学生明白课程内容的原理及其实用价值。在讲解基本概念、原理或者算法时,可采取案例教学法、任务驱动教学法、项目教学法等,将理论与实践相结合,提高学生的学习兴趣和操作能力。因此教师应在教学过程中注意教学方法的选择和使用,充分体现出学生的主体地位和教师的主导作用,通过一系列理实一体化教学方式,提高教学效果。
2.3改革教学考核方式《数据挖掘》是一门融合多种学科的实践课程,因此,课程的评价方式也应做出一定的改进。在考核时,应包括理论基础和实践部分考核,除考查学生对基本概念、挖掘流程等内容的掌握情况外,还应对学生的实践操作技能进行考核,采用多种方式对学生的学习进行评价,提高考核的有效性和公平性。
3结语
随着信息化技术的不断发展,现代企业生产运行对信息化管理系统的依赖性越来越高,现代社会已经进入了大数据时代,在这种时代背景下,数据挖掘技术得到了社会各界的广泛重视,企业对该专业的人才需求也越来越多,这就为《数据挖掘》课程的发展提供了有利条件。高校及任课教师应认清形势,积极调整教学理念,通过优化课程内容,改进教学方式和考核方式,提高课程的教学效果,以培养高专业素养和高操作技能的复合型人才。
参考文献
[1]范祺,朱昌杰,肖建于,沈龙凤,李敏.以项目驱动的数据挖掘课程教学改革的研究[J].科技信息,2012(11):9-10.
[2]周森鑫,盛鹏飞,王夫芹.数据挖掘课程案例教学研究[J].计算机技术与发展,2012(11):183-186.
数据挖掘篇9
【关键词】 数据挖掘 大数据 分析方法 应用领域
一、数据挖掘
数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工智能研究领域。从技术角度看,数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。
从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。
二、数据挖掘的基本分析方法
分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律。通过不同的分析方法,将解决不同类型的问题,在现实中针对不同的分析目标,找出相对应的方法。
目前常用的分析方法主要有聚类分析、分类和预测、关联分析等。
2.1聚类分析
聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。它是一种无先前知识,无监督的学习过程,从数据对象中找出有意义的数据,然后将其划分在一个未知的类。这不同于分类,因为它无法获知对象的属性。“物以类聚,人以群分”,通过聚类来分析事物之间类聚的潜在规律。聚类分析广泛运用于心理学、统计学、医学、生物学、市场销售、数据识别、机器智能学习等领域。
聚类分析根据隶属度的取值范围可分为硬聚类和模糊聚类两种方法。硬聚类就是将对象划分到距离最近聚类的类,非此即彼,也就是说属于一类,就必然不属于另一类。模糊聚类就是根据隶属度的取值范围的大小差异来划分类。一个样本可能属于多个类。常见的聚类算法主要有密度聚类算法、层次聚类算法、划分聚类算法、网格聚类算法、模型聚类算法等。
2.2分类和预测
分类和数值预测是问题预测的两种主要类型。分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型。分类是数据挖掘的重要基础,它是对已知的训练数据集表现出来的特性,获得每个类别的描述或属性来构造相应的分类器或者分类。分类是一种有监督的学习过程,它是根据训练数据集发现准确描述来划分类别。常见的分类算法主要有决策树、粗糙集、贝叶斯、遗传算法、神经网路等。预测就是根据分类和回归来预测将来的规律。常见的预测方法主要有局势外推法、时间序列法和回归分析法。
2.3关联分析
在自然界,事物之间存在着千丝万缕的联系,当某一事件发生时,可能会带动其它事件的发生。关联分析就是利用事物之间存在的依赖或关联知识来发现事物之间存在的规律性,然后通过这种规律性进行预测。如经典实例购物篮分析,就是通过分析顾客购物篮中物品的管理规律,来分析顾客的购物心理和习惯,然后根据这种规律来帮助营销人员制定营销策略。
三、大数据时代的数据挖掘的应用领域
3.1市场营销领域
市场营销是数据挖掘技术应用最早和最多的领域。通过分析和挖掘用户的消费习惯和消费特点,来提高商品的销售业绩。目前,数据挖掘在市场营销方面已经不仅仅限于超市购物等方面,已经普及到各个金融领域,如保险、电子商务、银行、电信零售等行业。利用数据挖掘技术来分析顾客的消费行为,为本行业带来潜在的客户和效益。
3.2科学研究
在科学研究中,经常需要分析各种大量的实验和观测数据,并找出相关的规律和知识。这些数据分析和挖掘都需要一定的算法,利用数据挖掘技术能科学的找出数据之间的规律以及找出我们未发现的知识。例如,对外空星体的探索、对DNA数据的分析等等。
在制造业、电信、教育领域,数据挖掘也发挥着巨大的作用,对过去***策的评估和新***策的制定都有很大的帮助。
伴随着大数据的数据管理,检索技术研究的进步,数据挖掘技术将迎来巨大的发展机遇,数据挖掘技术的应用也将更加广泛,数据挖掘的工具也将更加强大.
参 考 文 献
[1]胡天状.数据挖掘技术在教育决策支持系统中的应用[D].杭州:浙江师范大学,2002.
[2]吴文绍.甘肃省教育管理信息决策支持系统[D].兰州:兰州理工大学,2006.
[3]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学,2012.
数据挖掘篇10
关键词:商业银行 数据分析 经营效益分析
当前,无论是商业、经济***治以及其他领域,都面临着“大数据”时代,所谓“大数据”,顾名思义就是大量的信息数据。对数据的挖掘被称为“数据财富”,联合国在2012年了大数据***务白皮书,指出大数据对于联合国和各国***府来说是一个历史性的机遇;今年3月22日,奥巴马***府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马***府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。可见,数据分析无论在***治领域还是商业领域都十分重要,而且应用广泛。
1 数据分析应用的成功案例
大数据时代的总统选举。在2012年的美国总统大选过程中,奥巴马团队聘任了大量的高级数据分析师,用数据去衡量竞选活动中的每一件事情,比如:充分利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据,分析选民对总统竞选人的喜好,建模预测选民捐钱方式;分析“摇摆州”民调数据,预测选民投票立场变化趋势等等。依据数据分析结果,不断更新宣传策略,包括各类广告的投放时间,这种方式对奥巴马总统竞选的成功起了至关重要的作用,让他的各类花费更加精确有效。
大数据时代的商业经营。数据分析在商业领域应用更是广泛,这里有一个有趣的小案例。在美国沃尔玛超市,尿布与啤酒这两个风马牛不相及产品通常摆在一起出售,而且销售量还相当不错。原来啊,是沃尔玛利用庞大的数据系统,对其顾客的购物行为进行购物篮分析时发现,一些年轻的父亲下班后经常到超市买婴儿尿布,他们中40%的人同时也为自己买一些啤酒。因此,超市将两者摆在一起出售后,取得了销量倍增的效果。
2 数据分析对商业银行增强价值创造力的重要性
数据分析是增强商业银行价值创造力的重要手段,实施有效的数据分析是使数据资产增值的最佳而唯一的方式。在信息化高速发展的背景下,各银行积累了海量的数据,不少银行也已经于近几年开始着手建立用于业务经营分析的数据仓库,将数据作为银行战略资产。如何利用这一商业银行重要资产来开展有效的数据分析和挖掘,促进管理并提升企业价值,是目前大多数商业银行所面临的重要挑战之一。如何评估数据战略性资产价值,已成为各家银行能否抢占先机的重要因素。目前,商业银行均在积极探讨经营效益分析。
3 商业银行经营效益分析思路及方法
总体思路:经营效益是组织或个人为了达到某种目标而采取的各种行为的结果,包括效率性和效果性二个基本内容。研究经营效益,最为重要的是对经营效益影响因素的分析。首先找到能衡量经营效益的核心指标,快迅而直接了解经营机构经营效益状况,再根据核心指标的形成要素,通过商业银行同业行际比较,逐层深入细致地分析经营效益的影响因素。联系商业银行以经济增加值和经济资本回报率为核心的绩效考核体系的实际,选取经济增加值、经济资本回报率为经营效益的核心评价指标,分别衡量经营效益的效果和效率,以经济增加值的形成过程为主线,采用价值树的分析方法,建立经营效益评价指标体系,从外部环境和内部因素两个方面对影响经营效益的关键业绩指标和关键成功因素进行多层次、多维度行际比较和趋势分析。
3.1 经营效益基本情况 经营效果分析。确定把经济增加值作为经营效果的核心指标,那么如何快速地通过分析该指标,较为直观地判定经营机构经营效果的优劣呢?是不是哪个机构的经济增加值越大其经营效果就越好?显然不是!经济增加值的大小和外部经济环境有关,和其市场竞争力有关,和其业务规模有关,和其经营效益有关。以通过这些相关分析后,对各经营机构的经营效果有一个较为直观的印象和判断。
经营效率分析。除了经济环境、业务规模及发展速度、市场竞争力影响经营效果,另外一个重要的内部因素就是经营效率,在规模、经济总量、市场地位都既定的情况下,生产效率的高低决定了价值创造的大小。选取经济资本回报率作为经营效率指标,经济资本回报率=账面净利润÷经济资本占用额×100%,衡量消耗单位资本能够带来的预期收益。它是优化资源配置,支持风险定价,评估价值创造能力的手段和工具,经济资本回报率越大,说明对资本使用效率越高,价值创造能力越强。在这里对商业银行经济资本回报率进行行际比较、趋势分析,并关注净利润、经济资本两者增长率的匹配度。
3.2 影响因素分析 在规模、市场地位等因素即定的情况下,重点从内部经营寻找原因,沿着经济增加值形成的过程来分析成因。经济增加值主要影响因素有净利息收入、中间业务收入、经营费用、减值损失支出、资本占用等,相应可确定主要因素分析指标为净利息收益率、中间业务产出率、成本收入比、拨备利润比①、信贷资产平均经济资本占用率②。可以雷达***的形式直观反映不同银行经营效益的主要影响因素,上述5个指标共同影响了一个行的效益,分别形成雷达***的五个角,各个角越往外伸张,表明该指标代表的影响因素就越好,越有竞争优势,五个角共同往外伸,其形成的面积越大,伸张的越均匀,则经营效率越好,***的面积排名和经济资本回报率大小排名是一致的。如下***:
至此,通过分析的方式,已了解商业银行不同机构经营效果、效率和主要影响因素,下面,可以就各主要影响因纱的形成过程为主线,进行逐层深入地分析各因素经营效率的因素。如***:
如,在分析财务资源配置效率时,可从行业、产品、客户等维度分行经营资本配置合理性及产出能力情况。以不同客户层对公客户财务资源配置效果分析为例:
【分析结论】某分行大型以上、中型以下客户对主营业务收入的贡献各占半壁江山,大型以上客户投入产出效率不佳,中型以下客户财务资源配置效果优势明显。另外,其所辖某二级分行中小型、小型客户财务资源配置效率低下。
【分析思路】选取各会计期间、经营机构对公客户的成本收入比、主营业务收入占比、存贷款收益率、主营业务收入和经营费用增速差③作为主要分析指标。
①比较各规模层对公客户的成本收入比,对不同层级客户的财务资源配置效率有一个初步的判断。②对比各规模层对公客户主营业务收入占比,判断其对整体收入的贡献程度。③引入存贷款收益率概念,通过计算各规模层客户存贷款产生的收入和配置的费用之差,判断其收益水平。④对比各规模层客户主营业务收入增长率和经营费用增长率,并计算二者之差,判断其发展趋势。
综合上述指标的分析结果,得出经营机构对各规模层对公客户财务资源配置效果的总体结论。
【分析过程】按照分析思路形成小而多组***。
据下***,从四个方面分析不同规模层客户的财务资源配置效果,并得到初步结论:
一是比较各规模层客户的成本收入比情况,呈现从特大型到微小型成本收入比依次降低的状况,特大型客户成本收入比22.59%,为各规模层最差,大型客户成本收入比仅低于特大型客户,大型以上客户成本收入比达22%;而中型以下客户成本收入比仅19%,其中微小型客户成本收入比最优。二是分析主营业务收入占比情况,特大型、大型客户合计占比51.18%,中型、中小型、小型、微小型客户合计占比46.75%,可见,大型以上客户和中型以下客户对主营业务收入贡献度相近。三是分析存贷款收益率,呈现中间高、两头低的状态,即特大型、大型和微小型客户贷款收益率偏低,中型、中小型和小型企业客户贷款收益率高,中小型客户存贷款收益率2.73%,居各规模层之首。四是分析主营业务收入、经营费用增速差发现,特大型、大型客户上述两指标均为负值,其经营费用增长率高于主营业务收入增长率,投入产出不够匹配。而中型、中小型和微小型企业主营业务收入增长率远高于其经营费用增长率,其投入产出效果远好于大型、特大型客户。
总体来看,2011年,某商业银行中型以下客户主营业务收入占比47%,经济增加值占比48%,经营费用占比44%,成本收入比19%。大型以上客户成本收入比22%,特大型客户财务资源配置效率低下,成本收入比居各规模层之首,主营业务收入贡献度仅高于微小型客户,且逐年下降。中型以下客户财务资源配置效果优势明显,成本收入比优于大型以上客户,中小型客户财务资源产出效率较高,主营业务收入增长迅速,微小型客户主营业务收入增速远高于经营费用增速,成本收入比最优,但受限于业务规模,其主营业务收入贡献度较低。但是,其所辖某二级分行中小型、小型客户财务资源配置效率低下。
注释:
①拨备利润比=减值损失支出/拨备前利润
②信贷资产平均经济资本占用率=信贷类经济资本/信贷余额
③成本收入比=经营费用/主营业务收入;
存贷款收益率=主营业务收入产出率-存贷款费用率=主营业务收入/(存款日均余额+贷款日均余额)-经营费用/(存款日均余额+贷款日均余额);
主营业务收入和经营费用增速差=主营业务收入增长率-经营费用增长率。
参考文献:
[1]陆珩瑱.数据挖掘技术在证券业中的应用[J].价值工程,2006(02).