沃尔玛的“啤酒和尿布”的经典案例不少媒体都曾报道过:就是沃尔玛通过建立的数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。结果发现,每逢周末,位于某地区的沃尔玛连锁超市啤酒和尿布的销量很大。进一步调查表明,在美国有孩子的家庭中,太太经常嘱咐他们的丈夫下班以后要为孩子买尿布,而丈夫们在买完尿布以后又顺手带回了自己爱喝的啤酒,因此啤酒和尿布一起购买的机会是最多的。之后该店打破常规,将啤酒和尿布的货架放在了一起,使得啤酒和尿布的销量进一步增长。
“买啤酒时也会买尿布”,这一规律的抽象表示就成了数据挖掘里的关联分析法,我们可以简单地表示成如下形式:
If someone buys diaper then he buys bear.
即:
diaper=>bear
这是一条关联规则,当然在实际应用中,这里面有“他有多大可能性同时买啤酒和尿布”和“他在买尿布后有多大可能性买啤酒”等问题需要考虑。
从海量的原始数据中,找出隐含在其中的、我们事先不知道的、但又是潜在的有意义的知识和信息,从而利用这些知识来指导我们的活动,这便是数据挖掘的初衷。数据挖掘技术是数据库研究中最活跃的分支之一,它综合利用了人工智能、数据库、机器学习等多个领域的理论和技术。目前,数据挖掘已经被广泛地运用于各种金融分析、市场分析等多个领域。比如在零售商日常的经营中,每天又会产生大量看似庞杂的信息,而在这些信息背后蕴藏了丰富的经营技巧和市场规律。通过数据挖掘的手段找出这些规律和知识,来直接指导我们的经营活动,给顾客提供最直接最周到的服务,以及通过分析顾客消费和忠诚度的变化,据此对价格和商品的花样进行调整,一边留住老客户,吸引新客户。
近年来传统的数据挖掘的思想在Web知识发现中也有了广泛的应用,即通过分析Web使用者访问网页的路径和在不同页面停留时间等原始资料的分析,提取出我们需要的模式,来规划网站的拓扑结构,给不同的用户群定制个性化的服务,这给电子商务的发展增加了不可低估的活力。
转载请注明出处学文网 » 从“尿布和啤酒”到数据挖掘