搞清非结构化数据的意义无关技术问题,而是一种业务挑战。
近年来人们对“大数据”的兴趣日增,这背后的原因正是非结构化数据的大幅飙升。凯捷与经济学人智库最近进行的一项研究表明,58%的企业高管在做出商业决策时都依赖于非结构化数据分析。对于公司而言,这些难以处理的新型海量信息意味着巨大的挑战,但同时也是绝佳的机遇。分析的数据越多,发掘重要洞察信息的能力就越强。
技术供应商高谈阔论非结构化数据中的隐藏价值。他们说,搞清非结构化数据的意义是数据分析的最后一篇战场。找到一种方式来获取所有对话、PowerPoint演示文稿和微博中的信息,公司就能从“大数据”中收获真正的财富。但是这些供应商的出发点本身存在错误。商业型项目不应当从审视研究数据开始,首要任务是确定您试***回答的问题。我的理想顾客是谁?产品为什么滞销?这些都是业务问题。然而技术供应商试***回答的却是技术问题:我们如何挖掘数据?如何在信息的大海中捞到那根“针”?
搞清非结构化数据的意义仅在一定程度上与搜索有关。真正的价值来自将非结构化数据同其他地方的更具结构性的信息联系起来。如何做到?考虑公司会如何提炼所有员工的信息。企业内部成百上千万的信息交流中蕴含着大量的宝贵见解,但是如何聚焦于最相关的信息并将其转化为真正的洞察呢?
第一步是弄清要解决的问题。例如这有可能是确定销售流程的效率。如何用更少的资源做成一笔买卖?挖掘来自电子邮件、员工博客,乃至语音呼叫的海量非结构化数据之前,必须确定与其相关的重要结构化元素,目标是捕捉那些有助于解决问题的特定信息交流。但为了确定谁同谁谈论了什么话题,首先要从准确地标记“交谈发起者”、“交谈内容”和“交谈对象”开始。接下来必须了解自己要分析的话题。内容必须进行结构化处理,否则根本难以理解。最后客户是谁?是否使用了正确的术语来捕捉所有与该客户相关的信息?必须确保捕捉到每项信息关联的部门、缩写和控股公司。RBS还是NatWest?BSkyB、Sky还是News Corp?
然后就可以将这一完整结构化框架与从选定组别的许多不同对话中梳理到的非结构化信息相结合。可能的分析结果:销售额最大的公司也是员工谈论最多的公司,这说明贵公司内部沟通良好。但也有可能出现以下情况:人们谈论最多的客户并未产生与之相当的收入,这说明销售流程存在严重不足。
当前许多供应商将非结构化数据当作一个***的技术挑战来处理。但只有事先确定了重要的关系结构信息,才有可能搞清楚非结构化数据的意义。如果模型未能发现基本的结构化信息,无法证明各种不同的登录信息和ID属于同一个人,那么您可能意识不到上述事实。如果数据混同于噪音,那就无法做出准确的决策。
如何利用非结构化数据来设计超市的最佳布局?零售公司、主题公园,甚至警察局会使用人群分析来预测人群在某些情况下会如何反应。针对超市,可以分析消费者的视频来记录人们逛商店的路线、逗留位置、将商品放入购物篮的地点,以及他们在面对拥挤人群或死胡同时的反应。然后将这种非结构化信息与结构化数据(例如某些产品在货架上的摆放位置或收据)相结合,以产生关于消费者行为的完整数据分析***景。
一旦有了这种信息,就可以基于多种不同情形预测未来的销售情况。如果山羊奶酪换一下位置,人们是否会买更多的葡萄酒?如果将价格较低的啤酒移动到离过道较远的地方,人们是否会买更多的优质啤酒?如果在糕饼区附近人为制造一段狭窄的过道,超市会不会卖出更多的面包?组合运用结构化和非结构化数据来寻找此类问题的答案,是成功进行预测分析的基础。但只有利用全部可用数据构建一幅完整的***景,才有可能做出精确预测。