大数据背景下受众研究面临的挑战及对策

摘要:传统的受众研究在测量受众媒介使用行为时主要针对随机样本或固定样本进行,样本量有限,调查方式以入户面访、电话访问、日记卡回收等人工测量为主。进入21世纪,随着互联网、尤其是移动互联网技术的迅猛发展,各类智能化手持电子设备逐渐推广普及,智能设备的电子访问记录成为受众研究测量数据的主要来源。本文提出大数据时代受众研究面临的三个挑战,并对应对方法进行了初步探索。

关键词:大数据 受众研究 数据挖掘

受众研究在传播学领域占有突出位置。一方面,它连接着媒介功能和效果研究,几乎每一项重要的效果研究都离不开受众研究;另一方面,它是媒介产业运营中不可或缺的一个环节,是连接传媒产业和广告产业的纽带。进入新世纪以来,面对加速演变的媒介技术,受众研究从未止步。与此同时,一个源自计算机界的技术概念——“大数据”,近年来旋风般“横扫”***治经济社会诸多领域,其能量不容小觑。大数据能给受众研究带来什么?大数据时代受众研究将面临哪些挑战?本文将对这些问题进行深入研究,并探讨应对之策。

一、从小样本到大数据:受众测量技术的升级换代

传统的受众研究在捕捉受众媒介接触、使用行为时主要针对随机样本或固定样本(定期更新)进行,调查方式以入户面访、电话访问、日记卡回收等人工测量为主。即使是20世纪80年代兴起的各种主动、被动测量仪,也是以少数样本为测量对象。进入21世纪,随着互联网、尤其是移动互联网技术的迅猛发展,各类智能化手持电子设备逐渐推广普及,报纸、杂志、广播、电视等传统媒介纷纷通过互联网平台拓展原有传播渠道,受众媒介接触和使用行为日趋多元化、复合化。新兴电子媒体在测量受众媒介使用行为时具有突出优势。作为交互媒体,互联网对于用户的访问都会通过log日志的形式进行记录,而且是以一种旁观者的身份、不必惊动受众的方式进行观察记录。针对智能设备的电子访问记录成为受众研究不断增长的测量数据的主要来源。这些数据符合大数据的主要特征:第一,海量数据。传统受众调查1000个样本就算较大规模,而现在电子设备的访问记录几乎是以普查的方式在进行,伴随移动互联设备和软件的飞速发展,某些热门端点用户访问数量动辄百万、千万,甚至过亿,而且数据量随时间不断增长。第二,高维数据。数据集的维度是数据集合中的对象具有的属性数目,简言之,就是记录单个受众时可能涉及的属性有多少。传统受众调查由于访问成本所限,面向受测样本的问题数量往往精简到最小程度,特别是电话访问时。而现在电子设备对于受众的媒介使用行为可以近乎全方位、无遗漏地详细记录下来;不仅如此,由于苹果、亚马逊等大型公司构建的网上商店系统,受众往往实名注册,大量个人信息与受众媒介使用行为可以进行关联分析,这在过去是难以想象的。第三,数据记录的非目的性。传统受众研究在调查之前有明确的理论框架或商业用途,根据这些既定目标设计相应的需要调查的受众属性。而电子设备访问记录事无巨细地记录受众各种信息和媒介使用行为,并非出于事先规划好的调查目标。

二、大数据背景下受众研究面临的挑战

1.受众媒介使用行为的海量数据,给数据分析带来困难。由于电子设备在记录受众媒介使用行为时并不进行抽样,而是全部纳入测量范围,加之日积月累,因此记录的数据量不再是传统受众研究的兆字节,而是以指数级增长,达到了惊人的吉字节、太字节。这样庞大的数据甚至不能放进计算机内存中运算,而用非内存算法可能相当耗时。而数据更新越来越快,时效性也越来越强,等计算机对海量数据分析出结果,有可能已失去应用价值,难以帮助媒介经营者及时决策。

2.受众媒介使用行为的高维数据,传统统计方法难以应对。传统受众调查常见的是由少量受众属性集合而成的数据,为这些低维数据开发传统的数据分析技术和软件通常不能很好地处理高维数据。现在,研究者往往要面对成百上千的受众属性,中、高维度数据与低维度数据有质的不同,传统统计方法和软件失去用武之地,这就使计算机在分析高维数据时会陷入所谓的维灾难。

3.受众测量数据量非常大,而其中有价值的信息却很少。传统受众调查与统计分析是在有明确研究假设条件或媒介运营指标指导下,精心设计问题收集相应数据,以达到检验假设真假或判断媒介运营成败的目的。因此,数据分析的方法基本上在数据收集之前已确定。现在,研究者事先并不知道在海量多维数据中隐含着哪些有用的信息,就像从矿石中淘金一样,需要应用各种算法探索和揭示隐藏的、未知的规律性,这无疑加大了数据挖掘的难度。

三、受众研究在处理“大数据”时的对策

1.利用抽样技术有效压缩受众测量数据量。抽样是一种选择数据对象子集进行分析的常用方法。在调查研究中,抽样常常用于缩小调查对象或不宜做普查的情形。传统受众研究正是建立在对受众进行抽样调查的基础上。在大数据时代的数据挖掘中,抽样也非常有用。与传统受众调查不同的是,大数据背景下数据挖掘的抽样对象不是受众,而是海量数据集。当直接处理所有海量数据的费用太高、太费时间时,只好退而求其次对庞大数据集合进行抽样。在合理选择抽样方案的基础上,使用抽样的算法可以有效压缩数据量。除了传统的抽样方法,面对大数据,研究者还可以采用渐进式抽样。这种抽样方法的优点是可以不用事先确定样本规模(事先往往不知道合适的样本规模),先从一个小样本开始,然后逐渐增加样本容量,当预测模型准确率的增加趋于稳定时,就可以停止增加样本容量。

2.利用维归约技术降低受众的数据维度。电子设备自动记录的受众数据集可能包含大量属性。数据预处理的一个重要方面就是减少维度,称为维归约。相比高维数据,经过维归约处理后的低维数据在后续分析中具有明显优势:第一,目前开发的数据挖掘算法通常对低维数据的计算结果更具实际意义;第二,基于低维数据建立的数据模型可视化效果更好,更易于非专业人士理解。

维归约技术常常通过创建新属性,将一些旧属性合并在一起来降低数集的维度。

3.充分利用受众研究的背景知识增加数据挖掘的预判性。传统受众研究方法较为成熟,研究者在计算机辅助下,可以完成调查设计、数据分析、结果诠释等一系列受众研究环节。但是,在大数据时代,面对复杂的海量数据,需要有不同专长的人员密切配合来完成数据挖掘任务。首先,由对传播理论感兴趣或有深厚媒介运营背景的专门人才,尽可能清晰地定义出数据挖掘的问题。尽管没有人能事先预测数据挖掘的最后结构,但是从概率论角度看,经过传媒专业人士界定数据挖掘的问题之后,在实践中挖掘出有价值信息的几率更高,而盲目地运用各种数据挖掘算法去处理数据,得到的数据结构往往没有很大现实意义。接着,由精通数据库技术和统计分析技术的数据分析人才,将受众研究目标转换成数据挖掘的具体任务,并为每步操作选择合适的技术。由此可见,在大数据预处理和数据挖掘算法尚存“门槛”之际,受众研究将是一个多学科专家交互协作的知识探索过程。

面对“大数据”热,受众研究有可能陷入过分拟合的数据“陷阱”之中,这并非危言耸听。这是因为大数据条件下,受众数据的记录项目并非在事先规划严密的框架下设定,从而导致海量数据中存在一些不相关的变量,如果这时完全遵循计算机对数据建立的模型,很可能该模型本身对于所有数据的拟合度非常好,但是这一模型的实际含义与现实不符合,这就要求研究者对计算机自动生成的数据模型保持谨慎态度。

参考文献

[1]丹尼斯·麦奎尔著.刘燕南,李颖,杨振荣译.受众分析[M].北京:中国人民大学出版社,2006.

[2]谢邦昌等.从数据采集到数据挖掘[M].北京:中国统计出版社,2009.

[3]张余.裂变与交互——数字电视时代的受众研究[M].北京:中国传媒大学出版社,2011.

作者单位 武汉大学新闻与传播学院

大数据背景下受众研究面临的挑战及对策

转载请注明出处学文网 » 大数据背景下受众研究面临的挑战及对策

学习

活到老 学到老

阅读(31)

本文为您介绍活到老 学到老,内容包括活到老学到老出自哪里,活到老学到老散文诗。职业目标:治病救人

学习

“猎狐者”蒙哥马利

阅读(18)

本文为您介绍“猎狐者”蒙哥马利,内容包括蒙哥马利是沙漠之鼠还是猎狐者,蒙哥马利为什么叫猎狐者。说实话,我不大喜欢他。我不喜欢他那副时时处处以自我为中心、自我膨胀、自我表现,恨不能一

学习

浅谈《穆勒咖啡馆》以及皮娜.鲍什

阅读(28)

本文为您介绍浅谈《穆勒咖啡馆》以及皮娜.鲍什,内容包括皮娜鲍什穆勒咖啡屋,皮娜鲍什穆勒咖啡屋解析。摘要:这篇文章是关于德国现代舞舞蹈大师皮娜·鲍什的现代舞作品《穆勒咖啡馆》的影评,从舞蹈动作,舞台布局和社会学的角度,结合现代舞语

学习

改变世界的头发美学 时尚剪刀手沙宣

阅读(36)

本文为您介绍改变世界的头发美学 时尚剪刀手沙宣,内容包括沙宣经典36款发型课件,经典的沙宣原版bob发型修剪。2012年5月10日,被誉为“现型之父”的维达·沙宣因血癌在洛杉矶病逝,享年84岁。一提到沙宣,国人大多会联想到同名品牌的洗发水。1

学习

非“橙”勿扰

阅读(33)

本文为您介绍非“橙”勿扰,内容包括非橙勿扰游戏,非诚勿扰免费阅读。原产于土耳其的郁金香,却在荷兰闻名世界,同时也成为代表荷兰的象征。从16世纪开始,很难不把郁金香与荷兰这个低地国联想在一起。郁金香是荷兰的国花,荷兰人也非常爱郁金香

学习

梨树栽培技术

阅读(24)

本文为您介绍梨树栽培技术,内容包括梨树盆栽栽培方法,梨树栽培教程。一种植

学习

《黑暗阴影》讲了什么?

阅读(33)

本文为您介绍《黑暗阴影》讲了什么?,内容包括黑暗阴影讲的什么意思,黑暗阴影梗概。尽管德普不愿承认《黑暗阴影》的剧集是一部肥皂剧,但美国ABC电视台当初给该剧集的定位便是“满足有闲阶层的有闲时间需求”——这就是肥皂剧的作用。《黑

学习

“太阳神之子”与“太阳之花”

阅读(21)

本文为您介绍“太阳神之子”与“太阳之花”,内容包括太阳之子印度电影免费看,印度太阳之子全集国语版。摘要:作者从生平、爱情、作品呈现的精神、人生最终的选择方式等方面比较不同国度不同种类的作品,以期更全面地解读海子与凡·高的作品

学习

文玩是什么?

阅读(28)

本文为您介绍文玩是什么?,内容包括文玩这个词怎么来的,文玩的含义有哪些。在不接触文玩的人眼中,或许文玩是一种丧志的东西,是石头、是木头、是玻璃珠子。对于我们喜爱文玩的人来说,文玩就像是一位文玩爱好者所说:“是自己通过把玩一样可以

学习

经典解释的转向:朱熹的《诗集传》

阅读(18)

本文为您介绍经典解释的转向:朱熹的《诗集传》,内容包括朱熹诗集传序全文及翻译,朱熹诗词全集及译文。司马迁有言,“《诗》三百篇,大抵圣贤发愤之所为作也”(《史记太史公自序》)。倘若如此,《诗》必定立意深远、极高明而道中庸。可是。

学习

我家的三个“疯丫头”作文600字

阅读(30)

本文为您介绍我家的三个“疯丫头”作文600字,内容包括我们家的疯丫头作文,六个丫头的作文。我家的三个“疯丫头”李卓谕(深圳育才一小三年6班指导老师:李新)我家有三个疯丫头,他们是我们家当之无愧的疯丫头。这三个疯丫头是谁呢?我会从两个

学习

黄手帕

阅读(24)

本文为您介绍黄手帕,内容包括黄手帕故事原文,黄手帕的故事。八年级9班祝洁华

学习

风廓线雷达的测风原理及数据应用

阅读(289)

本文为您介绍风廓线雷达的测风原理及数据应用,内容包括激光雷达测风工作原理,风廓线雷达的基本工作方式。摘要:风廓线雷达作为新一代的高空大气探测系统,可实现对大气风场的遥感探测。到2020年,我国计划布设120部左右对流层风廓线雷达,并纳

学习

数据交换技术

阅读(21)

本文为您介绍数据交换技术,内容包括数据交换技术一览表,数据交换技术教程。一、教材分析

学习

梁启超《中国历史研究法》的史学观

阅读(34)

本文为您介绍梁启超《中国历史研究法》的史学观,内容包括梁启超历史研究法,梁启超的史学观。内容摘要:梁启超的《中国历史研究法》在中国近现代历史上产生了积极的影响,尤其是其变传统被动为主动的史学观;注重史家修养的史学观;注重通史的史

学习

城市品牌形象设计研究

阅读(23)

本文为您介绍城市品牌形象设计研究,内容包括城市品牌形象设计论文怎么写,体育运动品牌形象设计。摘要:

学习

科学管理研究

阅读(19)

本文为您介绍科学管理研究,内容包括科学管理研究杂志,科学管理原理全文。中小企业合作技术创新模式李根

学习

课题中期阶段研究报告

阅读(23)

本文为您介绍课题中期阶段研究报告,内容包括数学课题中期研究报告,剪纸课题中期研究报告。《普通高中文学作品鉴赏评价自主、探究学习方法指导研究》课题由广东省陆丰市林启恩纪念中学组织研究实施,2011年5月,经评审被广东省教育厅批准为

学习

电化学腐蚀工艺及原理研究

阅读(23)

本文为您介绍电化学腐蚀工艺及原理研究,内容包括皮纹腐蚀工艺原理,原油管道电化学腐蚀原理。电化学腐蚀工艺及原理研究

学习

数据存储备份

阅读(21)

本文为您介绍数据存储备份,内容包括数据存储与容灾备份全集,数据备份存储位置。[摘要]针对当前网络环境下企业信息系统数据易感染病毒或遭受黑客攻击,为确保企业信息系统数据的安全,应对企业数据进行备份,本文就企业数据的存储备份及灾难恢