数据分析10篇

数据分析篇1

【关键词】大数据数据分析数据分析师

近年来，业界、学术界兴起了大数据讨论，一夜间大数据时代到来了。大数据给学术界带来了新的思潮，大数据正在颠覆着很多传统行业的模式，带来变革。有人预测，大数据必将成为商业、***府、科研、教育、医疗等各行业面临的一个挑战。在大数据时代，数据分析、数据挖掘工作面临着机遇与挑战，本文从数据分析的角度，结合国内外相关研究，试***回答大数据是什么，如何应对大数据的问题。

一、认识大数据

（一）大数据的宗旨：经过分析的数据才有价值

大数据要发挥作用必须经过分析，这是由大数据的4V特性（数据量大、数据类型多、要求处理速度快、低密度）决定的。也就是说，数据都是高维、低密度的，从单个数据中难以看出规律。因此，必须经过分析，针对高维进行降维，提炼大量低密度信息中的价值，才能发挥作用。否则，大数据背景下，反而更容易使得“活”信息混迹在大量“死”数据中被淹没。面向大数据的分析要“简单、迅速、规模化”。

（二）大数据的目标：实现基于数据的决策与资源配置

大数据最终要实现科学决策，基于信息对称的有效资源配置。随着大数据分析技术的发展，可利用数据来源从线下封闭的数据库、数据仓库扩展到开放性的O2O（Online To Offline）融合数据，可分析数据结构从原来以数值为主的结构化数据发展到涵盖文本、视频、音频等多媒体数据。从而，大数据将逐步改变我们的决策目标和社会资源配置方式。基于数据的科学决策是一贯追求的目标。然而，信息不对称是常态，因此传统决策目标是建立相对满意而非最优（决策科学家Simon提出），资源配置效率基于市场优于基于计划。大数据背景下，迅速获取分析更多辅助决策信息成为可能，因此决策目标可实现向最优的无限逼近，实现基于数据的“计划”资源配置将更有效率。

（三）大数据的角度：个性化服务+中观指数+宏观连结

目前发展大数据，主要有基于数据为客户提供个性化营销服务、预测中观行业或区域趋势指数、基于连结的宏观资源配置方案等角度。这不仅仅体现在阿里小微融资的个性化风控决策、高端品牌***特卖品牌和定价动态决策（基于阿里巴巴网商活跃度指数和零售商品价格指数）、Discern group企业发展战略咨询报告上，还体现在阿里巴巴商务智能指数（预测经济发展态势）和基于公共气象数据的各行业资源配置优化服务上。

互联网金融是大数据发展各角度的前沿阵地。在金融领域，要实现从金融互联网向互联网金融的快速转型。传统模式下的金融企业开展网上业务，如：网上银行、网上理财，并不是真正的互联网金融。互联网金融是指通过互联网新技术为客户实现搜索或风控等服务增值，比较有代表性的是，消除供求双方结构不对称的P2P贷款，提高存取效率的保值理财产品余额宝。

（四）大数据的关键点：保证数据质量

要发展大数据分析，首先要保证数据质量。错误的输入必然导致错误的输出。没有数据质量，一切都是浮云。数据质量没有保证，是不敢用的。数据质量是一项耗时、费力的基础工作。

保证数据质量要求数据采集与清洗过程中秉持两大原则：相关性和低噪声。第一，大数据，数据并非越“大”越好，而是相关数据越“大”越好。特别是，在数据采集中，要以采集尽可能多的“相关”数据为目标，而非不加筛选越多越好。第二，大数据，首先数据获取时要保证不存在诱导倾向的干扰因素，同时进行去噪处理。

保证数据质量要建立数据的数据。针对数据质量建立数据标签，才有进步。有了对数据质量的数据，数据才能被决策者更为安全科学有效地使用。

（五）大数据竞争的核心：分析人才的竞争

大数据时代，作为一种资源，数据不再是稀缺资源。互联网、门户网站、社交网站、微博、微信等新媒体积累了大量数据，缺乏的是对这些数据的分析人员。缺乏专业的分析人才，即使守着数据的“金山”，也只能望“山”兴叹。因此，美国Turbo Financial Group采用最新的大数据分析技术聚焦被FICO遗忘的15%人群建模，阿里提出建立大数据分析的开放式平台，希望能够集结更多专家智慧，同时培养阿里分析人才，挖掘阿里数据“金矿”。

二、把握大数据

大数据对社会生活带来方方面面的影响，我们如何把握大数据时代的机遇，需要慎重对待大数据带来的挑战。总结起来，主要有三个方面：

（一）大数据时代，数据整理和清洗工作

（1）数据整理和清洗工作是数据分析的基础。大数据专家根据经验，普遍认为该工作是一项基础性工作，耗时多且简单，占到数据分析工作量的60%以上，是数据分析前提和基础。在此基上，数据分析工作需要对数据进行标识，进行深度分析，撰写专题报告，确保结果可以执行，最终落实到决策和实施。

（2）大数据时代，需要充分借助IT技术管理数据质量工作。在大数据时代，人工逐笔发现、解决数据质量问题的方式成本高、效率低，不可持续。要尽量规范化、系统化、自动化管理数据质量工作，将节省下的人力资源投入到新问题的研究中。

（二）大数据时代，数据分析的特点

（1）采用倒金字塔模式分配“思考、工作、分享”的时间比重。数据分析工作包括三部分：“思考”，分析实际问题，将实际问题转化成数学模型，提出解决方案的过程；“工作”，将解决方案程序化，得出结果的过程；“分享”，将分析的结果，转化为决策，付诸实施的过程。在时间分配上，金字塔结构或柱形结构的分布形式不是最佳结构，倒金字塔结构比较合理。即，思考的过程花得时间长些，可以减少后期工作量，少走弯路。

（2）通过数据分析进行科学决策。很多人存在误区，认为数据分析就是做报表、写报告。在大数据时代，数据分析不仅仅停留在此，需要进行深度分析，建立数据化决策的流程。要尊重数据、认识数据，但不迷信数据。在尊重数据、尊重事实的前提下，减少主观因素的干扰，快速做出数据化决策，这是一种能力。

（3）大数据时代，数据分析的要义是――简单、迅速、规模化。数据分析的结果要简洁、易懂；数据分析的时间要短，尽可能的自动化地出结果，要快速的满足客户的需求；数据分析的方法能够实现大批量规模化。优秀的数据分析师应具有全局的预见性，一有问题可以马上把该问题打成很碎、很多的问题，甚至把一个问题克隆出很多问题，从而与业务人员建立信任，降低工作量。

（4）从“死”信息中，分离出“活”的信息。大数据有数据量大的问题――产生大量的“死”数据。错误数据是指数据与实际情况不一致，异常数据是指数据正确但数据远离群体的大多数，这类数据情况的处理手段比较成熟。而大数据时代，大量数据是不活跃主体，即“死”数据。因此，需要从高维低密度数据中，提取“活”的信息，发现规律。防止由于“死”信息的存在，导致分析结果不能正确反映“活”的群体特征。

（三）大数据时代，数据分析师的培养

（1）培养核心技术人才，确保长期竞争力。美国在建立全国医疗系统时，将系统外包给了加拿大的一家公司，系统运行的第一天就出现了崩溃。美国***府为此对该模式进行了反思，概括起来有三点：①外包公司设计时只顾满足甲方的眼前利益，不会为甲方的长远利益考虑；②项目外包造成美国技术骨干人员断层，导致出现问题后自身无法解决；③采用该模式导致美国没有了核心技术。

因此，在采用项目外包模式的同时，需要掌握其核心技术。在大数据时代，从数据分析、信息管理、IT技术三个方面保持核心竞争力。需要培养和保持业务、产品设计、数据分析、数据架构等方面的骨干队伍。

（2）建立专业化的大数据分析团队。大数据分析的核心是数学建模，基础是实际业务，结果是自动化程序。在实际工作中需要正确、合理的使用数学建模的思维，构建以数学模型做为基础的数据分析，建立量化管理风险的理念。深刻认识并正确驾驭大数据分析，大数据分析的方法是处于不断发展过程中的，需要根据实际问题，结合实际数据，灵活构建模型。

参考文献：

[1]朱建平，章贵***，刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究，2014，（2）.

数据分析篇2

关键词：数据分析；大数据；可视化；电商服务；大数据技术

0引言

近年来，随着移动互联网、云计算、大数据、人工智能的迅猛发展，全球大数据存储量持续快速增长，其中中国数据量的增长最为迅速。根据国际数据公司(IDC)的监测数据显示，2013年至2018年全球大数据储量分别为4.3ZB、6.6ZB、8.6ZB、16.1ZB、21.6ZB、33.0ZB，近年全球大数据储量的增速每年都保持在40%左右。根据IDC最新的统计数据，中国的数据产生量约占全球数据产生量的23%[1]。IDC最新的《全球半年度大数据支出指南，2018H2》预测在2019年度，大数据与商业分析解决方案全球市场的整体收益将达到1896.6亿美元，相比2018年增长12.1%。IDC预测，2019年中国大数据市场总体收益将达到96.0亿美元，2019-2023年预测期内的年CAGR（复合年均增长率）为23.5%，增速高于全球平均水平。到2023年，市场规模则将增长至224.9亿美元[2]。在这样的背景下，数据在全球市场经济运转中的价值日趋显著，所以数据分析服务应当顺应当前国家***策以及未来市场，收集大型电商网站的数百条关于大数据分析服务的真实信息和数据相关的门户网站，研究当前小型数据分析服务和个人数据分析服务的销售情况与大型门户网站的定价、服务，从小型数据分析服务和个人数据分析服务的需求程度、服务反馈，来分析小型数据分析服务和个人数据分析服务的发展趋势，并分析两者之间的优缺点。

1电商服务现状分析

1.1淘宝

淘宝网是中国现下最受欢迎的专业网购零售平台之一，注册用户数量高达5亿，日均浏览量超过1.3亿。在淘宝出售数据分析等相关服务，在没有知名度的情况下，前期不需要投入大量宣传投入，靠着淘宝自带的流量，也不会担忧没有人流量。但淘宝的数据分析服务也存在如下问题。⑴数据和人工成本估算，以及数据收益机制还不成熟，导致商品的定价没有统一标准，也没有可参考的依据，价格相差过大，客户无法判断商家所给的定价是否与自己的需求相匹配。⑵交易双方信任机制难以建立，把握数据使用流向问题难以解决[3]。淘宝商家在淘宝注册商铺资质最低费用为1000元，若是发生纠纷，商家跑路所需承担的风险很小，个人的权益难以保障。⑶交易评价真实性不可查，涉及电商销售，难免会存在刷单行为，客户也很难辨别商品评论的真实性，存在被误导以及引诱消费的风险。

1.2大型门户网站

本研究以数据为关键词，找寻了四个大型门户，分别对它们的框架、定价、服务对象进行研究分析。火车采集器主打数据采集，有较为清晰的定价，有免费版供需求不多、不需要太深入处理数据的人群使用，更多的版本选择让用户可以自由的根据自己的需求做选择。除此之外，还有***客服可进行咨询、指导。八爪鱼采集器主打数据采集，操作简单，是人人可用的数据采集器。采集教程有***文版和视频教程，让客户更容易上手。采集软件也有不同的定价，方便客户选择。问题的解决方案也有细分，涵盖了新闻采集、电商采集、金融采集数据服务、市场洞察等十几种，可为不同领域的客户提供有针对性的方案。前嗅主打数据采集和大数据可视化。比起前两个按软件的版本来定价，前嗅的定价更为详细些。前两者的数据采集需要自己动手完成，而前嗅有ForeSpider数据采集引擎可自己爬取数据，也可以选择数据代采。在数据采集这个模块，前嗅就分出了6种服务及定价，对客户来说更详细也更好理解。可视化报告分出了3种不同的需求，预存云数据系统，研究报告和定制报告。还可根据客户数据进行情感分析、用户画像分析、语义识别等。集搜客主打网页抓取和内容分析，主要是对文本的处理和情感分析。集搜客有专门的爬虫软件，分为4个版本，每个版本都有自己的定价。除此之外，也有定制服务的价格，划分出了6个定制项目，并显示每个服务最低的价格。火车采集器、八爪鱼采集器、前嗅、集搜客在页面下方都放了合作的企业，其中有中国人民银行、中国电信、可口可乐、凤凰网、中国平安等知名大型企业，对它们是一种能力的认证，也是交易的认可。

2数据分析服务的商业需求

2.1淘宝：小型数据服务方

本研究以“数据分析”为关键词，于2020年8月通过爬虫技术爬取淘宝电商网站的529条信息。其中包括9个字段：商品名、链接、***片、价格、邮费、店铺名、月销数量、店铺评分、发货地等。去除重复、不符主题的噪声数据，留取了202条有效数据。去除对本次研究没有研究意义的字段，本研究将对这202条有效数据的价格、月销数量、高频关联词、发货地这四个字段进行分析。

2.2门户网站：大型数据服务方

2.2.1火车采集器。火车采集器是目前互联网上应用最广泛的数据处理、分析和挖掘软件。软件凭借其灵活的配置与强大的性能领先国内其他数据采集类产品，并赢得众多企业和用户认可。目前共客户使用的有五个版本，可以免费使用，有需要更强大功能的付费版本，价格在960元至8600元，购买后的版本均可终身使用。2.2.2八爪鱼采集器。八爪鱼采集器是一款拥有百万用户的数据采集软件，其使用方法简单易懂，不懂网络爬虫技术，也能轻松采集想要的数据。目前共客户使用的有七个版本，有免费的版本，付费版本价格在49元至69800元以及根据顾客要求制定节点再定价格。私有部署版、数据服务都没有明确的价格，需要根据客户需求来制定方案，再根据方案制定价格。2.2.3前嗅智能大数据专家。前嗅是可提供数据采集、定制和研究可视化报告、自然语言处理以及大数据周边配套产品等且拥有国内唯一自主知识产权Web服务器系统的大型门户网站。在价格的制定上，比前两者分的更细，许多服务的起步价多为200元至400元。划分板块多，衍生的服务更为多样。2.2.4集搜客GooSeeker。集搜客GooSeeker是一款网页抓取和内容分析，把互联网装进表格和数据库的软件。网络爬虫软件目前有四个版本，除了免费版本外，其他三个版本的价格在49元至20000元之间，还有根据需求的定制服务。通过对以上四个大型门户网站的调研，发现每个服务方所服务的人顾客群体有所区别，需求存在着明显的差异。火车采集器和八爪鱼采集器都是主打数据采集的软件，但价格上却有所差别，火车采集器的价格明显比八爪鱼便宜，可见针对的目标客户是不一样的。前嗅智能大数据专家针对的是有大数据技术需求方面的人群，大数据的衍生服务也包括在内，多样且全能。集搜客是针对有网页抓取和内容分析，主要是对文本的处理和情感分析的需求的顾客群体。以上四个大型门户网站都有自己明确的市场定位，针对不同的需求，发展自己的特点。

3数据调查与分析的方法及过程

利用爬虫技术爬取了2020年8月大型电商网站的数百条关于大数据分析服务的真实信息，研究当前小型数据分析服务和个人数据分析服务的销售价格、月销数量、顾客评分等，结合词频分析和统计技术，以及分析大型电商网站的大数据分析服务质量、价格、服务种类。

3.1价格分析

在本次爬取的信息中，价格较为多样化，单价从1元到500元不等，数字较为随机，可见淘宝的数据分析标准没有统一，差异性较大。大多标价也非实际交易价格，实际交易价格往往是在双方交流后才确定的价格。没有统一的定价标准，会导致顾客在购买服务之前难以了解实际交易价格与自己心理预期价格的差距，从而难以选择与自己心理预期相符的服务。

3.2月销数量

在本次爬取的信息中，单项付款最多人数为717人，最少为0人，月销数量大于100的占总收集信息的10%。但仅看付款数量无法判断实际交易人数，因为一人可拍下数量不可知（如：单价100元，在交流后，所需服务实际需要为400元，可以单价*4拍下）。如***1所示。

3.3高频次关联词

在本次爬取的信息中，标题中除了数据分析出现的高频词汇有：spss、可视化、爬虫、python、stata、统计。出现的频次分别为：可视化出现61次、spss出现59次、stata出现30次、python出现31次、爬虫出现23次、统计出现19次。其中spss、stata、python都是数据分析工具，不同的行业与需求对数据分析工具有不同的要求，可视化的高频次出现体现着客户对数据可视化的需求强烈。如***2所示。

3.4发货地分析

在本次爬取的信息中，发货地有北京、上海、杭州、深圳、南京、成都和武汉等地址。其中出现次数较多的为北京、上海、南京，分别为44次、29次、16次。这三大城市的占比为44%，可见这三大城市的数字经济发展明显优于其他城市。如***3所示。从价格、月销量、高频次关联词、发货地址的分析结果看，以淘宝网为代表的小型数据服务方的定价模糊，没有清晰、明确的定价标准，月销量有高有低，但由于定价模糊的关系，并不能判断它的真实销量。从高频关联词数据分析与可视化关系紧密这一点看，数据可视化是数据分析中的一大需求点，发货地点多为一线城市，可见经济与数据经济关系成正比关系。

4结论与建议

经过研究和分析电商数据分析服务的多方面数据，获知了以淘宝电商为主体的小型数据分析服务在体系上的不完善，多数是在商品标题添加相关词，但商品详情页面没有详细的服务名称、服务范围、服务价格，大多需要咨询客服才能了解；以大型门户网站为主题的数据分析服务为主体的数据分析服务都有着自己明确且清晰的体系，有详细的产品分类，可提供服务的范围，有标准的定价，以及自己的主打的特色产品，火车采集器、八爪鱼采集器、集搜客也提供有免费的服务，供客户体验产品、了解产品。当前我国数据资源流通存在诸多瓶颈问题，尚不具备作为一种生产要素的商品化、资产化机制，无法界定权属、无法评估质量、无法有效定价、无法可信流通等问题较为突出[3]。在此提出以下建议供参考。⑴推进建立商品化、资产化和规范化的数据商品体系。⑵建立第三方数据监督机构。市场的数据质量难以保障，已过期数据、错误数据、没有意义的数据俯拾皆是，第三方机构可监督数据的来源，评判数据的可用性。⑶小型数据分析服务应确立自己的基本框架，将所能提供的服务、服务范围、服务价格，进行清晰的划分并标明，让顾客能更加简单便捷、有对比性的了解所提供的服务。⑷建立成熟的数据和人工成本估算以及数据收益机制。纵观淘宝和大型门户网站对同类服务的定价，价格相差悬殊。建立成熟的数据和人工成本估算以及数据收益机制可以为客户避免“贵的就是对的”的心理；也可以避免客户一味的贪***便宜买到假数据。

数据分析篇3

保障起飞重量的奥秘

在运输机总体气动设计阶段需要考虑的各种因素中，一般而言，起飞滑跑距离对起飞重量的影响最大。而决定起飞滑跑距离的因素有：飞机的翼载、推重比、最大升力系数、零升阻力和跑道摩擦力大小。

试以伊尔-76MD作为基本参考对象，进行一组简单的推算。从飞机手册上可以查到，伊尔-76MD起飞重量为190 吨，翼面积300 平方米。结合四发喷气运输机的统计参数，可以推算得到该机起飞构型下零升阻力系数约为0.0495。根据伊尔-76飞机手册可以查到该机起飞最大升力系数为2.4左右。发动机相关参数以“土星”***公布的D-30KP-2发动机数据为准，由此能够得到该机的起飞重量-滑跑距离关系曲线，见***1。

可以看到，伊尔-76MD在滑跑距离为1 700米时，在混凝土跑道上起飞的最大重量约为189 吨，在野战草地跑道上约为157 吨。两组结果均与飞机手册上的数据相近。对比伊尔-76MD的数据不难发现，运20起飞重量220吨，应为混凝土跑道起飞时的数据。运20使用与伊尔-76相同的发动机，如气动设计与伊尔-76相同，则其在混凝土跑道上的起飞滑跑距离将接近2 400米。

根据***信息，运20的翼展为45米，比伊尔-76减小了近10.9%。如果希望其展弦比保持不变，则需要将机翼面积缩减为伊尔-76的79.4%，即238平方米。如果允许其展弦比从伊尔-76的8.5降低至8，则机翼面积可减少到伊尔-76的84.4%，即253平方米。不同翼面积对跑道长度的影响，见***2。从***中可以看到，如果运20的翼面积降低到238平方米，则飞机在220 吨起飞重量下的滑跑距离将达到3 010米，已经超过波音757客机，很明显会影响到飞机的适用范围。因此，运20很可能选择适当降低展弦比，以避免滑跑长度的大幅度增加，当机翼面积为253平方米时，滑跑距离相对合理，为2 830米。

运20之所以要减小翼展，这与机身加宽及起飞重量提高带来的结构增重有很大联系。一部分结构使用复合材料，固然能够降低重量，但很可能被机身修改所致的结构增重所抵消。因此适当牺牲起飞滑跑距离，换取更大起飞重量，乃不得已而为之。

当然，运20的设计年代比伊尔-76晚了30多年，因此其气动设计必然存在一定的提升空间。当今飞机气动设计中，采用了大量基于计算机辅助的流体力学计算手段，相对于过去完全依赖实验的设计方法，设计过程更短，效率更高。在伊尔-76基础上，运20升力系数增加0.1～0.2是基本可行的。升力系数对起飞滑跑距离的影响，见***3，该***仍以伊尔-76为基准。从***中可以看到，最大升力系数每增加0.1，起飞滑跑距离可以减少约100米，应当说效果是比较显著的。零升阻力对起飞滑跑距离的影响相对较小，工程上能够实现的变化量更属渺茫，因此可以直接将其忽略。运20气动方面的优化对于缩短起飞滑跑距离来说能有一定的作用，约能使飞机滑跑距离降低200 米。

综上所述，运20为了消化起飞重量和机身结构重量的增加，很可能将展弦比降低到8左右，并通过气动措施将起飞滑跑距离控制在2 600 米左右。这样的滑跑距离相当于波音767客机级别，能够保证该机在我国主要干线和***用机场之间进行运输的基本要求。

最大有效载荷与航程

有关运20有效载荷的问题，同样可以推论。对于所有运输机而言，其有效载荷并不是一个***的参数，而是和飞机的航程紧密相关的。在一定的起飞重量下，增加有效载荷就必须减少燃油的装载，也就意味着航程会有所缩短。

同样以伊尔-76MD飞机作为参考对象进行计算。从手册上可以查到，该机使用空重89 吨，其发动机D-30KP-2在巡航状态下油耗0.705千克/千克力·小时，巡航高度和速度根据手册分别取11 000米和770千米/小时。有关飞机的气动数据，巡航状态下零升阻力系数可以结合四发喷气运输机的统计参数进行估算，约为0.0175。由该机展弦比8.5可以估算出其升值阻力因子约为0.0468。根据手册数据进行参数调整，当飞机巡航升力系数在0.35，巡航升阻比为13.87时，曲线数据与手册数据完全吻合，见***4：即在47 吨的标称最大有效载荷下，航程约为3 800 千米；当飞机有效载荷为13 吨时，可以在保证最大起飞重量的限制条件下达到该机最大载油量约87 吨，此时航程7 800 千米。在此基础上根据运20设计情况进行适当参数调整，即相应的载荷-航程曲线。

为得到载荷-航程曲线，首先需要得到飞机使用空重的数据。世界主要运输机的最大起飞重量和使用空重关系曲线，见***5。根据统计学方法，将各型飞机的数据进行分析得到线性回归趋势线，得到一般运输类飞机的起飞重量-使用空重关系。从***形和线性回归判定系数R2上看，该拟合关系是比较准确的。根据这个关系式，代入运20的最大起飞重量220 吨，可以求出该机的使用空重约为100 吨。

运20的巡航气动特性可以基于前面的分析进行估算。其展弦比为8，翼面积为253 平方米时的数据相对比较恰当，因此在这里将其代入进行分析。综合气动设计技术改进和展弦比减小的影响，运20的诱导阻力因子应能够维持和伊尔-76相同的程度。在零升阻力方面，有网友根据公开资料推断运20机身最大直径约为5.6米，而伊尔-76机身最大直径为4.8米。根据粗略作***测量，运20机身部分的浸润面积比伊尔-76约增加了15%。由于运20机身长度与伊尔-76相近，在前面所述的翼面积情况下，如保持尾容量不变，则机翼和尾翼的浸润面积之和将比伊尔-76降低约16%。根据公布的照片上看，运20采用了一定的减阻措施，包括类似波音787的保形机头，相对更为简洁的起落架整流鼓包。综合几方面因素，从比较乐观的角度估计，运20的零升阻力比伊尔-76约可降低5%。

根据网上消息和一般性推测来看，运20机翼使用了超临界翼型。超临界翼型的主要效果是，在机翼相对厚度不变的情况下推迟阻力发散马赫数。从一般性效果来说，应能够保证运20的巡航速度从伊尔-76的0.72马赫提升至 0.78马赫。由于发动机与伊尔-76相同，运20的巡航高度应与伊尔-76相差不大。由此参考运20和伊尔-76的起飞重量，可以推算出运20巡航升力系数约为0.41。综合以上信息可以计算出，运20的巡航升阻比在比较乐观的情况下约为15.47。

由以上信息，便可以求出运20的载荷-航程曲线，见***6。曲线最左端对应为飞机在最大燃油状态下的有效载荷与航程，曲线右端对应最大有效载荷66 吨时的航程。由于翼面积的缩小造成储油空间降低，最大燃油重量也相应按照面积的1.5次方比例缩小为伊尔-76的77.5%，约67 吨。

数据分析篇4

关键词：大数据；数据仓库；数据分析；校园卡；教务

中***分类号：G434 文献标志码：B 文章编号：1673-8454（2015）10-0013-03

随着大数据时代的到来，各行各业都在利用大数据推动本领域的发展。常熟理工学院自2009年开展教育信息化建设以来，在数据分析方面进行了不断地探索与实践，目前广泛应用于教学和管理中。

一、数据分析的必要性和可行性

高校内部一般都建有：教务系统、科研系统、学工管理系统、人事管理系统、资产管理系统等***业务系统。这些系统都各自记录着学校方方面面的数据，却都静静地躺在服务器硬盘里，犹如埋藏在地下的金矿，不能为高校全局决策提供支撑。

数据分析的目的就是要让数据发声，通过直观的数据***表来为高校管理提供辅助决策。例如：对教师的专业与学校开设专业的统计分析可以为人才引进提供参考；对学生的校园卡使用记录和校内上网认证记录结合起来，可以为判断学生的行为指明方向；对各二级学院的资产数据统计分析有助于学校对二级学院进行成本核算。

二、数据仓库的建立

数据库是数据分析的源头，数据仓库的建立是数据分析的基础。

建设过程中，首先要统一数据标准，只有准确的数据才是有价值的，如果各系统的数据标准不统一，就会造成不准确的数据分析结果，也就无法为高校管理提供真实有效的统计数据；

其次要建立公共数据平台，公共数据平台是指实现校园内各种信息系统的互通互连和数据共享，包括多个系统业务数据集中存储、备份、数据共享和数据管理的公共平台，为学校各应用系统提供基础数据；

三是要规范数据流程，把各业务系统中形形的数据按标准定期抽取到学校公共数据平台中。确保任何业务系统的添加和修改不影响其他系统的正常运行，同时新建应用系统应建立在统一的数据规范基础和统一身份认证基础上，调用公共数据平台的基础数据（如部门、教工、学生等基础信息），应用系统产生的数据也应成为公共数据平台的基础数据，可供数据平台共享访问。确保提供反映学校全面情况的数据信息，为整个学校提供决策支持所需的数据信息，为今后应用系统的建设和信息服务奠定良好的数据基础。

***1为数据架构***，最底层的是各业务系统，他们产生的数据按编码标准经过抽取、转换、加载到数据中心，数据中心再按需要把相关数据同步给相应的应用数据库或各数据集市，最后形成各类主题数据分析或综合决策系统。

三、基于数据仓库的数据分析

在统一数据仓库的基础上，我们利用数据仓库技术（ETL、OLAP、REPORT）和数据挖掘技术，对多种数据集市进行数据分析，建立了校情综合统计分析系统。该系统从学校基本情况、教职工信息、学生信息、教学信息、科研信息、资产与设备信息、***书资料信息与师生消费等方面进行统计分析，为学校管理提供辅助决策支撑数据。

该系统从学校全局出发，通过多元主题展开分析，以文字、报表、***表等多种形式展现分析成果。

该系统的推出实现了教学质量、学生学习、生活行为等各种信息的监控与分析，对高校资源配置优化、提高高校管理科学化等方面具有不可估量的重要意义。这里笔者将以校园卡和教务数据分析功能为例进行阐述。随着校园卡在校园生活中使用范围的日益扩大，在应用过程中产生了大量数据。校园卡仅仅一年的交易数据就有大约1000万条记录。

校园卡数据分析主要实现以下五大类的分析功能：

（1）各时间段消费情况分析

①从“月、季度、半年、年”的角度来查询消费总额、消费用户数和人均消费等，反映出用户消费支出的趋势，也可反映出物价的变化情况。

②从“几点几分”的角度查询消费人数可反映用户在时间点上的消费习惯，对于各营业部门来说可以合理地调整工作时间、工作人员等，以加强服务。还可根据教职工就餐时间点来分析他们是否严格遵守学校作息时间。

③从“早、中、晚”的角度统计分析学生早餐、中餐、晚餐的就餐率。

（2）各类消费人群消费情况分析

①对于学生工作管理层来说，从“个人、班级、院系”的角度来查询消费金额作为发放贫困补助的依据。

②通过查询一个时间周期内（三天）学生消费人数，起到了解学生是否在校的危机预警作用。

③从学生所属院系、专业、年级等角度来查询消费人数、消费金额和分布情况。

④从学生性别、来源地区（省、市、区）、年龄等人的自然属性来查询消费人数、消费金额和分布情况。

⑤分析教职工的消费水平。

（3）各营业单位消费情况分析

从各个营业单位角度来查询校园用户消费人数，消费金额和分布情况。

（4）各交易类型消费情况

从消费类型角度来查询用餐、购物、上网、上机、水电消费等情况。

（5）工作站、终端个数统计

为直观反映上述消费数据，我们除用表格形式将分析结果展现在用户终端外，还提供了柱状***、饼***、曲线***、点***等形式来展现。***2展示了我校2010年至2014年学生早、中、晚三餐平均价格，呈逐年稳步上升状态，这给餐饮部门提供准确统计数据的同时，也稳定了学生就餐消费水平的承受心理。

高校教学信息化建设积累了丰富的业务数据，根据需求，教务数据分析功能主要包括三大类：教学任务、学生成绩和教学评价。***3为教务数据分析数据源视***，围绕教师的教学工作量、学生取得的成绩以及学生对教师的评价等，我们做了一系列的报表。例如：教学场地信息、学生情况、任课教师情况、各学期教学任务情况、成绩信息、教学评价、历年各专业招生人数、各学院历年教学情况、各学院历年学生对教师评价。

另外，为满足各二级学院要求，做了学业预警方面相关报表，各二级学院可根据年级、专业，通过总学分排行、课程门数排行来关注排在后面的学生情况。

数据分析表明，教师平均教学任务逐年增多，教师总体比较年轻，平均年龄男教师比女教师高，年龄在30-39之间的教师平均课时最多。管理学院历年招生数比其它学院明显高出很多，其中财务管理专业的学生数百分比最高。我校学生的成绩也完全符合正态分布曲线要求。

四、结束语

大数据分析是一种发展趋势，我们目前也仅仅就单项主题进行了逐个分析，如果把这些主题串起来，进行关联分析，将会得出更有趣更有价值的结果，这也是将来我们努力的方向。

参考文献：

[1]戴红芳，冯翔，先晓兵等.商业智能在校园一卡通中的研究与实践[J].微电子学与计算机，2012，29（7）：175-179.

[2]戴红芳.基于多维数据模型的校园卡数据分析[D].上海：华东理工大学，2011.

数据分析篇5

[关键词]数据挖掘；技术；电信技术

中***分类号：TP393.01 文献标识码：A 文章编号：1009-914X（2014）29-0355-01

0.前言

我国电信行业一直以来呈现出中国移动、中国联通、中国电信三足鼎立的状态，但是，随着市场经济的进一步完善，我国***府逐渐放开了对电信行业的准入管制，越来越多的国外电信运营商进入中国市场，这使得国内电信市场的竞争压力不断增加，另外，随着我国消费者的日趋成熟，对电信运营商的服务质量要求逐渐提高，这一切都使得我国电信运营商面临巨大挑战，具体来看主要是成本增加、顾客流失、资源浪费，传统的管理方法已经不能适应形势发展的要求，为了有效整合和利用资源，要求电信运营商借助信息化管理模式处理大量客户信息和消费数据，从中挖掘有价值的商业信息，从而制定出符合消费者期望的优质服务策略。数据挖掘技术正好符合了电信行业发展的要求。

1.数据挖掘的概念

数据挖掘指的是从这些混乱的、无序的、模糊的、随机的、不完全的数据当中找出人们事先不知道但是具有潜在价值的信息和知识。从本质上说，数据挖掘是一种深层次的数据分析方法。人们根据数据挖掘任务的不同，把数据挖掘分为不同的类型，例如分类和预测模型发现，序列模式发现，数据归类、聚类、关联规则发现，依赖关系和依赖模型发现等等[1]。根据挖掘方法可以认为统计学方法、机器学方法、数据库方法以及神经网络方法.

2.数据挖掘的功能

总的来说，数据挖掘具有五大功能，即分类功能、聚类功能、预测功能、偏差检验功能以及关联规则和序列模式发现功能。分类功能就是按照研究的对象的属性建立不同的组类来描述对象。聚类功能就是把数据集合分组为由相似的对象组成的多个类别当中，即通过间接相似度把类之间的差异识别出来，并挑选类之中的相似样本。预测功能就是根据数据属性特征等对数据进行评估分析，从而预测其他未知属性。常用的预测方法有回归分析算法、神经网络算法等。偏差检测功能是对数据库中存在的异常记录进行排除，从而确保数据库的安全稳定，降低风险。关联规则和序列模式发现功能关联分析就是找出数据库中各种隐藏的关联性。

3.基于数据挖掘的电信数据分析

将数据挖掘引入电信数据分析，其目的就是深入挖掘顾客的消费行为，探明客户的特征、行为方式、理解客户的价值，从而为电信运营商制定市场营销策略提供科学的依据。

3.1 电信业务下滑客户分析

随着市场竞争堵塞加剧，电信顾客的流动性增大，因此，要想增强企业的竞争力，首先必须保持稳定的客户，防治客户的流失，并在此基础上吸引新的客户。首先建立电信业务下滑客户聚类模型，对客户数据进行聚类，先确立不同的聚类标准作为节点，对用户进行聚类分析，然后表节点把非业务下滑客户列出来。把那些消费波动较大的用户作为业务流失或退订的客户群。最后用表节点把业务下滑的客户数据用表列出来。其次，电信客户业务下滑原因分析。这是在前面的基础上进一步分析客户业务下滑客户的特征和原因，这里首先需要构建数据训练集，把先前聚类的业务下滑客户挑选出来，为了充分表现出业务下滑客户与非业务下滑客户的特征，将它们的比例设为1：1，然后建立决策树，从客户的在网时长、长途费用、客户使用的服务品牌这三方面的具体信息出发，做出有针对性的商业决策[2]。

3.2 电信用户GPRS业务关联分析

GPRS业务关联分析模型主要有商业需求分析、数据预处理、数据集、高价值客户聚类、高价值客户数据集、GPRS业务关联分析、模型评估、模型等环节。首先商业需求分析。通过运用数据挖掘技术分析GPRS业务用户的特征、潜在用户、用户偏好、消费潜力等，建立GPRS业务关联模型进行分析研究，发现其中的规律，由此预测出业务的潜在客户群，协助企业扩大用户规模、获得更大利润。其次是数据处理。先根据客户性质，将其划分为多个群，找出最有价值的客户群。再利用关联性原则分析客户偏好，进而进行相应产品和服务的研究。其次，挖掘电信GPRS业务高价值客户群。为了建立有效模型，首先要进行聚类分析。按照客户消费金额分为几种不同的类型。以其中一个点为高价值客户的最低要求。从而找出高价值客户群。第三电信客户GPRS业务关联分析。该环节的目的是要找出关联大的业务。然后根据分析结果进行业务销售。

3.3 电信非绑定GPRS业务客户预测

电信非绑定GPRS业务客户预测模型与分析流程主要有商业需求分析、数据预处理、数据集、训练集、模型训练、GPRS业务客户预测模型、模型评估、模型等。第一，商业需求分析。首先针对客户使用情况，分析客户消费行为特征，然后对具有这些统计特征而未使用这套组合业务的客户进行推荐，由于运营商需要对客户属性和消费行为进行预测，因此还需要借助于决策树建立分析模型。第二，数据处理，把无关数据排除，同时收集相关数据，并构建模型。第三，电信非绑定GPRS业务客户预测模型构建。建立预测模型时要对模型有效性进行测试，选择合适的预测模型。在实际商业应用中，根据模型分析结果对符合规则的目标客户推荐业务。

4.小结

本文以中国移动某分公司的研究项目“某移动业务精确营销模型研究及推广”为背景，在数据挖掘理论和技术的基础上，将数据挖掘技术的聚类分析算法、关联规则算法、决策树算法应用于电信数据分析。

参考文献

[1] 舒正渝.浅谈数据挖掘技术及其应用[J].中国西部科技，2010，9（5）：38-39.

[2] 巩建光.面向电信领域的数据挖掘关键技术研究[D].哈尔滨工程大学，2012：38-39.

数据分析篇6

关键词：数据仓库；数据挖掘；决策树

中***分类号：TP391 文献标识码：A 文章编号：16727800（2013）002009904

0 引言

数据仓库与数据挖掘是近年来刚刚兴起并逐步发展起来的一门新兴交叉学科，它把对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，并提供决策支持。此门学科涉及到许多领域的知识，包括数据库技术、人工智能技术、数理统计、可视化技术、并行计算、机器学习等，汇集了多门学科的知识并在综合运用这些学科知识的基础上产生出新的知识和方法。此门学科的应用主要在于构建企业的决策支持系统，此系统正是目前帮助企业提高自身竞争力的重要手段。

在数据仓库与数据挖掘学科中涉及了许多概念、设计方法及诸多挖掘算法，本文将就其中的一些内容结合SQL Server Analysis Service应用实例加以阐述与说明，以加深对理论的理解，并逐步掌握此门学科所提供的更多技术。

总体来讲，构建一个企业的决策支持系统主要有两个阶段，第一个阶段是创建企业的数据仓库，第二个阶段是在数据仓库的基础上进行数据挖掘。这两个阶段的工作相辅相成，数据仓库是基础，数据挖掘是在数据仓库之上的高层应用，两者需要整体规划、分步实施。下面分别就这两部分内容结合实例加以阐述。

1 数据仓库的规划与设计

数据仓库是一个面向主题的、集成的，时变的、非易失的数据集合，支持部门管理的决策过程，数据中的每一个数据单元在实践上都是和某个时刻相关的。数据仓库也被看作是某个组织的数据存储库，用于支持战略决策。数据仓库的功能是以集成的方式存储整个组织的历史数据，这些数据会影响到这个组织和企业的多个方面。数据仓库的特点是：数据常常来自于多个数据源；其存放模式一致；驻留在单个站点；数据已经清理、变换、集成与装载并定期刷新；数据量巨大。

数据仓库构建方法同一般数据库构建方法最大的不同在于数据仓库的需求分析是从用户的决策问题入手，其目的是直接针对问题的主题，而一般数据库系统是以事务处理为出发点。下面结合具体实例说明数据仓库的设计步骤。

1.1 确定用户需求，为数据仓库中存储的数据建立模型

通过数据模型得到企业完整而清晰的描述信息。数据模型是面向主题建立的，同时又为多个面向应用的数据源的集成提供了统一的标准。

例如：FoodMart是一家大型的连锁店，在美国、墨西哥和加拿大有销售业务。市场部想要按产品和顾客分析1998年进行的所有销售业务数据。该公司现在急需进行销售方面的数据分析，以找到一些潜在规律来促进销售业务的进一步拓展从而扩大销售渠道、加大销售量、提高销售利润、增强公司竞争力。该连锁店销售的产品总体上被分为若干个大类，细节上分为若干个小类；客户广泛分布于不同地区、不同国家。该连锁店在销售信息管理系统中长期保存并不断更新着产品、产品分类、商店、销售、促销、客户等记录表，依次为：产品表（PRODUCT）、产品分类表（PRODUCT_CLASS）、商店表（STOR）、1998年销售记录表（Sales_fact_1998）、促销表（PROMOTION）、客户表（CUSTOMER）等。

FoodMart连锁店保存并不断更新的数据库是事务处理型数据库，其结构是面向应用而设计的。要进行数据挖掘就必须建立面向主题的数据仓库，为了进行1998年销售方面的数据挖掘，要设计的数据仓库必须以1998年销售数据为主题，辅之以日期、产品、产品分类、商店、促销、客户等其它数据信息。具体来讲，即创建以1998年销售为主题的数据仓库，采用星型/雪花模式构建事实表。

1.2 分析数据源，完成数据仓库的设计工作

基于用户的需求，着重于1998年销售主题，开发数据仓库中数据的物理存储结构，即设计多维数据结构的事实表和维表。1998年销售事实表包含5个维表和3个度量。这5个维表分别是日期、客户、产品、促销和商店维表，3个度量分别为销售金额、仓储成本、销售单位。考虑到将来要根据顾客的年收入情况进行顾客会员卡种类方面的数据分析，另外增加了年收入维度（yearly income，取自于customer表）。为便于分析挖掘出有关时间因素的信息，特增加了时间表time。

1.3 生成物理的数据仓库，并从各种源系统中获取数据装入数据仓库中在SQL Server Analysis Service manager中建立物理的数据仓库可以通过ODBC数据源方式指定原有数据库，再通过Microsoft OLE DB Provider for ODBC进行连接的方式完成原有数据库到数据仓库的映射。运用SQL Server Analysis Service manager提供的功能建立数据仓库的多维数据集，指定此数据仓库的度量值与维度，至此数据仓库建立完毕。其中纬度与度量值如***2所示。

2 数据挖掘

数据挖掘（Data Mining）又称为数据库中的知识发现（Knowledge Discovery in Database， KDD），就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简言之，数据挖掘就是从海量数据中提取隐含在其中的有用信息和知识的过程。数据挖掘可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理，从而利用已有数据预测未来，帮助企业赢得竞争优势。数据挖掘的方法是建立在联机分析处理（On Line Analytical Processing，OLAP）的环境基础之上的。OLAP技术使数据仓库能够快速响应重复而复杂的分析查询，从而使数据仓库能有效地用于联机分析。OLAP 的多维数据模型和数据聚合技术可以组织并汇总大量的数据，以便能够利用联机分析和***形工具迅速对数据进行评估。当分析人员搜寻答案或试探可能性时，在得到对历史数据查询的回答后，经常需要进行进一步查询。OLAP系统可以快速灵活地为分析人员提供实时支持。

数据挖掘工作是在完备地建立了数据库、数据仓库等数据集的基础上进行的，典型的数据挖掘系统结构如***3所示。

整个数据挖掘过程主要可分几个阶段，依次为：问题定义、数据预处理、数据挖掘以及结果的解释和评估。

2.1 问题定义

问题定义就是要清晰地定义出业务问题，确定数据挖掘的目的。对于FoodMart连锁店来说，它的问题定义就是：FoodMart连锁店的市场部想增加客户满意度和客户保有率，于是实行了创造性的方法以达到这些目标。

其方法之一是对会员卡方案重新进行定义，以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。

为了重新定义会员卡方案，市场部想分析当前销售事务并找出客户人口统计信息（婚姻状况、年收入、在家子女数等等）和所申请卡之间的模式，然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。

2.2 数据预处理

最初为数据挖掘所准备的所有原始数据集通常都很大，它们当中存在许多脏数据。造成脏数据的原因主要源自于收集与传送过程的错误、滥用缩写词以及不同的惯用语、重复记录、数据输入错误、拼写变化、不同的计量单位、过时的编码、集成时的空值与丢失值以及不同的数据源等。脏数据主要有以下一些表现形式：

（1）数据不完整。表现为：感兴趣的属性缺值；缺乏感兴趣的属性；仅包含聚集数据等。例如：CUSTOMER表中的LNAME=“”

（2）数据噪声。即包含错误的属性值或存在偏离期望的孤立点值。一个属性的值与事实完全不吻合的情况，例如：CUSTOMER表中的在家子女数num_children_at_home=200

（3）数据不一致。数据不一致表现为多种情况，比如：同样的属性在不同的结构里使用不同的名字，例如：name、xm；不同数据使用的计量单位不同，例如：100（美元）、100（美分）；数据不允许为空的地方数据为空等。

如果在脏数据上进行数据挖掘将很可能导致错误的判断甚至完全相反的分析结果，也就是说，没有高质量的数据就没有高质量的挖掘结果。由于决策质量依赖于数据质量，因此需要在数据挖掘之前进行数据预处理，以保证数据仓库内包含的是高质量的、一致的数据。所谓数据预处理其实就是对数据仓库中的数据进行提取、清理、转换，从而保证数据的高质量，具体来讲包括以下几种操作：

（1）数据清理（data cleaning）。就是去掉数据中的噪声，纠正不一致；填写空缺值，平滑噪声数据，识别、删除孤立点。例如：将CUSTOMER表中的在家子女数num_children_at_home=200的记录值删除掉或填入平均值1。

（2）数据集成（data integration）。将多个数据源中的数据合并存放在一个统一的数据存储（如数据仓库、数据库等）中，数据源可以是多个数据库、数据立方体或一般的数据文件。

（3）数据变换（data transformation）。即数据的标准化与聚集，将数据变换成适于挖掘的形式。例如：属性数据可以规范化，使得它们可以落入某个小区间。

（4）数据归约（data reduction）。数据归约技术可以用来得到数据集的归约表示，它接近于保持原数据的完整性，但数据量比原数据小得多。与非归约数据相比，在归约的数据上进行挖掘，所需的时间和内存资源更少，挖掘将更有效，并产生相同或几乎相同的分析结果。数据归约主要通过数据聚集（如建立数据立方体）、维归约（如删除不相关特性）、数据压缩（如最短编码）、数字归约（用较短的表示替换数据）、概化（去掉不用的属性）等方法完成。例如，对于FoodMart连锁店的数据挖掘来讲，CUSTOMER表中的address1、address2、address3、 address4这4个属性与挖掘目标无关，所以可以将它们删除掉以节省空间和时间。

2.3 选择挖掘模型，进行数据挖掘

根据数据挖掘的目标和数据的特征，选择合适的挖掘模型，在净化和转换过的数据集上进行数据挖掘。

FoodMart连锁店的工作设想是：对会员卡方案重新进行定义，以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。市场部想分析当前销售事务并找出客户人口统计信息（婚姻状况、年收入、在家子女数等）和所申请卡之间的模式，然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。

对于这个工作预期，决定采用决策树的数据挖掘方法进行客户群的分析。所谓决策树，就是在对数据进行决策分类时利用树的结构将数据记录进行分类，其中树的一个叶结点就代表符合某个条件的属性集，根据属性的不同取值建立决策树的各个分支，随后递归地构造每个子节点的子树。由于决策树结构简单便于人们认识与理解，以及决策树不需要额外的数据训练，因此，决策树是数据挖掘中常用的一种分类方法。

本实例采用“Microsoft 决策树”算法在客户群中找出会员卡选择模式。按照以下步骤完成“决策树”挖掘模型：

（1）将要挖掘的维度（事例维度）设置为客户；

（2）将 Member_Card 成员的属性设置为数据挖掘算法识别模式时要使用的信息；

（3）选择人口统计特征列表（婚姻状况、年收入、在家子女数和教育程度），算法将据此确定模式；

（4）处理训练模型，浏览决策树视***并从中读取模式。

经过处理后，挖掘模型浏览器展现出一棵深度为3、宽度为8的决策树，此浏览器将根据用户对树中不同分支节点的选择显示出相应的统计信息。

例如，选择根节点“全部”顾客的方框后显示信息如***4所示。

在***中可以看到数据挖掘的结果：将客户按照年收入的不同分为8个区段（类），涉及的客户总数为7 632人，通过直方***可以直观地看到办理金、银、铜、普通卡的比例。

选择年收入在$30K-$50K的范围框后，挖掘模型浏览器的显示信息如***5所示。

年收入在此范围内的客户共计1 362人，其中办理金、银、铜、普通卡的数量和比例通过合计及直方***可以一目了然。

其它选项依此类推。

对年收入在$150K以上的范围节点进行进一步分级（显示其子节点），选择已婚节点后显示信息如***6所示。

其它选项依此类推。

2.4 解释模型结果分析

针对FoodMart商店的举措，对挖掘模型浏览器的显示结果进行研读后得出这样的结论：年收入越高的顾客办理金卡、银卡的比例越高，收入越低的顾客办理普通卡和铜卡的比例越高。在高收入的顾客中，已婚者办理金卡的比例最高，单身者办理银卡的比例最高。在较低收入的顾客中，在家子女的人数少于两人的办理铜卡的比例较高，多于两人的办理金卡的比例较高。具体数据值及比例值可以从挖掘模型浏览器中得到。市场部将根据这些模式设计新的会员卡，使其适应申请各类会员卡的客户类型。

3 结语

企业要建立自己的决策支持系统就必然要应用数据仓库、数据挖掘技术，企业应根据自身要求合理建立特定主题的数据仓库，在此基础上还要结合实际问题选择相应的挖掘模型，从而得到最有价值的挖掘分析结果，以利于企业的经营发展。

参考文献：

数据分析篇7

【关键词】空间数据库存取结构数据类型

所谓空间数据库，是指地理信息系统在计算机物理存储介质上存储的与应用相关的地理空间数据的总和，针对传统空间数据库，其主要针对简单对象的数据存储和管理，而空间数据库可以是支持复杂对象的数据存储和管理，包括***形、***像的存储。

一、空间数据库存储管理系统特点分析

采用GIS技术开发的空间数据库管理系统，其是空间数据库的核心软件，空间数据库管理系统主要是基于SQL Server语言来实现的，对于空间数据存储管理，空间数据库管理系统是实现空间数据的平台，也是实现空间数据、属性数据的统一管理，并且也为数据库查询提供了快速、可靠的支持环境，当需要在空间数据库管理系统中进行数据查询，只需要输入SQL语言就可以对其进行空间查询，总的来说，空间数据库管理系统具有空间运算、查询快速可靠的特点。

二、空间数据库类型分析

基于SQL Server的空间数据模型，其是一种可伸缩性和高性能的大型关系数据库管理系统，其不仅支持大量用户的数据查询，也实现了自动锁功能，使用户在安全、高效的系统中访问数据，其中，空间数据模型具有结构统一和面向记录的特点，其可以采取数值存储方式和二进制存储方式来将空间数据存储在几何表中，空间基本数据类型则属于点、线、面构成的空间数据类型，点、线、面是空间数据模型的基本构成单元，在SQL Server数据库中，其主要以***层的方式来组织和表达，分析传统的关系数据库管理系统（DBMS），其只能处理一些较为简单的数据类型，如结构数据类型、时态数据类型等，然而，基于SQL Server的空间数据库可以应用在不同的领域中，例如针对面向空间实体的数据类型，第一，如一家医院所占空间在地***上的大小面积，总所周知，地形***尺寸比例较小，若需要在计算机绘制医院的所占空间比例大小，则给数字划线带来了一定的困难，而空间数据库可以有效解决此类问题，其主要将一个对象抽象成一个点模型，即利用数字划线数据将空间物体的大小直接抽象为空间点线面的实体，并采用坐标的形式来找准空间物体的位置和形状，这种空间实体的数据类型主要是来自于地形测***的原理来实现的抽象点模型，当需要绘制空间点模型的地***时，其可以根据空间实体的宽度和线型来表示空间位置，这种方式不仅有利于计算机表达，也有助于利用抽象***形来表达空间数据实体；第二，对于面向空间实体的影像数据类型，其主要包括遥感影像和航空影像，影像数据的空间数据类型在现代化经济中发挥着重要作用，其不仅可以提供丰富的数据资源，也可以直观的表达地表的自然现象，同时也可以详细的记录所观察到的自然现象，其具有生产效率高的特点，因此，人们可以利用数据影像来获得更多的信息，通过利用空间数据库中的数字划线数据功能来进行信息的加工处理，对于采用GIS技术开发的数据影像，则需要进行集合加工处理和灰度加工处理，从而得到具有定位信息功能的数字正射影像。另外，对于空间数据类型，还包括编制转换函数、扩充传统数据和编程模拟等空间数据类型。

三、空间数据库存取结构分析

与传统结构化数据模型相比，空间数据库具有更强大的功能，空间数据库属于关系数据库模型，其主要表现为关系-对象型存取结构，由于关系-对象型存取结构具有丰富的数据语义特点，因此，空间数据库具有两个不同的概念，包括对象类属性、关系类型属性等，其比较适用于半结构化数据的存储和管理，半结构化的空间数据是以管理对象为基础，例如空间规则***形的存储与管理，通过利用关系型数据库中的二值***像存储的四叉树来表示空间规则物体的八叉树，从而实现空间半结构化数据在关系型数据库管理系统中的存储与管理；对于空间数据库中的空间半结构化数据的存储与管理，还包括GIS领域中的拓扑型数据结构、R树和栅格数据结构，其中，拓扑型数据结构称为点-线-面结构，但是，这些空间数据存取结构具有局限性，大多数关系-对象型存取结构只能适用于某一领域，或只适用于某几种应用领域。总的来说，空间数据库因不同的应用需求有不同的存取结构形式，因此，在选择数据库模型中，应根据用户的不同应用需求来选择最优的数据模型和存取结构，但是，应注重空间数据库模型之间的统一管理，注重地理实体之间的相互联系，将地理实体的一个对象抽象成一个点模型，使空间数据库广泛应用在不同领域中。

结束语：

当前，空间数据库在不同领域中得到广泛应用，与传统数据库系统相比，空间数据库具有处理空间信息的功能，分析空间数据库的存取结构和数据类型，使人们对空间数据库的应用有一定的了解。

参考文献：

[1]沈敬伟,周廷刚,温永宁,罗洁琼,孙晨阳. 基于面向对象数据库的空间数据

数据分析篇8

【关键词】 excel; 财务分析; 数据库

用友、金蝶等财务软件以及企事业其他信息系统的应用和普及,大大提高了中小企事业单位会计信息化程度,减轻了会计人员的负担,节约了财务成本。但实务工作者也发现,财务软件更偏重于会计账务的处理及标准财务报表的提供,而分析功能不足,未提供良好的分析工具,分析方法也不够灵活,其他信息系统更偏重于业务处理。这时就需要借助excel等外部工具进行个性化的财务分析。

一、财务分析数据库的构建

用excel建立财务分析数据库时,可以充分发挥其灵活性,从各个维度、各个层次对企事业单位数据进行分析。尽管excel2007已经解除了以前版本只能处理65 536行数据的限制,但是也要考虑到数据库如果过于庞大,运行速度会降低。因此,建立数据库时如果数据库偏大,可以将数据库拆分成几个小的数据库。

明确了数据库的构建目标后,就可以从不同地方收集财务分析数据。这些数据既可以从用友、金蝶等财务软件获取,也可以从企事业单位的其他信息系统导入,如医院的his系统、药品管理系统、材料进销存系统等等。导入的数据既可以是用友等财务软件整个科目数据,也可以是固定资产数据等等。

财务软件和其他信息系统一般都有导出成excel电子表格的功能,如果这些信息系统软件可以导出成分隔符区分的文本文件,也可以通过excel中的分栏工具进行拆分。

(一)基础数据字段整理

在进行基础数据整理时,经常会用到这些函数:

1.时期处理函数。如根据日期提取年、月、周的数据:year(),month(),week()。

2.字符处理函数。如提取字符串中的某一内容:left(),mid(),right()。字符串联结:concatenate()。

3.数据格式转换函数。如将数字强制转换成文本:text()。

4.逻辑判断函数。如条件判断:if()。信息提取:isna(),istext()。

(二)数据的归类

财务分析时经常会对数据进行分类,这时可以借助函数vlookup()来实现。如对食品进行分类时,可以首先建立一张字典表,如表1。

然后在数据库里面在目标单元格输入函数vlookup()并设置函数参数,再对整个字段进行填充,就可以根据字段食品名称获取其对应分类了。

(三)数据库的定义

数据收集整理完后,可以在excel里形成一张表单(sheet),可将有数据的区域定义为一张表,并为之命名。本文以医院收入分析数据库为例,基础数据通过医院用友、his系统收集整理后,存放在一张名为“医疗收入”的表单内。这时先选择所有数据区域,点击右键,选择“命名单元格区域”,命名为如“数据表”。

定义数据区域可以更方便地对数据库进行维护。建立的数据库如***1。

二、财务数据的分析

数据库建立好之后,就可以充分利用excel的数据分析挖掘工具,灵活方便地对数据进行分析。下面介绍几种常用的分析方法。

(一)对比分析

建立的数据库如果包含了一段时期的数据并进行归类后,可方便地实现对比分析。这里面需要用到excel的数据透视表工具,首先将光标定位到“数据表”,单击“插入数据透视表”,并根据需要选择报表筛选字段、行标签、列标签字段以及值字段。在作对比分析时,应该在列标签选择时间字段,并选择需要进行对比的时间段。

透视表建立后,可以通过报表等字段筛选数据的范围,例如既可以看全院收入,也可关注某一个或几个科室的收入分析。同时,在邻近单元格建立公式对数据进行比较分析。建立的数据对比分析如***2。

(二)趋势分析

趋势分析也是财务分析中的一个常用方法,分析人员可以从数据变化趋势看出数据的长期变化趋势及季节趋势等。

用excel建立趋势分析时,也要建立数据透视表并选择要分析的字段。作趋势分析时,可以辅以***片更能直观地进行分析。将光标定位在数据透视表内,单击“插入折线***”或其他***形模板,并调整***形格式就可以制作出专业的***表。如***3。

(三)结构分析

结构分析可以看出数据之间的构成分析。在excel里面作数据的结构分析时也可以通过建立数据透视表,选择要分析的数据字段进行分析。同时,还可以制作数据饼***等进行直观的观察分析。数据的结构分析如***4。

三、财务分析数据库的维护与更新

财务分析数据库建立完成后,可以根据个性需求灵活地对数据进行抽取和分析。同时,这个数据库也是可以动态更新的。更新数据库时,只需在数据表末端追加数据记录,数据库就会智能地将数据加入。当然,这个数据库也支持对以前数据记录进行修改,批量修改数据时可以使用excel的批量替换功能;具备支持增加和删减字段的功能。

修改数据库后,应确保增加的记录在数据表内可以通过扩大数据表区域来实现。同步更新数据透视表和数据***时,只需要在任意表内,单击“更新数据源”,则所有基于数据库的透视表和数据***都可以同步进行更新,操作非常方便。

从上述研究可以看出,excel具备灵活、简便而功能强大的数据分析和挖掘功能,而基于excel数据库的维护和更新也非常简单,财务人员通过简单的操作,就可以从各个维度、范围对财务数据进行深入的分析。当然,excel还具备更多的数据分析潜能,需要财务人员在工作中发挥主动性和创造力,从而提高财务分析的效率和作用。

【参考文献】

数据分析篇9

摘要：随着大数据时代的来临，企业的财务分析活动也出现了一系列变化。而财务数据分析作为企业财务分析的重要组成部分之一，其分析结果的准确度直接影响着财务管理水平。在大数据时代，财务分析等同于大数据分析。本文主要研究了财务分析与大数据时代的关系，并阐述了财务分析未来的发展方向。

关键词：大数据财务数据财务分析资产

1 概述

财务分析最早起源于二十世纪，至今已有一百多年的发展历史，并初步形成了相应的分析管理体制。财务分析具有很强的时效性，其分析内容应随着经济环境的发展变化而及时改变。随着知识经济时代的到来，大数据被广泛地应用至各个领域，如保险、医疗、信息、航空航天等行业，并取得了良好成效。在财务分析中，大数据技术以其大量化、多样化、快速化优势受到了财务管理人员的一致好评，一方面它极大地提升了财务数据分析和处理的能力；另一方面还提高了财务管理的质量和水平。

2 财务分析与大数据时代

在西方，财务分析已经产生发展了近一百年的时间。但在我国，财务分析只有近十年的历史，各方面还有待进一步改进和完善。自我国改革开放以来，财务分析已受到越来越多企业利益相关者的重视，许多会计专业的相关学科也都增加了财务分析的模块。

所谓财务分析，就是指按照一定的专业方法对会计核算资料和报表资料等进行分析，从而准确评价和考察其经营活动、投资活动、分配活动、盈利能力、偿债能力等的财务活动。财务分析可以为企业的投资和经营发展提供良好依据，使其投资人、经理人、债权人等更好地了解企业的发展历史，并预测其未来发展方向，从而做出科学的决策。

会计技术是制定财务报表的基础和前提，财务报表则是财务分析的基础。管理者可以通过财务分析了解和掌握企业的运营状况，进而制定行之有效的管理制度和***策。财务分析的最终目标是使财务管理人员了解过去的经营业绩和当前的财务管理水平，从而进行科学决策，推动其财务管理的可持续发展。因此，会计技术的发展影响和决定着财务分析的产生与发展。这是一个信息化的时代，云平台如火如荼的进行，大数据概念又横空出世。与云类似，大数据起始于信息化，繁兴于物联网以及社交网络等，因此也带有很浓的互联网口味的技术“迷失在太空”的经历。互联网时代，企业注定是要遭遇一场“数据大爆炸”，尤其是大型公司和互联网公司在经营过程中产生大量的、各种各样的数据，数据量越来越大、数据类型越来越复杂、数据增长速度越来越快。概括来说，大数据除了具有庞大的特点以外，数据变化速度快，种类繁多，较高的准确性也是其主要特征。伴随微博、微信等网络媒体的快速发展，及媒体时代的来临，互联网中无时不刻都在产生大量数据，大数据时代来临已经成为了不可逆转的趋势。这给传统的数据仓库数据处理和分析技术都提出了巨大挑战。

最早提出“大数据”时代到来的是全球著名咨询公司麦肯锡。究出其本质，大数据与其说是一门技术，不如说是新环境下海量数据价值发挥的方法之一。传统企业的财务分析可利用这种方法，去进一步发挥作用。大数据，或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、整理成为帮助企业经营决策更积极目的的资讯。在《大数据时代》中大数据指不用随机分析法这样的捷径，而采用所有数据进行分析处理。大数据的4V 特点：大量、高速、多样、价值。

“大数据”在物理学、生物学等领域以及金融、通讯等行业存在已有时日，却因为近年来互联网和信息行业的发展而引起人们关注。大数据作为云计算之后IT 行业又一大颠覆性的技术***。云计算主要为数据资产提供了保管、访问的场所和渠道，而数据才是最终有价值的资产。一个文化系统可以分为制度、技术和观念三个层面。文化系统的发展经历了制度主导和技术主导两个时期，如今世界正在走向观念主导的新时期发展，各民族文化通过互联网正在不断融合，从文字、服饰到生活方式，民族之间的区别正在逐步变小，在大街上，坐在饭馆里，已经不能很快分辨出不同的民族。大数据时代，需要继续保持传统文化的***性，就是要让我们的社会和数据打上文化的烙印，要建立属于我们的数据体系系统。

目前，大数据的应用已经渗透至我们生活的方方面面。例如每天，阿里巴巴网站上都会进行大量交易，并产生大量数据。而阿里巴巴可以通过分析商户近100 天内的交易数据和管理信息就可以判断出商户是否存在资金和管理问题，并分析其交易风险系数。一旦做出科学判断，阿里巴巴就会正式启动其贷款平台模式，并积极与可能会有贷款需求的商户进行交流与沟通，并向其介绍阿里巴巴的具体贷款产品，综合分析其贷款倾向。又如，随着微信的兴起和发展，人们的学习生活方式也发生了相应的改变。据统计，每天都有超过几亿人使用微信进行交流互动，通过其记录心情和生活。每天人们都会在微信平台上分享***片、文字、声音、视频等，这就使得平台上充斥着大量的大数据。再如某综合类网站的编辑每天都要考核网站的访问量，并密切关注热点新闻。受此影响，在日常生活中该网站编辑逐渐养成了搜索新闻和风云榜的习惯，并找出一些新颖的新闻内容进行编辑整理并及时至网站上，以提高其点击率。常见的搜索引擎，如百度、谷搜狗等每天都会录入海量词汇，并进行对比分析，选出一部分网民可能感兴趣的词汇进行整理，以更好地满足网民的搜索需要。

以上都是当下大数据的应用，随着大数据的发展和进步，它会在不久的将来得到应用。

一项针对大型跨国公司高管进行的调查结果显示，目前企业中约有超过三分之二的管理人员肯定数据的价值和作用，并将其视作企业发展的无形资产，要求企业妥善利用。这就显示了，在大数据时代企业越来越认识到数据本身价值和从数据中得到价值二者之间的差异，要求进一步深化财务管理体制改革，积极运用各项信息化手段进行财务管理，不断提升其数据分析和处理能力，以更好地适应信息时代的企业财务管理需求，从而有效地增加其竞争优势。数据的分析和利用受各方面因素的影响较大，其分析难度较大，且过程较为复杂。因此，企业必须充分利用手头现有资源加强财务数据管理，不断提升其数据处理和分析能力，保证数据价值的充分发挥，实现其决策的科学化和信息化。

举个例子，保险公司的汽车险，员工可以通过搜罗数据，得到车主的驾车习惯是否良好，驾车时间和路段是否安全，停车的车库的环境等数据，进而降低驾车风险低的车主的保险费用，提高风险高的车主的保险费用，这样便从一定程度上增加了保险公司的收益，保证保险公司的利益。销售公司可以从客户的家庭水电费，煤气燃气费的消费情况，使用的手机，电脑，车子的型号，以及经常出没的餐厅，娱乐场所等信息收集，从而更加了解客户的生活水平，以便日后推广什么水平程度的产品。

要想更好地提升企业的财务管理能力，企业就必须进一步明确财务分析和大数据的关系，统筹兼顾，实现资源的优化配置。众所周知，财务数据是企业最基本的数据之一，其积累量较大，其分析结果直接影响着企业财务管理的最终质量。因此，企业在进行决策分析时，必须坚持客观公正原则，以财务数据为基础，制定明确的分析指标和依据，以保证企业财务管理的平稳推进和运行。

在进行财务分析时，财务管理人员首先应该查找和翻阅当期的管理费用明细，并将其与前一阶段的数据进行对比，找出二者的主要差异，从而找出管理费用的变化规律，最终得出变化原因。在进行原因分析时，财务管理人员可以建立一个多维度的核算项目模型，并在模型中做好变化标记。在整个分析过程中，财务人员往往要花费大量时间用于管理费用核算与验证，同时查找相关资料。在财务软件中，上述系列动作要切换不同的界面。而如果利用大数据技术，只要通过鼠标的拖拽，就可以在短短几秒钟内分析出所有管理费用明细发生在每个部门的情况。

对于企业的决策者而言，通过对财务信息的加工、搜集和深度分析，可以获得有价值信息，促使决策更加科学合理。

3 小结

随着我国社会主义市场经济体制的不断发展完善，大数据技术改善财务管理前景广阔。纵观目前的大数据提供商，主流商务软件厂商都在通过自主研发或收购的方式进入大数据的领域。数据属性的标签是人类经验判断的数据，是数据后的数据。例如，你要为一件物品打标签时，其实就已动用了你的经验数据分析，并进行了归纳总结，结合现下的环境给出了判断。若没有考虑环境影响及准确性的评估，这种经验和直觉的判断是不稳定又难以解释的。但从数据收集的角度去看，数据属性标签又是一个潜力很大的数据。在数据属性管理上，对于用户来说，每个人身上贴的标签是多种多样的，但对于企业来说，如何用一个点去将之串联，如何将这些标签归一，又如何把这些点连接起来去描述这个用户，才是核心问题。

参考文献：

[1]陈友邦，张先治.财务分析[M].东北财经大学出版社，2007.

数据分析篇10

1引言

华尔街有这样一句家喻户晓的谚语:不要依靠金融分析师的盈利预测和投资评级买卖股票,但是也不要抛弃他们.盈利预测和投资评级数据中隐藏着重要的信息,如何分析挖掘并合理利用它们,其重要性当然是不言而喻.这些信息无疑是经济学家、统计学家希望挖掘的矿源,设法从中得到闪着金光的信息和有价值的投资策略.股票市场是信息高度密集型的,股价的涨落对于信息的变动十分敏感.而股票分析师作为向投资者提供上市公司信息的群体,在股票市场中扮演着重要的角色.在美国,金融市场日趋成熟,分析师群体对股票市场有相当大的影响力.随着中国证券市场的发展和成熟,越来越多的投资者(特别是机构投资者)开始关注和积极利用分析师的投资报告.但是,许多投资者在获得盈利预测和投资评级数据后,往往因为不能正确使用这些数据,反而对投资造成不良的影响.一支股票往往有众多分析师跟踪,给出的投资建议也不尽相同,投资者应该听取哪位分析师的建议呢?而且投资评级的给出是相对于一定的时间段的,不同投资风格的投资者持股时间是不相同的.即使是在欧美最发达的金融市场,买入评级的股票也未必比卖出评级的股票市场表现更好.评估这些投资报告与市场实际走向吻合的程度是本文研究的目标.通过分析报告的预测能力和分析师群体对于股票市场的影响力,投资者才能够基于这些报告来制定和优化投资策略.我们搜集整理了400多份分析师的研究报告,建立了关于盈利预测和投资评级变化的数据库.在利用统计方法对数据进行的预处理和可视化的基础上,对于分析师群体的预测能力及其准确性和对中国股票市场的影响程度进行了研究.结果表明,分析师调低盈利数据和评级报告的预测能力低于调高的报告;分析师群体的一致评级投资报告,在统计意义下显著高于大市收益率.分析师的预测能力是与行业相关的,故进一步通过数据挖掘方法,讨论了筛选行业明星分析师的问题.

2数据准备数据准备

是进一步建立数学和统计模型的前提,是数据分析与数据挖掘中最花费时间的步骤,同时也是整个研究工作的关键.本研究的数据准备工作主要包括以下步骤:步骤一:样本选择选择了上证50指数和深圳100指数中共计26家上市公司,每一家上市公司建立一个***的报告库,收录相关的证券分析师报告.上证50指数和深证100指数,是分别从上海和深圳证券交易所的上市公司中挑选出规模大、流动性好的50和100只股票组成的样本股,综合反映了上海及深圳证券市场的整体状况,具有相当的权威性和市场覆盖性.步骤二:标准化对每份报告设置以下五个要素来描述:报告来源、报告日期、股票名称、盈利预测、投资评级.步骤三:报告有效性判别信息的变动才会导致股价的变动.因此我们对报告库中的每份报告按照时间顺序将要素整理成序列,比较目标报告与其上一份报告,并记录盈利预测和投资评级的变化.定义所有盈利预测或投资评级有变化的报告为有效报告,记录其变化项目和变化方向.如下三类报告被定义为是无效的,1.无变化报告:研究机构一般要定期给出报告,有相当一部分报告的盈利预测和投资评级与上一份相比并无变化;该报告本身被视为无效,相应记录作为后续报告的参照.2.首次关注报告:分析师对某只股票首次给出的评级报告;该报告的记录仅作为后续报告的参照.3.不连续报告:由于样本库的丢失等原因造成某份报告的上一份报告缺失,从而无法界定其变化.步骤四:指标化如何刻画一份报告的有效性是数据分析的关键.这里我们采用事件研究法中的超额收益来检验股价对分析师报告披露的反应.事件研究方法由Fama,Fisher,Jensen和Roll提出,并被广泛地运用于检验事件发生前后的价格变化,或价格对信息披露的反应程度.超额收益是其中一个很重要的指标,用来度量股价对事件发生或信息披露异常反应的程度.在本文中超额收益这个指标一方面可以剔除市场或者行业突发事件的影响,使变量集中反映该个股的影响因素,另一方面可以用持有策略考察累计收益.定义:超额收益=实际收益率-市场平均收益率.（公式略）

3数据可视化

数据可视化使我们对研究对象的整体有宏观的理解和把握.原点表示收到评级报告日期,横轴代表收到报告后的交易日天数,纵轴代表超额收益.每一根柱(由颜色深浅区分)分别代表从收到报告至该交易日收市时,所有样本超额收益的均值和标准差,它们组成两个时间序列,如***1所示.可以看出分析师报告超额收益的样本均值为正,并且随时间而增加,即中长期来看,分析师报告整体可以为投资者带来正的超额收益.我们观察到在数据库的312份有效报告中,盈利数据上调的207家,下调的94家,投资评级上调的52家,下调的32家.我们将样本中所有调低盈利数据和评级的报告组成一个集合,来考察分析师调低报告的超额收益,（***略）从总体来看,分析师倾向于上调盈利数据和投资评级.分析师报告样本中调低盈利数据和投资评级的这部分子样本,均值没有明显大于零,即调低评级的报告预测能力不如调高评级的报告.但投资者依然可以听取分析师的建议回避这类股票,从而降低丧失投资其它股票获得超额收益的机会成本.

4分析师群体的假设检验

在讨论了分析师报告全体样本以及调低报告样本的预测能力后,进一步我们选取子样本,满足以下条件:第一,对同一只股票进行评级;第二,报告公布日期在相邻三天内;第三,报告的盈利预测和评级变动方向一致.定义这个集合为一致评级报告.直观上说,在同一时段,分析师群体对同一只股票的有一致的评级变化,那么这个集合的超额收益应当要高于全样本.在标准差相当的情况下,一致评级报告样本的均值确实要高于全样本.由于所选样本数量有限,能否得出一致评级报告总体有正的超额收益,也即总体的均值是否大于零?我们下面通过作t检验来解答上面提出的问题.此时需要检验的假设是（公式略）分别取α=0.1和0.05,短期末、中期和长期的t值都落在了拒绝域中.所以,我们在显著性水平α=0.05下拒绝H0,即认为不同分析师在相邻时间对同一只股票推出的盈利数据和评级变动一致的报告,在其报告推出的短期末、中期和长期,有正的超额收益.

5明星分析师的数据挖掘作为分析

师群体的样本,我们关注他们作为一个整体的表现,从而判断他们对整个股市的影响力.对于投资者而言,他们更加关注的是分析师个体的表现,即谁的报告更加准确.为投资者寻找出明星分析师更有实际价值,所以这也是本文的重点.数据库中的数据是绝对的,数字所对应的是超额收益率.而如果考察每个分析师的表现,相对的排名才是关键.为了得到比较客观的排名,我们先将数据库进行概念分层,使得每份报告在报告日后每一天的超额收益在群体中有相对的等级和对应的评分;其次,我们通过对评分数据的聚集和汇总,按时间顺序将每份报告分割为短、中、长期三个区间,且将短期再细分为初、中、末三个小区间,得到期间各自的平均值.这样每份报告的有效性就由5个评分值来描述;最后将所有样本按行业分类,按分析师汇总,按时间分组,并考虑对应股票的走势对分组进行调整,最终得到排名.1)数据预处理:步骤一:数据归约和概念分层生成数值分层是通过将属性域划分为区间,离散化技术可以用来减少给定连续属性值的个数.对于给定的数值属性,概念分层定义了该属性的一个离散化.通过收集并用较高层的概念(如本文中excellent,good,fair,poor,bad)替换较低层的概念(如本文中属性超额收益的数字值),概念分层可以用来归约数据.通过这种数字概化,虽然细节丢失了,但概化后的数据更有意义、更容易解释,并且所需的空间比原数据少.我们的作法是:取报告日到60个交易日为时间区间,所有分析师给出报告相同交易日后的超额收益为一组,作直方***,得到60张.下***为其中之一:所有分析师给出报告40天后超额收益的直方***,从***中我们可以看到近似正态的分布.为了得到每份报告的在报告日后每个交易日超额收益的相对排名,我们对数据进行分层,规则如下:第一,将所有报告的表现分为5大类,excellent,good,fair,poor,bad,并赋以5,4,3,2,1的分值;第二,分类依据:各份报告在直方***中的位置,即取15%,35%,65%,85%四个分位点作为分界点.步骤二:数据变换在数据挖掘中,聚集是指对数据进行汇总和聚集.在这里,我们聚集日超额收益的得分,根据投资经理的建议将60个交易日按时间分段,从而计算得到短期、中期、长期的平均收益得分.2)聚类分析在通过数据分层和聚集后,我们得到了每份报告对应的5个时期的得分值.同时,观察个股的走势***后,我们发现在股价不同波段给出评级报告难度是不同的,如果在上升波段给出上调的评级,显然不能与下降波段中给出上调评级置于同组评估,因为后者属于逆势而为,难度相当大,除非有相当的把握,否则很难预测准确.因此如果直接按时间区间取均值比较,会忽视每份报告在公布当日所面临的难度差别,从而最终可能扭曲分析师的相对排名.因此我们需要以报告在相似的时间区段和股价波段的相对排名来替代简单的平均值.综合考虑时间和股价因素,我们对数据进行聚类分析的具体原则如下:第一,按时间顺序分组,以三个月作为基本分段,每组涵盖3～5个样本,若在三个月内样本数大于5,则考虑继续细分,保证每组样本数比较均衡.第二,根据股价走势的波段对样本分组进行调整,即若分组时间段[a,b]涵盖股价由上升变为下降或者由下降转为上升的突变点c,则以突变点c为新的分组点,视组内样本个数将原时间区间[a,b]划分为[a,c]和[c,b]或者直接将区间[a,c]和[c,b]归入各自相邻的区间.3)结论支持我们通过上述方法得到的分析师排名,与《新财富》杂志通过向基金经理发放调查问卷为分析师打分的形式得到的排名有很大程度上的一致性.

转载请注明出处学文网 » 数据分析10篇

数据分析10篇

数据分析篇1

数据分析篇2

数据分析篇3

数据分析篇4

数据分析篇5

数据分析篇6

数据分析篇7

数据分析篇8

数据分析篇9

数据分析篇10

销售案场工作计划

统计分析方法10篇

敦煌文化10篇

表彰大会策划书模板

市场机制论文

财务统计10篇

医院医生组工作计划

工作与总结模板

团队营销方案

银行年中工作总结

数据结构10篇

网络安全检查报告

数据库管理系统10篇

数据恢复10篇

统计分析方法10篇

统计数据10篇

统计分析法10篇

工业分析检验论文

多元统计分析10篇

数据库审计10篇

调查报告数据分析

云数据中心解决方案