用数据说话

2020-02-04 作者:职业技能   |   浏览(85)

  数据胜于雄辩

  我们必须用数据来说话。数据的价值和重要性已经成为公知们的共识,数据已经脱离了原先单一科学的概念,引领我们所处时代的发展趋势,成为我们这个时代的印记,影响着我们政治决策、经济发展和社会变革等诸多领域。数据胜于雄辩,卓然发生在2012年美国第57届总统选举,这场有史以来最激烈、花费最昂贵的总统选举。民调显示,大选关键的三场电视辩论使共和党总统候选人罗姆尼支持率大幅提高,一举扭转持续落后的劣势,与现任总统奥巴马形成旗鼓相当之势,使选情持续陷入胶着状态。第一电视辩论,面对罗姆尼的追问,反诘以及嘲讽,奥巴马完全招架不住,时而支支吾吾,时而偷看小抄,实在令人诧异,嘘唏。会后,左倾媒体的民调显示:35%的受访者表示看过首场辩论后,他们倾向投票给罗姆尼,只有18%说要投给奥巴马。

  然而结果是奥巴马赢得大选,其竞选团队中的数据分析人员可谓功不可没。从总统大选一开始,奥巴马竞选团队主管Jim Messina便网罗了一支相当于在2008年竞选中分析团队5倍的选情分析团队,希望打造一个以数据驱动的、完全不同于以前的竞选活动。大选前,奥巴马团队高达10亿美元的募款目标被设定后,每个人都觉得这是不可能的任务。但是,团队数据分析人员通过网络和数据搜集,积极分析选民支持状况,进而分析怎样的说词比较容易让支持者掏钱捐款,每天发送出的各种募款 Email以不同的标题、发件人和内容进行游说。这些极具针对性的Email使得奥巴马团队在今年夏天就早早完成了募捐目标。同时,海量数据分析挖掘也被运用在竞选广告的购买投放和建立“摇摆州”选民投票偏好的详细模型上,使得奥巴马竞选办公室对于在哪些州、哪些地区竞选有哪些偏好类型,应以何种方式投放多少金额的竞选广告了然于胸,极大地提升了竞选活动的效率。

  数据挖掘支持下的决策为奥巴马的连任立下了汗马功劳。这表明传统的基于直觉与经验决策的竞选专家的优势在急剧下降,取而代之的是数量分析专家与电脑程序员,他们可以在对数据分析中做到洞若观火。正如一位白宫官员所说,“决策者们坐在一间密室里,一边抽雪茄,一边说:‘我们总是会在《60分钟》上投广告。’的时代已经结束。在政治领域,大数据的时代已然来临。”
 

  
 

  大数据时代的来临

  大数据(Big Data)的来临仿佛正是忽如一夜春风来,千“数”万“数”机遇到。一个个关于大数据的传奇故事,一桩桩为争夺大数据制高点而展开的并购案,一场场以大数据为主题的各种研讨会,无一不在宣告,我们这个时代又迎来了新的热点、新的机遇,同样也是新的挑战。“大数据”已经颠覆传统意义上所谓数据库或者大量数据,是对数据中心处理分析的重塑,是一个涵盖多种技术的概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。IBM将“大数据”理念定义为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生的价值(Value)。

  “大数据”到底有多大?为什么“大数据”在这两年走红?主要归结于互联网、移动设备、物联网和云计算的迅猛发展,使得人类每分每秒都在产生巨量数据。据统计,一天之中,全球互联网发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量)……截止到2012年,全球数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。从出现文明到2003年,人类总共才创造 5 EB的数据,但是我们现在仅在两天内就创造出相同的数据量。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。

  大数据已经成为一种新的资产类别,就像货币或黄金一样。“数”中自有黄金屋,点“数”成金的故事为人津津所乐道。麦肯锡全球研究机构在2011年5月发布的《大数据:创新、竞争和生产力的下一个前沿领域》中表示,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元收入、帮助欧洲公共部门的管理每年提升2500亿美元产值、帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得60%以上的净利润增长。在中国,今年11月11日“光棍节”,我们看到了阿里巴巴一组近乎疯狂的数据:一天成交191亿元,成交超过1亿笔!从交易的角度看,阿里巴巴做的是电子商务。但如果看电商交易的实质,阿里巴巴做的实际上是信息和数据服务。它提供的撮合交易服务,不管是B2B还是B2C,实际上提供的是供需双方的信息;它提供的第三方支付服务,背后也是靠撮合信息的服务。此外,阿里巴巴靠着电子商务,积累了大量的企业和个人信息数据。对于未来阿里巴巴的发展方向,在今年九月初举办的“第九届全国网商大会”上,马云提出了阿里巴巴的“三步战略”:平台、金融、数据。对于阿里巴巴发展的第三个阶段,马云希望“大量的数据为国家做出一个气象预报台”,“给每家企业装上了一个获知本企业市场情况的GPS、一个雷达”。

  同样,笔者在美国电报电话公司实验室(原贝尔实验室)工作期间,深深体会到数据的魅力和数据分析的力量,以及它们为公司成长带来的机遇。与中国电讯行业不同的是,美国的电讯业在经历了政府主导的分拆、反垄断法后,正面临着前所未有的市场竞争和新技术的挑战。挖掘海量数据为公司发现客户价值、推送定制服务、合理配置有限资源提供了科学的判断和决策,从而有效地提升了企业的市场竞争力。比如,电讯公司利用客户电话网络的用量数据可以发现客户的商业特点及近期行为模式,从而可以有效地针对特定客户订制符合其利益的激励计划;同时电讯公司也会利用电话用量的特征,及时发现可能的电话盗用和电话犯罪行为,保护消费者的利益。可以预见,大数据对宏观经济层面、中观产业层面、以及微观企业和个人层面的影响正与日俱增。
 

  
 

  数据的“农”、“工”、“商”

  伴随着大数据时代到来的是与数据采集、分析处理、优化管理相关的产业和产业链。众多学者和企业家一致认为,在未来,数据将会像土地、石油和资本一样,成为一种最基本的资源,在现代社会的生活和发展中发挥不可或缺的重要作用。我们看到数据也因此可以在“农”、“工”、“商”三方面进行发展,“农”在于数据的培植、收集和存储,任何组织或者个人都要养成积累数据、收集数据、管理数据的良好习惯,为决策研究打好坚实的数据根基。“工”在于对数据的分析、加工、检索、处理等工序,把杂乱无章,看似无序的数据分析加工成能为我们所用的利器,最大限度开发数据的功能,发挥数据的作用。“商”意味着对数据价值的应用和挖掘,从数据分析中获得更多的商业价值,正如目前如火如荼开展的云计算产业,开发了数据的应用商业价值。许多昨日的IT业巨头如IBM、Oracle,通过收购SPSS、Crystal Ball等数据分析系统,今天正在完成了从“农”、“工”到“商”的整合,有些甚至组建了自己的Analytics分析团队,为公司内外提供更多、更广泛的服务。

  Hal R. Varian这个名字对于接受过经济管理类教育的人来讲并不陌生,他撰写的《Intermediate Microeconomics》很多年来一直是最流行的教科书。他曾经是University of California at Berkeley的经济学教授,现在是Google的首席经济学家(Chief Economist)。他断言,未来十年内最热门的工作将会是“数据科学家”——互联网和电子商务企业在过去十年间积累了大量的数据,现在到了寻找人才利用这些数据的时候了。毫无疑问,数据科学家将是下一个十年最热门的职业。同样,笔者认为“数据农夫”Data Farmer也将成为数据科学家队伍的重要成员。各类数据培植、采集、积累和存储,都是基于日常数据、常见数据、周围数据的辛勤耕种,是对“小”数据的尊重和培养。坚持收集、积累、使用数据,小数据也会变成大数据,大数据的“大”是一种机会,而小数据一样可以说话。

  
 

  小数据也一样能说话

  数据、数据还是数据,很多学生在做科研的时候,在大胆臆测、公式推导、定量分析、实证研究、引出结论的时候往往由于缺乏相关数据、难以过关的数据质量甚至是无法说清的数据来源而停滞不前。同样在任何一个企业、任何一个领域如果需要做出一些变革,都要基于以往的数据,在此基础上进行分析调研,得出相关结论。因此没有数据,寸步难行。然而在中国,有时候有些企业由于种种原因排斥或者忽略数据的应用,要么是不了解数据分析,或者是不愿意在数据上花过多的时间和精力,有的过于自信,坚信自己而不必依赖数据就可以做出决策,有些甚至是因为害怕数据揭露其潜在问题和捅出其较差的业绩。

  在笔者回国后所接触的一些企业研究项目中,很多企业最担心是数据质量和由此得到结论的可信性(“垃圾进,垃圾出”)。事实上,通过学习系统的数据分析方法和正确的统计理论,我们可以做到去粗取精,去伪存真。在笔者近期进行的一个国内某企业的市场分析中,笔者带领研究生团队,通过充分挖掘客户数据,并结合市场调研信息,运用经济模型和统计方法对全国商用轮胎的市场容量进行了细致的研究。市场需求估计与当年轮胎生产量的误差仅为1-2%,再此验证了数据的真实性和可靠性。事实上,在项目的初期,笔者同样对我国的数据质量心存疑虑,尤其是宏观经济指标的选取和微观数据的采集。在大胆运用面板数据等统计方法的基础上,我们不仅发现了商用轮胎的消费与GDP有着紧密的联系,而且量化了2008年金融危机对我国经济的冲击以及2009年“汽车下乡”政策对汽车轮胎市场的影响,准确地刻画市场与经济的动态变化。

  数据质量如同产品质量一样,永远是数据“消费者”必须面对的课题。同样,数据“消费者”对数据的累积也并非一两天可完成,对于看似零散混乱的小数据,要做到持续、稳定地收集,不积跬步无以至千里,不积小流无以成江海。长时间所累积的数据不光使数据质量的改善成为可能,更会使深层时间的思考成为了可能,体现了严谨的科研工作者前瞻、耐心和智慧的美德。

  
 

  相信数据、尊重数据、大胆使用数据

  实“数”求是,真理往往隐含在数据中,但真理的发现并不容易。前有Giordano Bruno为探索天体运行的科学真理而献身,Isaac Newton从数据中发现三大运动定律和万有引力定律,今有Edward Deming基于数据的质量科学方法和William D. Gann的股价数据中的真理。对数据的尊重,对真理的敬畏,使得这些科学大师与商业精英认识到,只有苦练基本功,不墨守成规,努力不懈地研究新事物与新方法,才能在纷杂的数据中找寻真理的踪迹,也才有可能享受真理带给人类的幸福与快乐。相信数据、使用数据不仅仅是学者研究所必需的方法,更是一种积极的人生态度。今天的学子们,请珍惜在校学习的机会吧,谁言理论脱离实际,没有深厚的理论基础,怎能从纷杂的数据中辨识真理与谬误?愿你们相信数据,尊重数据,大胆地使用数据,因为它不仅是一种方法,更是一种自信,总能在千头万绪中给予你可靠的指引。
 

本文由凉拌菜技术培训_优质培训机构推荐_奋力得职业技术培训网发布于职业技能,转载请注明出处:用数据说话

关键词: 职业技能