看透大数据-陶然笛人的专栏

看透大数据

2018-07-22 13:04:01栏目：默认栏目 IP属地：IP未知

近几年，“大数据”这三个字，因过度被吹捧而被妖魔化。1998年，《科学》杂志刊登的一篇介绍计算机软件HiQ的文章《大数据的处理程序》中，第一次正式使用了“大数据（big data）”一词。2012年，有两本书对“大数据”的流行起着推波助澜的作用，影响着国人的生活和工作，一本是英国舍恩伯格教授的《大数据时代：生活、工作与思维的大变革》（国外大数据系统研究的先河之作），另一本是中国涂子沛先生的《大数据》（中国大数据领域第一本著作，2012年7月出版，该书先后获多种奖项，受到国务院副总理汪洋的公开推荐），之后，“大数据”一词便风靡大江南北，成了人们谈论时事的必备“红词”。

由于“大数据”是一个很不科学很不严谨的概念，具有很大的模糊性，因此给外界留下了很大的想象空间。这一概念看起来高大上，科技感十足，似乎成了一个筐，什么都可以往里装，以至于社会上屡屡出现冠以“大数据”为名的炒作题材，仿佛我们真的置身于“大数据”的包围之中了。

一、话说数据

最早提出“大数据时代到来”的是麦肯锡公司，该公司声称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”那么，到底什么是数据？

（一）何谓数据

数据（data）在拉丁文里是“已知”的意思，在英文中的一个解释是“一组事实的集合，从中可以分析出结论”。简单地说，凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的，就可称之为数据。三国时期魏国玄学家王弼著的《周易注》上说：“结绳为记，事大，大结其绳；事小，小结其绳。”，这种打了结的绳子就是数据。步入现代社会，信息的种类和数量越来越丰富，载体也越来越多。数字是数据，文字是数据，图像、音频、视频等都是数据。说到底，数据的本质是人，分析数据就是在分析人类族群自身，数据背后一定要还原为人。

（三）数据的分类

（1）结构化数据

结构化数据即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据（如数字、符号等信息）。

（2）非结构化数据

非结构化数据是难以用二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、音频和视频信息等等。非结构化数据用非关联数据库描述，其字段长度可变，每个字段的记录又可以由可重复或不可重复的子字段构成。

（四）数据之间的相关关系与因果关系

因果关系是指某个因素的存在，一定会导致某个特定结果的产生，简单地说，A的发生必然导致B的发生，A就是B的原因，B就是A的结果。

相关关系是统计学上的一个概念，是指某个因素的存在总是伴随着另外一个因素的存在，即A发生时B也发生，但A是否是B发生的原因，无法确定的。

因果关系与相关关系是数据联系的两种形式，也是经常容易被人们混淆的两种关系。面对客观世界的种种不确定性，人们喜欢寻找原因，混淆因果关系与相关关系，是一种常见的心理误区。

　二、“大数据”到底有多大

“大数据”已经成为个流行的词汇，但其定义一直是模糊的。随着经济和技术的发展，产生的数据如此之多，以至于传统的数据储存技术和分析方法，已无法满足人们的需求。于是，信息技术专家以“大数据”这个术语，来描述各类不同数据。谷歌、亚马逊、沃尔玛以及其他大公司，可能是最早遇到上述问题。随后，许多小公司也遇到了一样的麻烦，于是乎，大数据术语开始流行。大数据有多种定义，人们至今没有达成一致意见，甚至有人认为数据分析就是“大数据”。比较流行的定义有以下这么几种：

（一）“3V说”

“3V说”是由高德纳（Gartner）公司的分析员莱尼提出，简单地说，大数据是指大量的数据，它如此之大，以至于传统的数据储存和分析技术均遇到障碍。3V是指Volume、Velocity和Variety，其中，Volume（大容量）是指数量大到服务器负荷无法承受，Velocity（高速度）是指数据增长（输入输出）速度极快，Variety（多样性）是指数据来源多种多样（比如文本、视频、图像等）。

（二）“4V说”

IBM公司在莱尼的基础上提出大数据的4V特征，即Volume（数量大）、Velocity（数据处理速度快）、Variety（数据类型繁多）和Veracity（真实性，即要求数据质量高）。

国际数据公司（International Data Corp.）在莱尼的基础上增加了Value（价值性）而提出另一种“4V说”，这是目前比较流行的一种定义。

（三）大数据是“全数据”

舍恩伯格教授的《大数据时代》一书提出，大数据指总体等于样本的数据，也就是可以获得所研究问题的“全数据”。舍恩伯格教授的观点颠覆了人们坚守的统计学思维，其数据处理的理念为：大数据不是随机样本而是全体数据、大数据不考虑精确性而是混杂性、大数据不是因果关系而是相关关系。

（四）大众媒体定义

此定义来源于大众媒体，是指新数据集的创造性使用，将大数据变成流行语，这是一种模糊定义。

三、大数据与传统数据有显著不同吗？

从数据的本质来看，大数据与传统数据区别不是很大。

（一）大容量（Volume）不一定就是大数据

有人说，数据的大容量就是采集、存储和计算的量都非常大，起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。但是“数据大”不等于“大数据”，如果光拼体积“大”，那么早在20年前，天文、物理和生物信息学的数据，也够得上是“大数据”了。

（二）多样性（Variety）的误解

通常认为，大数据的多样性（Variety），是指数据种类多样，最简单划分为两大类：结构化数据和非结构化数据，后者目前已占到整个数据的70%~80%。实际上，并不存在真正的非结构化数据，结构本在，只是处理技术未到，未能建模而已。数据分析的主要任务之一，就是将非结构化数据转化为结构化数据，对这种转化的探索，终将创造新的理论和方法。

（三）Velocity、Veracity与Value并非大数据所特有

“算得越快越好”是人类一直追求的目标，人类在一直追求“计算快”的路上狂奔，把“快速”作为大数据的主要特征，完全是无稽之谈。人们常说“时间就是金钱”，失去时效的数据，也就失去了价值。

数据质量也是人们对数据本身要求的目标，也不是大数据的主要特质。数据在产生、采集或存储等过程中，不可避免地出现数据质量参差不齐的问题，即数据里混有杂质（或称噪音）。若噪音是偶发的，那么它会在数据量足够大的情况下，被更多正确的数据所淹没，即瑕不掩瑜也，这也是数据的容错性；若噪音具有规律性，那么人们通过对大量数据的分析就会发现这个规律，然后再根据规律进行数据“清洗”，把噪音过滤掉。

至于数据的Value（价值）特征，说法也是欠妥。事实上，“数据即价值”的观点古来有之。例如，在《孙子兵法· 始计篇》中有 “多算胜，少算不胜，而况于无算乎？”的论断，此处 “算”，就是分析数据进行决策。

在马陵之战中，孙膑通过编造“齐军入魏地为十万灶，明日为五万灶，又明日为三万灶（史记·孙子吴起列传）”的数据，利用庞涓的数据分析习惯，反其道而用之，对庞涓实施诱杀。据有人说，在辽沈战役中，林彪通过分析缴获的短枪与长枪比例、缴获和击毁小车与大车比例以及俘虏和击毙军官与士兵的“异常”比例，判断出敌人的指挥所所在的位置。在战场上，数据的价值就在于辅助决策致胜，但这些皆属于小数据分析，你能说“林彪也玩大数据”吗？如果将简单的数据分析都归于大数据的话，那么处处皆“大数据”也！

（四）“全数据”并不存在

舍恩伯格教授的“全数据”观点认为，在大数据时代“样本=全体”，人们得到的不是抽样数据而是全数据，只需要简单计算就可得出结论，复杂的统计方法不再需要了。

这种观点非常错误。首先，大数据拥有信息但不解释信息。大数据时代，统计学依然是数据分析的灵魂，没有统计学作为指导的大数据研究，就如同不懂工程科学而去设计桥梁。其次，“全数据”的概念本身很难经得起推敲，虽然数据是全数据，但仍然具有不确定性，“全”是有边界的，超出了边界就不再是全知全能了。“N=All”仅仅是一种假设而不是现实。梦想很丰满，现实很骨感，即你使拥有全数据，就能轻易找到隐藏于数据背后有价值的信息了吗?

当然，大数据确实对数据分析提出了全新挑战，这种挑战也是推动新思想、新方法和新技术的强大动力。

（五）相关性是大数据的灵魂吗？

舍恩伯格教授的另一观点是“要相关，不要因果” ，大数据分析知道“是什么”就够了，没必要知道“为什么”。这一观点让相关关系彻底得到“平反”，一夜之间“咸鱼翻身”，成为“大数据的灵魂”。

“要相关，不要因果”这个观点，并非舍恩伯格首先提出，而是由《连线》(Wired)主编Chris Anderson 在2008年的一篇文章中最早提出。然而，此观点在学术界并未引起共鸣，甚至《大数据时代》一书的译者周涛也认为，“放弃对因果关系的追求，是人类的堕落”。现实中，看起来毫不相关的两件事，同时或相继出现的现象比比皆是，相关性本身并无多大价值，过度应用这种分析技术将是灾难，找出“相关性”背后的原因，才是新知识或新发现。

（六）笔者对大数据的理解

Volume不是大数据，Velocity、Veracity、Value并非大数据所特有，Variety之中数据的非结构化也只是暂时的。因此，大数据的主要特征，是数据采集方式上的多样性和数据使用上的聚集性。

以前，统计报表、调查问卷是目前全世界开展普查、调查收集数据的主要载体。这种方式是通过结构化的报表将被调查对象的行为转化为可用的数据，这种方式的根本特征是“我问你答”，需要被调查者高度配合。随着科技的高速发展，数据采集方法多种多样，出现了企业生产记录、大量行政记录、GPS定位测量、超市收银管理系统、ETC电子收费系统等形式的信息记录，这种“我取你有”的方式，提高了数据取得的及时性和真实性，同时也降低了数据采集的成本。

聚集性是各种分散的数据交织在一起，彼此联系、由点而线、由线而面、由面而立体，从而全面而清楚地理解事物的本质和趋势的特性。数据在来源上都有一定的片面性、局限性和模糊性，对同一个问题，只有融合、集成多方面的数据，不同的数据互补信息，形成大数据，才能反映事物的全貌，对问题的理解才能更深。 “海纳百川，有容乃大”，正是大数据的特征。

长期以来，我国的数据统计是以部门、各企业为中心展开的，形成条块分割的“信息孤岛”和一个个“数据烟囱”，数据标准不统一，数据指标不规范，数据平台重复建设。利用大数据改变这种数据管理模式，整合分散的数据记录，完善多种信息来源的数据采集制度，实现政府部门和企业的数据注册、查询、共享和交换，在一个数据平台揭示传统技术方式下难以展现的关联关系，建立“用数据说话、用数据决策、用数据管理、用数据创新”的大数据管理体制机制。

四、揭秘几个流行的所谓“大数据”案例

（一）啤酒和尿布的故事

据说，零售帝国沃尔玛的研究人员在数据分析时发现，一些年轻的爸爸常到超市去购买婴儿尿布，有30%~40%的新爸爸会顺便买点啤酒。沃尔玛据此分析结果，对啤酒和尿布进行捆绑销售，结果销售量双双增加。

这个神乎其神的“啤酒和尿布”故事，出自涂子沛先生的第二本畅销书《数据之巅》，其意图是引导人们多研究“相关性”，少关注因果关系，它不仅成为“大数据”类图书中的常客，而且无数次游荡于“数据挖掘”类图书中。

然而，让人们意想不到的是，这个经典故事竟是编造的！据英特尔中国研究院的第一位“首席工程师”吴甘沙先生透露， Teradata公司有一位经理，为让数据分析显得有力和有趣而捏造了这个故事。从宣传数据挖掘的重要性来说，这个故事确实不失为一个好故事，可这样的故事在现实中从未发生过，不管是中国还是美国的超市里，根本没有类似的物品摆放。

（二）谷歌公司“神奇”的流感预测

2009年2月，谷歌公司在学术期刊《自然》上发表了一篇题为《利用搜索引擎查询数据检测禽流感流行趋势》的论文，提出流感预测系统(Google Flu Trends，GFT)。GFT认为，若某区域在一定时期内有大量有关流感的关键词搜索，则该地区相应存在流感人群，相关部门就有必要发出流感预警。GFT的预测非常神速，一度被认为是大数据预测未来的经典案例，大数据的鼓吹者由此得出以下结论：

（1）所有数据皆可获得，已做到“n=All”，传统的抽样统计方法可被淘汰了；

（2）无需寻找现象背后的原因，只需知道现象之间的统计相关性就够用了；

（3）无需要统计学模型，只要有大量的数据就可完成数据分析；

（4）大数据分析可得到准确的结果。

然而好景不长， 4年后的2013年2月13日，《自然》发文指出，谷歌的GFT在2012年12月的流感预测中失败了，失败的原因在于，谷歌的工程师只是计算了一个简单的相关性，并不知道搜索关键词和流感传播之间关联的原因是什么。实际情况是，2012年12月的媒体上，充斥着各种关于流感的骇人故事，即使健康的人，看到这些报道之后，也会到互联网上搜索与流感相关的关键词，预测的结果比真是情况差距巨大，预测严重失真。

（三）“被怀孕”的女孩

2012年2月16日，《纽约时报》刊登了一篇题为《这些公司是如何知道您的秘密的》的文章。文中有这样一个故事：某日，一位男子怒气冲冲来到扣Target连锁店向经理投诉，说该店竟然给他在读高中的女儿邮寄婴儿和孕妇服装的优惠券。不幸的是，当这位父亲和女儿进行充分交谈后，发现她真的怀孕了，预产期是8月，于是致电商店道歉，店老板偷着乐了！

店家是如何比父亲更早知道女儿怀孕的呢？店家使用的是“关联规则+预测推荐”技术。顾客初次在店刷卡消费后，会自动获得一个顾客识别码，再次购货时，计算机系统就会自动记录其消费信息，形成的数据库用于分析顾客的喜好与需求。比如，数据分析师开发的怀孕预测模型，通过分析女性购买的无味湿纸巾和补镁药品数据，可预测女顾客是否怀孕，进而推荐婴儿和孕妇服装等商品。

实际上，此故事并不属于大数据的案例，因为它不需要太强的计算能力，只需一台普通的电脑就能实施分析。然而，许多媒体都将其归为大数据的范围，这是不恰当的。

我要问：每个收到婴儿和孕妇服装优惠券的人，都是孕妇吗？不可能的！孕妇之所以能收到这些购物券，是因为商店向许多顾客都邮寄了这种购物券，可能一些男士也收到了类似的优惠卷。在众多客户中，碰巧有那么一位高中女生“不太可能但却又真地”怀孕了，碰巧又被父亲发现后向商店投诉了，碰巧这位父亲发现真相又道歉了。

五、数据分析应摈弃“大小”之见

随着大数据时代的到来，企业应该培养三种能力，一是整合企业数据的能力，二是探索数据背后价值和制定精确行动纲领的能力，三是进行精确快速实施行动的能力。大数据时代已经到来，但它并未带来新的真理。现在的挑战是要认识到统计分析的缺陷，创新数据分析方法，解决大数据下遇到新问题，寻求新答案。

（一）用数据来说话

春秋时齐国名相管仲有言：“不明于计数而欲举大事，犹无舟楫行于水，险也”。此处之“数”，即一定范围之内的人口、土地、财富等统计数据。著名经济学家马寅初曾说：“学者们不能离开统计而究学，政治家不能离开统计而施政，事业家不能离开统计而执业。”

1854年伦敦发生了大规模霍乱，长时间无法控制。一位医师用地图标点法，研究了当地水井分布和霍乱患者分布之间的关系，发现有一口水井周围，霍乱患病率明显较高，原来这是一口被污染了的水井，关闭这口水井之后，霍乱的发病率明显下降。这故事充分展示了数据分析的力量，从此诞生了一门现代医学流行病学科。

除了上帝，任何人都必须用数据来说话。用数据说话，已经成为现代社会的基本理念。通过数据来研究规律、发现规律，贯穿了人类社会发展的始终。

（二）“小”的也许更美好

大数据的充分利用，至少要具备3个条件：一是拥有大数据本身，二是具备大数据思维，三是配备大数据技术。这三个门槛如此之高，已经把很多公司企业拒之门外，大数据依然还处在高大上阶段，不像我们想象的那么普及。目前，大数据是前沿，小数据依然是主流，大多数公司仍处于“小数据”处理阶段，只要在纵向上有一定的时间积累，在横向上有较丰富的记录细节，通过多个源头对同一个对象采集的各种数据有机整合，实施合理的数据分析，就可能产生大价值。大有大的力量，小有小的美好。在大数据时代，我们不能抛弃“小数据”，以小数据为主，以大数据为辅，才是数据管理的正道。

在1936年，民主党人兰登与当时的总统罗斯福竞选下届总统，《文摘》杂志承担了选情预测的任务，采用的是邮寄问卷调查法。在两个多月里，《文摘》收回了惊人的240万份问卷，经统计后预测，兰登将以55比41的优势击败罗斯福。而同时，另一调查机构的创始人盖洛普，也在紧锣密鼓进行一场规模小问卷调查，他预测罗斯副将稳操胜券。然而，选举结果与《文摘》的结果大相径庭：罗斯福以61比37的压倒性优势获胜。

《文摘》调查的对象主要是它自己的订户，这些订户多集中在中上阶层，而且大都是兰登的支持者，样本从一开始就是有了偏差，加之兰登的支持者乐意反馈问卷，这使得调查的错误进一步加大，这两种偏差相结合，注定了《文摘》预测的失败。而盖洛普是进行科学抽样，保证了抽样的随机性，他没有盲目的扩大调查面积，而是根据选民的职业、年龄、肤色等分布情况，确定电话访问、邮件访问和街头调查等各种方式的比例。由于样本抽样得当，做到了“以小见大”、“一叶知秋”。

从数据规模大小的角度来看，“大”并不能决定一切，调查者需要处理两个难题：样本误差和样本偏差。小数据采集出现的统计误差，大数据采集时也不可避免。我曾经在电视上看到这样一个采访镜头：一名记者在火车站台上，采访一群正在排队上车的农民工，问他们是不是买到票了，十分荒唐可笑！即使你调查5000万人，这可是大数据啊，回答是毫无意外地是都买到票了，这样选取的样本又有什么意义呢！

（三）不要成为大数据的奴隶

大数据是信息化发展到一定阶段的必然产物，拥有强大的数据处理能力，必将成为企业未来发展的生产力。随着经济的发展和技术的进步，大数据的价值会进一步得到挖掘与体现。但是，我们要用审慎的心态看待数据，保持清醒头脑，对大数据不要过分依赖，要学会让其大数据为我所用，而不是成为大数据的奴隶。

希腊神话中有一个自负的天神叫伊卡洛斯，他是代达罗斯的儿子。有一天，在与父亲使用蜡和羽毛制造的羽翼，飞翔逃离克里特岛，由于他过分相信自己的飞行技能，越飞越高，离太阳也越来越近，羽翼上的蜡被太阳融化，羽翼脱落，最终葬身大海。大数据技术就犹如那 “蜡和羽毛”做的翅膀，它可以助我们飞得更高，但倘若过分依赖它，就有葬身大海的风险。

（四）大数据的利用要考虑收益和成本

大数据是双刃剑，用得好会给企业创造价值，用不好不但会成为企业的负担。怎么使用和看待数据是人的问题，片面的数据会造成危害，一些别有用心的人，利用大众对于大数据的盲目崇拜来误导大家，这种披着大数据外衣的欺骗，比不用大数据的后果更为严重。

另外，大数据既然“大”字当头，自然投资成本不会小，投资的收益也具有很大的不确定性，并且有效数据的产生也需要一个长期过程。对大数据的挖掘，就像地质勘探发现金矿一样，要挖多深、挖多久才能有结果，都有很多不确定因素。同时，在争抢系统资源方面，大数据系统其他系统更强势，会造成核心系统的资源紧张，系统运行风险也随之上升。