加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 大数据时代(经典)

大数据时代(经典).pdf

大数据时代(经典)

google402
2013-11-26 0人阅读 举报 0 0 暂无简介

简介:本文档为《大数据时代(经典)pdf》,可适用于IT/计算机领域

目录目录推荐序一拥抱“大数据时代”推荐序二实实在在大数据译者序在路上·晃晃悠悠引言一场生活、工作与思维的大变革大数据变革公共卫生大数据变革商业大数据变革思维大数据开启重大的时代转型预测大数据的核心大数据大挑战第一部分大数据时代的思维变革更多:不是随机样本而是全体数据让数据“发声”小数据时代的随机采样最少的数据获得最多的信息全数据模式样本=总体更杂:不是精确性而是混杂性允许不精确大数据的简单算法比小数据的复杂算法更有效纷繁的数据越多越好混杂性不是竭力避免而是标准途径新的数据库设计的诞生更好:不是因果关系而是相关关系关联物预测的关键“是什么”而不是“为什么”改变从操作方式开始大数据改变人类探索世界的方法第二部分大数据时代的商业变革数据化:一切皆可“量化”数据从最不可能的地方提取出来数据化不是数字化量化一切数据化的核心当文字变成数据当方位变成数据当沟通变成数据世间万物的数据化价值:“取之不尽用之不竭”的数据创新数据创新:数据的再利用数据创新:重组数据数据创新:可扩展数据数据创新:数据的折旧值数据创新:数据废气数据创新:开放数据给数据估值角色定位:数据、技术与思维的三足鼎立大数据价值链的大构成大数据掌控公司大数据技术公司大数据思维公司和个人全新的数据中间商专家的消亡与数据科学家的崛起大数据决定企业竞争力第三部分大数据时代的管理变革风险:让数据主宰一切的隐忧无处不在的“第三只眼”我们的隐私被二次利用了预测与惩罚不是因为“所做”而是因为“将做”数据独裁挣脱大数据的困境掌控:责任与自由并举的信息管理管理变革:个人隐私保护从个人许可到让数据使用者承担责任管理变革:个人动因VS预测分析管理变革:击碎黑盒子大数据算法师的崛起管理变革:反数据垄断大亨结语正在发生的未来参考文献推荐序一推荐序一拥抱拥抱“大数据时代大数据时代”宽带资本董事长田溯宁从硅谷到北京大数据的话题正在被传播。随着智能手机以及“可佩带”计算设备的出现我们的行为、位置甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。以此为基础“反馈经济”(feedbackeconomy)等新经济、新商业模式也正在开始形成。维克托·迈尔舍恩伯格教授这本《大数据时代》是我看到的最好的大数据著作不管对于产业实践者还是对于政府和公众机构都是非常具有价值的。如今一个大规模生产、分享和应用数据的时代正在开启。正如维克托教授所说大数据的真实价值就像漂浮在海洋中的冰山第一眼只能看到冰山的一角绝大部分都隐藏在表面之下。而发掘数据价值、征服数据海洋的“动力”就是云计算。互联网时代尤其是社交网络、电子商务与移动通信把人类社会带入了一个以“PB”(TB)为单位的结构与非结构数据信息的新时代。在云计算出现之前传统的计算机是无法处理如此量大、并且不规则的“非结构数据”的。以云计算为基础的信息存储、分享和挖掘手段可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来并随时进行分析与计算。大数据与云计算是一个问题的两面:一个是问题一个是解决问题的方法。通过云计算对大数据进行分析、预测会使得决策更为精准释放出更多数据的隐藏价值。数据这个世纪人类探索的新边疆正在被云计算发现、征服。《大数据时代》列举了众多在公共卫生、商业服务领域大数据变革的例子。一旦“不再追求精确度不再追求因果关系而是承认混杂性探索相关关系”“思维转变过来数据就能被巧妙地用来激发新产品和新型服务”。数据正成为巨大的经济资产成为新世纪的矿产与石油将带来全新的创业方向、商业模式和投资机会。庞大的人群和应用市场复杂性高、充满变化使得中国成为世界上最复杂的大数据国家。解决这种由大规模数据引发的问题探索以大数据为基础的解决方案是中国产业升级、效率提高的重要手段。数据挖掘不仅能够成为公司竞争力的来源也将成为国家竞争力的一部分。联系到我国现代化所面临的种种问题以及教育、交通、医疗保健等各方面挑战通过大数据这种创新方式来解决问题创建新的产业群实现“中国制造到中国创造”的改变意义就更大。“大数据”发展的障碍在于数据的“流动性”和“可获取性”。美国政府创建了Datagov网站为大数据敞开了大门英国、印度也有“数据公开”运动。中国要赶上这样一场大数据变革各界应该首先开始尝试公开数据、方式与方法。如同工业革命要开放物质交易、流通一样开放、流通的数据是时代趋势的要求。《大数据时代》一书也提到了数据拥有权、隐私性保护等问题但相比较来看新科技可能带来的改变要远远大于其存在的问题。本书的译者周涛教授是我国最年轻有为的大数据专家。这位岁的天才型教授数年来一直带领我国学术界在大数据研究上向国际一流看齐。更可贵的是他不仅做研究也关注着研究成果的商业化及传播。这部译著就是他这种努力的一个成果。现代历史上的历次技术革命中国均是学习者。而在这次云计算与大数据的新变革中中国与世界的距离最小在很多领域甚至还有着创新与领先的可能。只要我们以开放的心态、创新的勇气拥抱“大数据时代”就一定会抓住历史赋予中国创新的机会。推荐序二推荐序二实实在在大数据实实在在大数据中国互联网发展的重要参与者知名IT评论人谢文因为我本身十分关注大数据也写过若干关于大数据的文章做过若干关于大数据的演讲所以对有关这一主题的论文和书籍非常有兴趣。过去几年在这方面我读过十几本书、上百篇论文和文章。相对而言维克托·迈尔舍恩伯格教授的《大数据时代》是迄今为止我读过的最好的一本专著中英文都算上。此书的一大贡献就是在大数据方兴未艾、众说纷纭的时刻进一步阐述和厘清了大数据的基本概念和特点这对许多以为大数据就是“数据大”的人来说很有帮助。在人类历史长河中即使是在现代社会日新月异的发展中人们还主要是依赖抽样数据、局部数据和片面数据甚至在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。因此人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。维克托指出大数据时代的来临使人类第一次有机会和条件在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据深入探索现实世界的规律获取过去不可能获取的知识得到过去无法企及的商机。大数据的出现使得通过数据分析获得知识、商机和社会服务的能力从以往局限于少数象牙塔之中的学术精英圈子扩大到了普通的机构、企业和政府部门。门槛的降低直接导致了数据的容错率提高和成本的降低但正如维克托所强调的最重要的是人们可以在很大程度上从对于因果关系的追求中解脱出来转而将注意力放在相关关系的发现和使用上。只要发现了两个现象之间存在的显著相关性就可以创造巨大的经济或社会效益而弄清二者为什么相关可以留待学者们慢慢研究。大数据之所以可能成为一个“时代”在很大程度上是因为这是一个可以由社会各界广泛参与八面出击处处结果的社会运动而不仅仅是少数专家学者的研究对象。大数据将逐渐成为现代社会基础设施的一部分就像公路、铁路、港口、水电和通信网络一样不可或缺。但就其价值特性而言大数据却和这些物理化的基础设施不同不会因为人们的使用而折旧和贬值。例如一组DNA可能会死亡或毁灭但数据化的DNA却会永存。所以维克托赞同许多物理学家的看法世界的本质就是数据。因此大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展进而影响人类的价值体系、知识体系和生活方式。哲学史上争论不休的世界可知论和不可知论将会转变为实证科学中的具体问题。可知性是绝对的无事无物不可知不可知性是相对的是尚未知道的意思。对于不从事网络业、IT业以及数据分析和使用的读者本书的一大好处就是通俗易懂通过具体实例说明问题有助于人们的理解和联想。在时限上作者概括了直到年月大数据方向上的最新发展避免了许多同类作品存在的例证过于陈旧、视野相对狭窄的毛病。作为一位生活在欧美现代社会的学者维克托是把民主、开放和理性作为已知前提来讨论大数据革命的。这对生活在发展中国家社会现代化程度尚且有限的读者来说也许是个遗憾因为书中描述的许多已经发生的事例可能更像是神话。没有市场经济制度和法治体系作为基础支撑大数据很可能成为发达国家在下一轮全球化竞争中的利器而发展中国家依然处于被动依附的状态之中。整个世界可能被割裂为大数据时代、小数据时代和无数据时代。处于发展中国家前列的中国目前正面临着一个重大的历史抉择关口。应该说在过去的三十余年时间里中国在快速走向工业化、信息化、网络化方面交出了一份不错的成绩单。如今适逢世界走向数据化迈入大数据时代的时刻无论对个人、企业还是对社会和国家都有认真理解、严肃决策的必要性和紧迫性。哪怕仅从这一点考虑读一读这本书也是很值得的。译者序译者序在路上在路上·晃晃悠悠晃晃悠悠电子科技大学教授互联网科学中心主任周涛接下翻译这本《大数据时代》的任务时我的目标是做到的好。因为作者维克托·迈尔舍恩伯格毕竟不像我们每天在一线与数据厮杀搏斗其爱其恨都更深刻。特别地我们可以为中文的读者补充很多中国的例子和参考资料。很遗憾我们最终只做到了应该补充的一些材料还没有整理好遣词造句也多有生硬疏忽之处。如果再给我一个月的时间就可以达到我预想的甚至。为什么现在把这个版本呈现给诸位呢?一是因为我们的努力使得本书中译本的出版和英文原版完全同步单从获取知识的角度讲我们一点儿不比美国的读者慢!二是我相信作者在书中的一个重要观点就是大数据时代要允许一点点的错误和不完美因为效率可能更加重要!留下一些可供提高的地方也使得我们的每一次印刷都能够与以前有所不同。亲这不是建议你等到某个更好的版本才去购买而是说其实你应该每个版本都买一本:)《大数据时代》这本书是的好因此的译本也绝对值得一读。首先作者抛出了大数据时代处理数据理念上的三大转变:要全体不要抽样要效率不要绝对精确要相关不要因果接着从万事万物数据化和数据交叉复用的巨大价值两个方面讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力最后作者冷静描绘了大数据帝国前夜的脆弱和不安包括产业生态环境、数据安全隐私、信息公正公开等问题。国内最近也出版了一些大数据方面的著作可以和本书互为补充。郑毅的《证析》对于数据通过交叉复用体现的新价值、大数据战略在企业与政府执行层面的流程和大数据科学家这一新职位以及围绕这个职位的能力和责任给出了最深刻、最具体的描述子沛的《大数据》对于数据的公正性、公平性以及信息和数据管理等方面理念、政策和执行的变化特别是美国在这方面的进展给出了完整的介绍苏萌、林森和我合著的《个性化:商业的未来》则对大数据时代最重要的技术个性化技术以及与之相关的新商业模式给出了从理念到技术细节的全景工笔。总的来说这三本书都针对本书的某一局部给出了更深刻的介绍和洞见也各有总的来说这三本书都针对本书的某一局部给出了更深刻的介绍和洞见也各有明显超出本书的优点但三本之和也无法囊括本书的菁华亦缺乏本书的宏大视野。明显超出本书的优点但三本之和也无法囊括本书的菁华亦缺乏本书的宏大视野。简单地说这本书好在三个地方:一是观点掷地有声绝非主流媒体上若干讨论的简单汇总和平均更不是一个宏大概念面前暧昧的叫好声。读者可能对其中一些观点并不认同但是读完之后不可能一个都记不住。二是观念高屋建瓴作者试图从很多实例和经验包括历史事件中萃取出普适性的观念而不仅仅是适用于几个特定情况的案例分析。三是例子丰富翔实不长的篇幅包括了上百个学术和商业的实例。三点近乎完美地结合起来体现了作者驾驭大问题的能力和丰富的知识以及可能更为重要地作者渴求立言立说的野心!所以说这本书绝对不是一堆枯燥的纲要更不是一本巨厚的杂志。我在这里拼命叫好是为了这本书卖得更多但不代表作者的所有观点都是绝对真理。举个例子我本人对于大数据时代“相关关系比因果关系更重要”这个观点就不认同。有了机器学习特别是集成学习我们解决问题的方式变成了训练所有可能的模型和拟合所有可能的参数问题从一个端口进去答案从另一个端口出来中间则是一个黑匣子因为没有人能够从成千上万的参数拟合值里面读到“科学”我们读到的只是“计算机工程”。与其说大数据让我们重视相关胜于因果不如说机器学习和以结果为导向的研究思路让我们变成这样。那么大数据是不是都这样呢?其实很多时候恰恰相反。想想瑞士日内瓦的强子对撞机我们在上面捕获了人类有史以来最大规模的单位时间数据。我们是希望找到或者验证某种相关关系吗?不是!我们试图回答的正是人类所能问出的关于因果关系最伟大的问题:希格斯玻色子是否存在我们的宇宙是否有可能用标准模型刻画。这个问题的最终答案将打破人和神的界限!认为相关重于因果是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影绝非大数据自身的诉求。从小处讲作者试图避免的“数据的独裁”和“错误的前提导致错误的结论”其解决之道恰在于挖掘因果逻辑而非相关性从大处讲放弃对因果性的追求就是放弃了人类凌驾于计算机之上的智力优势是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界那么这种放弃就是末日之始。苏珊·朗格(SusanLanger)在《哲学新视野》一书中说:某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题所以它们似乎将有希望解决所有基本问题澄清所有不明了的疑点。每个人都想迅速地抓住它们作为进入某种新实证科学的法宝作为可以用来建构一个综合分析体系的概念轴心。这种‘宏大概念’突然流行起来一时间把几乎所有的东西都挤到了一边。这段话通常被认为是对当时“存在主义”和“精神分析法”这类万能概念的善意批评而如今特别适合作为一盆冷水泼在那些没有任何深刻理解却月月日日分分秒秒穿行于各种“大数据嘉年华”的投资人、媒体人和创业者身上。希望《大数据时代》给予各位的是一些实实在在的知识和思考并且唤起各位安静思索相关问题的心境。大数据是一个很重要的概念代表了很重要的趋势但我不希望它成为一种放之四海皆准的万能概念因为越是万能的就越是空洞的!人类学家克利福德·吉尔兹(CliffordGeertz)在其著作《文化的解释》中曾给出了一个朴素而冷静的劝说:“努力在可以应用、可以拓展的地方应用它、拓展它在不能应用、不能拓展的地方就停下来。”我想这应该是所有人面对一个新领域或新概念时应有的态度。大数据的道路上没有戈多我们已经在路上晃晃悠悠。人类的自由意志和诸神之下的尊严会在这条道路上异化甚至消逝吗?极目远眺不知道世界的尽头是否是一个冷酷的仙境!诸位为之奋斗吧而我只想做一个麦田里的守望者。以为序。引言引言一场生活、工作与思维的大变革一场生活、工作与思维的大变革大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙显微镜让我们能够观测微生物一样大数据正在改变我们的生活以及理解世界的方式成为新发明和新服务的源泉而更多的改变正蓄势待发……【大数据先锋】谷歌搜索与流感预测Farecast与飞机票价预测系统天文学信息爆炸的起源大数据变革公共卫生大数据变革公共卫生年出现了一种新的流感病毒。这种甲型HN流感结合了导致禽流感和猪流感的病毒的特点在短短几周之内迅速传播开来。全球的公共卫生机构都担心一场致命的流行病即将来袭。有的评论家甚至警告说可能会爆发大规模流感类似于年在西班牙爆发的影响了亿人口并夺走了数千万人性命的大规模流感。更糟糕的是我们还没有研发出对抗这种新型流感病毒的疫苗。公共卫生专家能做的只是减慢它传播的速度。但要做到这一点他们必须先知道这种流感出现在哪里。美国和所有其他国家一样都要求医生在发现新型流感病例时告知疾病控制与预防中心。但由于人们可能患病多日实在受不了了才会去医院同时这个信息传达回疾控中心也需要时间因此通告新流感病例时往往会有一两周的延迟。而且疾控中心每周只进行一次数据汇总。然而对于一种飞速传播的疾病信息滞后两周的后果将是致命的。这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。在甲型HN流感爆发的几周前互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录而且每天都会收到来自全球超过亿条的搜索指令如此庞大的数据资源足以支撑和帮助它完成这项工作。谷歌公司把万条美国人最频繁检索的词条和美国疾控中心在年至年间季节性流感传播时期的数据进行了比较。他们希望通过分析人们的搜索记录来判断这些人是否患上了流感其他公司也曾试图确定这些相关的词条但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。虽然谷歌公司的员工猜测特定的检索词条是为了在网络上得到关于流感的信息如“哪些是治疗咳嗽和发热的药物”但是找出这些词条并不是重点他们也不知道哪些词条更重要。更关键的是他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。谷歌公司为了测试这些检索词条总共处理了亿个不同的数学模型。在将得出的预测与年、年美国疾控中心记录的实际流感病例进行对比后谷歌公司发现他们的软件发现了条检索词条的组合将它们用于一个特定的数学模型后他们的预测与官方数据的相关性高达。和疾控中心一样他们也能判断出流感是从哪里传播出来的而且判断非常及时不会像疾控中心一样要在流感爆发一两周之后才可以做到。所以年甲型HN流感爆发的时候与习惯性滞后的官方数据相比谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是谷歌公司的方法甚至不需要分发口腔试纸和联系医生它是建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式通过对海量数据进行分析获得以一种前所未有的方式通过对海量数据进行分析获得有巨大价值的产品和服务或深刻的洞见。有巨大价值的产品和服务或深刻的洞见。基于这样的技术理念和数据储备下一次流感来袭的时候世界将会拥有一种更好的预测工具以预防流感的传播。大数据变革商业大数据变革商业大数据不仅改变了公共卫生领域整个商业领域都因为大数据而重新洗牌。购买飞机票就是一个很好的例子。年奥伦·埃齐奥尼(OrenEtzioni)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜于是他在这个大喜日子来临之前的几个月就在网上预订了一张去洛杉矶的机票。在飞机上埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚但是票价却比他便宜得多时他感到非常气愤。于是他又询问了另外几个乘客结果发现大家买的票居然都比他的便宜。对大多数人来说这种被敲竹杠的感觉也许会随着他们走下飞机而消失。然而埃齐奥尼是美国最有名的计算机专家之一从他担任华盛顿大学人工智能项目的负责人开始他创立了许多在今天看来非常典型的大数据公司而那时候还没有人提出“大数据”这个概念。年埃齐奥尼帮助创建了最早的互联网搜索引擎MetaCrawler该引擎后来被InfoSpace公司收购。他联合创立了第一个大型比价网站Netbot后来把它卖给了Excite公司。他创立的从文本中挖掘信息的公司ClearForest则被路透社收购了。在他眼中世界就是一系列的大数据问题而且他认为自己有能力解决这些问题。作为哈佛大学首届计算机科学专业的本科毕业生自年毕业以来他也一直致力于解决这些问题。飞机着陆之后埃齐奥尼下定决心要帮助人们开发一个系统用来推测当前网页上的机票价格是否合理。作为一种商品同一架飞机上每个座位的价格本来不应该有差别。但实际上价格却千差万别其中缘由只有航空公司自己清楚。埃齐奥尼表示他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价格在未来一段时间内会上涨还是下降。这个想法是可行的但操作起来并不是那么简单。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。如果一张机票的平均价格呈下降趋势系统就会帮助用户做出稍后再购票的明智选择。反过来如果一张机票的平均价格呈上涨趋势系统就会提醒用户立刻购买该机票。换言之这是埃齐奥尼针对米高空开发的一个加强版的信息预测系统。这确实是一个浩大的计算机科学项目。不过这个项目是可行的。于是埃齐奥尼开始着手启动这个项目。埃齐奥尼创立了一个预测系统它帮助虚拟的乘客节省了很多钱。这个预测系统建立在天之内的个价格样本基础之上而这些数据都是从一个旅游网站上爬取过来的。这个预测系统并不能说明原因只能推测会发生什么。也就是说它不知道是哪些因素导致了机票价格的波动。机票降价是因为有很多没卖掉的座位、季节性原因还是所谓的“周六晚上不出门”它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买这是一个问题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字叫“哈姆雷特”。这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司名为Farecast。通过预测机票价格的走势以及增降幅度Farecast票价预测工具能帮助消费者抓住最佳购买时机而在此之前还没有其他网站能让消费者获得这些信息。这个系统为了保障自身的透明度会把对机票价格走势预测的可信度标示出来供消费者参考。系统的运转需要海量数据的支持。为了提高预测的准确性埃齐奥尼找到了一个行业机票预订数据库。而系统的预测结果是根据美国商业航空产业中每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出的。如今Farecast已经拥有惊人的约亿条飞行数据记录。利用这种方法Farecast为消费者节省了一大笔钱。棕色的头发露齿的笑容无邪的面孔这就是奥伦·埃齐奥尼。他看上去完全不像是一个会让航空业损失数百万潜在收入的人。但事实上他的目光放得更长远。年埃齐奥尼计划将这项技术应用到其他领域比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大同时存在大幅度的价格差和大量可运用的数据就都可以应用这项技术。但是在他实现计划之前微软公司找上了他并以亿美元的价格收购了Farecast公司。而后这个系统被并入必应搜索引擎。大数据的力量到年为止Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。Farecast票价预测的准确度已经高达%使用Farecast票价预测工具购买机票的旅客平均每张机票可节省美元。Farecast是大数据公司的一个缩影也代表了当今世界发展的趋势。五年或者十年之前奥伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算机处理能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因但也有一些细微而重要的改变正在发生特别是人们关于如何使用数据的理念。有趣的是这些飞行记录和谷歌的搜索记录一样也可以用来预测和评估疾病的流行。有兴趣的读者可以参考年第期《科学通报》上名为“HN甲型流感全球航空传播与早期预警研究”的研究论文以及年Bajardi等人在PLoSONE上发表的名为“HumanMobilityNetworksTravelRestrictionsandtheGlobalSpreadofHNPandemic”的研究论文。译者注大数据变革思维大数据变革思维人们不再认为数据是静止和陈旧的。但在以前一旦完成了收集数据的目的之后数据就会被认为已经没有用处了。比方说在飞机降落之后票价数据就没有用了(对谷歌而言则是一个检索命令完成之后)。大数据洞察如今数据已经成为了一种商业资本一项重要的经济投入可以创造新的经济利益。事实上一旦思维转变过来数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机每台办公桌上都放有一台电脑每间办公室内都拥有一个大型局域网。但是信息本身的用处却并没有如此引人注目。半个世纪以来随着计算机技术全面融入社会生活信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化量变引发了质变。最先经历信息爆炸的学科如天文学和基因学创造出了“大数据”这个概念。如今这个概念几乎应用到了所有人类致力于发展的领域中。大数据并非一个确切的概念。最初这个概念是指需要处理的信息量过大已经超出了一般电脑在处理数据时所能使用的内存量因此工程师们必须改进处理数据的工具。这导致了新的处理技术的诞生例如谷歌的MapReduce和开源Hadoop平台(最初源于雅虎)。这些技术使得人们可以处理的数据量大大增加。更重要的是这些数据不再需要用传统的数据库表格来整齐地排列一些可以消除僵化的层次结构和一致性的技术也出现了。同时因为互联网公司可以收集大量有价值的数据而且有利用这些数据的强烈的利益驱动力所以互联网公司顺理成章地成为了最新处理技术的领头实践者。它们甚至超过了很多有几十年经验的线下公司成为新技术的领衔使用者。今天一种可能的方式是亦是本书采取的方式认为大数据是人们在大规模数据的基础上可以做到的事情而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的大数据是人们获得新的认知、创造新的价值的源泉大数据还是改变市场、组织机构以及政府与公民关系的方认知、创造新的价值的源泉大数据还是改变市场、组织机构以及政府与公民关系的方法。法。大数据洞察这仅仅只是一个开始大数据时代对我们的生活以及与世界交流的方式都提出了挑战。最惊人的是社会需要放弃它对因果关系的渴求而仅需关注相关关系。也就是说只需要知道是什么而不需要知道为什么。这就推翻了自古以来的惯例而我们做决定和理解现实的最基本方式也将受到挑战。设计人员如果没有大数据的理念就会丢失掉很多有价值的数据。譬如中国某城市的公交车因为价格不依赖于起点和终点所以能够反映重要通勤信息的数据被工作人员“自作主张”地丢弃了。译者注有兴趣的读者可以参考年月日《自然》推出的名为“大数据”的专刊。译者注这些都是传统数据库结构化查询语言(SQL)的要求非关系型数据库(NoSQL)不再有这些要求。译者注大数据开启重大的时代转型大数据开启重大的时代转型大数据开启了一次重大的时代转型。与其他新技术一样大数据也必然要经历硅谷臭名昭著的技术成熟度曲线:经过新闻媒体和学术会议的大肆宣传之后新技术趋势一下子跌到谷底许多数据创业公司变得岌岌可危。当然不管是过热期还是幻想破灭期都非常不利于我们正确理解正在发生的变革的重要性。就像望远镜能够让我们感受宇宙显微镜能够让我们观测微生物这种能够收集和分析海量数据的新技术将帮助我们更好地理解世界这种理解世界的新方法我们现在才意识到。本书旨在如实表达出大数据的内涵而不会过分热捧它。当然真正的革命并不在于分析数据的机器而在于数据本身和我们如何运用数据。大数据先锋天文学信息爆炸的起源只有考虑到社会各个方面的变化趋势我们才能真正意识到信息爆炸已经到来。我们的数字世界一直在扩张。以天文学为例年斯隆数字巡天(SloanDigitalSkySurvey)项目启动的时候位于新墨西哥州的望远镜在短短几周内收集到的数据已经比天文学历史上总共收集的数据还要多。到了年信息档案已经高达×字节。不过预计年在智利投入使用的大型视场全景巡天望远镜(LargeSynopticSurveyTelescope)能在五天之内就获得同样多的信息。天文学领域的变化在各个领域都在发生。年人类第一次破译人体基因密码的时候辛苦工作了十年才完成了三十亿对碱基对的排序。大约十年之后世界范围内的基因仪每分钟就可以完成同样的工作。在金融领域美国股市每天的成交量高达亿股而其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的。这些程序运用海量数据来预测利益和降低风险。互联网公司更是要被数据淹没了。谷歌公司每天要处理超过拍字节的数据这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。Facebook这个创立时间不足十年的公司每天更新的照片量超过万张每天人们在网站上点击“喜欢”(Like)按钮或者写评论大约有三十亿次这就为Facebook公司挖掘用户喜好提供了大量的数据线索。与此同时谷歌子公司YouTube每月接待多达亿的访客平均每一秒钟就会有一段长度在一小时以上的视频上传。Twitter上的信息量几乎每年翻一番截止到年每天都会发布超过亿条微博。从科学研究到医疗保险从银行业到互联网各个不同的领域都在讲述着一个类似的故事那就是爆发式增长的数据量。这种增长超过了我们创造机器的速度甚至超过了我们的想象。我们周围到底有多少数据?增长的速度有多快?许多人试图测量出一个确切的数字。尽管测量的对象和方法有所不同但他们都获得了不同程度的成功。南加利福尼亚大学安嫩伯格通信学院的马丁·希尔伯特(MartinHilbert)进行了一个比较全面的研究他试图得出人类所创造、存储和传播的一切信息的确切数目。他的研究范围不仅包括书籍、图画、电子邮件、照片、音乐、视频(模拟和数字)还包括电子游戏、电话、汽车导航和信件。马丁·希尔伯特还以收视率和收听率为基础对电视、电台这些广播媒体进行了研究。大数据的力量据他估算年人类大约存储了超过艾字节的数据。下面这个比喻应该可以帮助人们更容易地理解这意味着什么了。一部完整的数字电影可以压缩成一个GB的文件而一个艾字节相当于亿GB一个泽字节则相当于艾字节。总之这是一个非常庞大的数量。有趣的是在年所有数据中只有是存储在报纸、书籍、图片等媒介上的模拟数据其余全部是数字数据。但在不久之前情况却完全不是这样的。虽然年就有了“信息时代”和“数字村镇”的概念但实际上这些概念仍然是相当新颖的。甚至在年的时候数字存储信息仍只占全球数据量的四分之一当时另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。早期数字信息的数量是不多的。对于长期在网上冲浪和购书的人来说那只是一个微小的部分。事实上在年的时候世界上约的计算能力都被运用在袖珍计算器上那时候所有个人电脑的处理能力之和还没有所有袖珍计算器处理能力之和高。但是因为数字数据的快速增长整个局势很快就颠倒过来了。按照希尔伯特的说法数字数据的数量每三年多就会翻一倍。相反模拟数据的数量则基本上没有增加。大数据的力量到年世界上存储的数据预计能达到约泽字节其中非数字数据只占不到。这样大的数据量意味着什么?如果把这些数据全部记在书中这些书可以覆盖整个美国次。如果将之存储在只读光盘上这些光盘可以堆成五堆每一堆都可以伸到月球。公元前世纪埃及的托勒密二世竭力收集了当时所有的书写作品所以伟大的亚历山大图书馆可以代表世界上所有的知识量。但当数字数据洪流席卷世界之后每个地球人都可以获得大量数据信息相当于当时亚历山大图书馆存储的数据总量的倍之多。事情真的在快速发展。人类存储信息量的增长速度比世界经济的增长速度快人类存储信息量的增长速度比世界经济的增长速度快倍而计倍而计算机数据处理能力的增长速度则比世界经济的增长速度快算机数据处理能力的增长速度则比世界经济的增长速度快倍。倍。难怪人们会抱怨信息过量因为每个人都受到了这种极速发展的冲击。把眼光放远一点我们可以把时下的信息洪流与年前后古登堡发明印刷机时造成的信息爆炸相对比。历史学家伊丽莎白·爱森斯坦(ElizabethEisenstein)发现年这年之间大约有万本书籍被印刷比年之前君士坦丁堡建立以来整个欧洲所有的手抄书还要多。换言之欧洲的信息存储量花了年才增长了一倍(当时的欧洲还占据了世界上相当部分的信息存储份额)而如今大约每三年就能增长一倍。这种增长意味着什么呢?彼特·诺维格(PeterNorvig)是谷歌的人工智能专家也曾任职于美国宇航局喷气推进实验室他喜欢把这种增长与图画进行类比。首先他要我们想想来自法国拉斯科洞穴壁画上的标志性的马。这些画可以追溯到一万七千年之前的旧石器时代。然后想想一张马的照片再想想毕加索的画也可以看起来和那些洞穴壁画没有多大的差别。事实上毕加索看到那些洞穴壁画的时候就曾开玩笑说:“自那以后我们就再也没有创造出什么东西了。”他的话既正确又不完全正确。你回想一下壁画上的那匹马。当时要画一幅马需要花费很久的时间而现在不需要那么久了。这就是一种改变虽然改变的可能不是最核心的部分毕竟这仍然是一幅马的图像。但是诺维格说想象一下现在我们能每秒钟播放幅不同形态的马的图片这就是一种由量变导致的质变:一部电影与一幅静态的画有本质上的区别!大数据大数据也一样量变导致质变。也一样量变导致质变。物理学和生物学都告诉我们当我们改变规模时事物的状态有时也会发生改变。我们就以纳米技术为例。纳米技术专注于把东西变小而不是变大。其原理就是当事物到达分子的级别时它的物理性质就会发生改变。一旦你知道这些新的性质你就可以用同样的原料来做以前无法做的事情。铜本来是用来导电的物质但它一旦到达纳米级别就不能在磁场中导电了。银离子具有抗菌性但当它以分子形式存在的时候这种性质会消失。一旦到达纳米级别金属可以变得柔软陶土可以具有弹性。同样当我们增加所利用的数据量时我们就可以做很多在小数据量的基础上无法完成的事情。有时候我们认为约束我们生活的那些限制对于世间万物都有着同样的约束力。事实上尽管规律相同但是我们能够感受到的约束很可能只对我们这样尺度的事物起作用。对于人类来说唯一一个最重要的物理定律便是万有引力定律。这个定律无时无刻不在控制着我们。但对于细小的昆虫来说重力是无关紧要的。对它们而言物理宇宙中有效的约束是表面张力这个张力可以让它们在水上自由行走而不会掉下去。但人类对于表面张力毫不在意。对于万有引力产生的约束效果而言生物体的大小是非常重要的。类似地对于信息而言规模也是非常重要的。谷歌能够几近完美地给出和基于大量真实病例信息所得到的流感情况一致的结果而且几乎是实时的比疾控中心快多了。同样Farecast可以预测机票价格的波动从而让消费者真正在经济上获利。它们之所以如此给力都因为存在供其分析的数千亿计的数据项。大数据洞察大数据的科学价值和社会价值正是体现在这里。一方面对大数据的掌握程度可以转化为经济价值的来源。另一方面大数据已经撼动了世界的方方面面从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。尽管我们仍处于大数据时代来临的前夕但我们的日常生活已经离不开它了。垃圾邮件过滤器可以自动过滤垃圾邮件尽管它并不知道“发#票#销#售”是“发票销售”的一种变体。交友网站根据个人的性格与之前成功配对的情侣之间的关联来进行新的配对。具有“自动改正”功能的智能手机通过分析我们以前的输入将个性化的新单词添加到手机词典里。然而对于这些数据的利用还仅仅只是一个开始。从可以自动转弯和刹车的汽车到IBM沃森超级电脑在游戏节目《危险边缘》(Jeopardy)中打败人类来看这项技术终将改变我们所居住的星球上的许多东西。技术成熟度曲线又叫技术循环曲线或者直接叫做炒作周期是指新技术、新概念在媒体上曝光度随时间的变化曲线。译者注拍字节一般记作PB等于字节。译者注艾字节一般记作EB等于字节。译者注泽字节一般记作ZB等于字节。译者注模拟数据也称为模拟量相对于数字量而言指的是取值范围是连续的变量或者数值例如声音、图像、温度、压力等。模拟数据一般采用模拟信号例如用一系列连续变化的电磁波或电压信号来表示。译者注数字数据也称为数字量相对于模拟量而言指的是取值范围是离散的变量或者数值。数字数据则采用数字信号例如用一系列断续变化的电压脉冲(如用恒定的正电压表示二进制数用恒定的负电压表示二进制数)或光脉冲来表示。译者注亚历山大图书馆藏书丰富有据可考的超过卷(纸草卷)包括《荷马史诗》、《几何原本》等。亚历山大图书馆建成之时正是中国战国时代的末期此时百家争鸣较有影响的十大家(儒、道、墨、法、名、阴阳、纵横、杂、农、小说)多有著述且已出现如《诗经》、《楚辞》、《离骚》等文学作品虽没有像亚历山大图书馆一样的集中式藏书中心但也占据了世界知识量的相当份额。译者注据《中国出版史》记载中国的毕昇早在世纪年代就发明了泥活字印刷远远早于古登堡世纪年代发明的铅活字。编者注这是一个美妙有趣的例子但是对于学习物理的人来说总是有些怪异。显然万有引力一如既往起着作用不过是因为空气阻力在不同密度和体积的物体上产生了不同的效果。如果把蟑螂从真空环境的高楼往下扔恐怕也是凶多吉少。译者注预测大数据的核心预测大数据的核心大数据的核心就是预测。它通常被视为人工智能的一部分或者更确切地说被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反它是把数学算法运用到海量的数据上来预测事情发生的可能性。一封邮件被作为垃圾邮件过滤掉的可能性输入的“teh”应该是“the”的可能性从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性都是大数据可以预测的范围。当然如果一个人能及时穿过马路那么他乱穿马路时车子就只需要稍稍减速就好。这些预测系统之所以能够成功关键在于它们是建立在海量数据的基础之上的。此外随着系统接收到的数据越来越多它们可以聪明到自动搜索最好的信号和模式并自己改善自己。在不久的将来世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。计算机系统可以发挥作用的领域远远不止驾驶和交友还有更多更复杂的任务。别忘了亚马逊可以帮我们推荐想要的书谷歌可以为关联网站排序Facebook知道我们的喜好而LinkedIn可以猜出我们认识谁。当然同样的技术也可以运用到疾病诊断、推荐治疗措施甚至是识别潜在犯罪分子上。就像互联网通过给计算机添加通信功能而改变了世界大数据也将改变我们生活中最重要的方面因为它为我们的生活创造了前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉而更多的改变正蓄势待发。系统可以通过一种“反馈学习”的机制利用自己产生的数据判断自身算法和参数选择的有效性并实时进行调整持续改进自身的表现。译者注这些任务都和个性化技术相关包括个性化排序和个性化推荐。个性化技术是大数据时代最重要的技术这里向专业读者推荐吕琳媛等人年在《PhysicsReports》上发表的名为“RecommenderSystems”的综述。译者注大数据大挑战大数据大挑战大数据的精髓在于我们分析信息时的三个转变这些转变将改变我们理解和组建社会的方法。第一个转变就是在大数据时代我们可以分析更多的数据有时候甚至可以处理和第一个转变就是在大数据时代我们可以分析更多的数据有时候甚至可以处理和某个特别现象相关的所有数据而不再依赖于随机采样。某个特别现象相关的所有数据而不再依赖于随机采样。这部分内容将在第章阐述。世纪以来当面临大量数据时社会都依赖于采样分析。但是采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。以前我们通常把这看成是理所当然的限制但高性能数字技术的流行让我们意识到这其实是一种人为的限制。与局限在小数据范围相比使用一切数据为我们带来了更高的精确性也让我们看到了一些以前无法发现的细节大数据让我们更清楚地看到了样本无法揭示的细节信息。第二个改变就是研究数据如此之多以至于我们不再热衷于追求精确度。第二个改变就是研究数据如此之多以至于我们不再热衷于追求精确度。这部分内容将在第章阐述。当我们测量事物的能力受限时关注最重要的事情和获取最精确的结果是可取的。如果购买者不知道牛群里有头牛还是头牛那么交易就无法进行。直到今天我们的数字技术依然建立在精准的基础上。我们假设只要电子数据表格把数据排序数据库引擎就可以找出和我们检索的内容完全一致的检索记录。这种思维方式适用于掌握“小数据量”的情况因为需要分析的数据很少所以我们必须尽可能精准地量化我们的记录。在某些方面我们已经意识到了差别。例如一个小商店在晚上打烊的时候要把收银台里的每分钱都数清楚但是我们不会、也不可能用“分”这个单位去精确度量国民生产总值。随着规模的扩大对精确度的痴迷将减弱。达到精确需要有专业的数据库。针对小数据量和特定事情追求精确性依然是可行的比如一个人的银行账户上是否有足够的钱开具支票。但是在这个大数据时代很多时候追求精确度已经变得不可行甚至不受欢迎了。当我们拥有海量即时数据时绝对的精准不再是我们追求的主要目标。大数据纷繁多样优劣掺杂分布在全球多个服务器上。拥有了大数据我们不再需要对一个现象刨根究底只要掌握大体的发展方向即可。当然我们也不是完全放弃了精确度只是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。第三个转变因前两个转变而促成即我们不再热衷于寻找因果关系。第三个转变因前两个转变而促成即我们不再热衷于寻找因果关系。这部分内容将在第章阐述。寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大人类还是习惯性地寻找缘由。相反在大数据时代我们无须再紧盯事物之间的因果关系而应该寻找事物之间的相关关系这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生但是它会提醒我们这件事情正在发生。在许多情况下这种提醒的帮助已经足够大了。如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症那么找出具体的药理机制就没有这种治疗方法本身来得重要。同样只要我们知道什么时候是买机票的最佳时机就算不知道机票价格疯狂变动的原因也无所谓了。大数据告诉我们“是什么”而不是“为什么”。在大数据时代我们不必知道现象背后的原因我们只要让数据自己发声。我们不再需要在还没有收集数据之前就把我们的分析建立在早已设立的少量假设的基础之上。让数据发声我们会注意到很多以前从来没有意识到的联系的存在。例如对冲基金通过剖析社交网络Twitter上的数据信息来预测股市的表现亚马逊和奈飞(Netflix)根据用户在其网站上的类似查询来进行产品推荐TwitterFacebook和LinkedIn通过用户的社交网络图来得知用户的喜好。当然人类从数千年前就开始分析数据。古代美索不达米亚平原的记账人员为了有效地跟踪记录信息发明了书写。自从圣经时代开始政府就通过进行人口普查来建立大型的国民数据库。两百多年来精算师们也一直通过搜集大量的数据来进行风险规避。模拟时代的数据收集和分析极其耗时耗力新问题的出现通常要求我们重新收集和分析数据。数字化的到来使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算机可以读取的数字数据使得存储和处理这些数据变得既便宜又容易从而大大提高了数据管理效率。过去需要几年时间才能完成的数据搜集现在只要几天就能完成。但是光有改变还远远不够。数据分析者太沉浸于模拟数据时代的设想即数据库只有单一的用途和价值而正是我们使用的技术和方法加深了这种偏见。虽然数字化是促成向大数据转变的重要原因但仅有计算机的存在却不足以实现大数据。我们没有办法准确描述现在正在发生的一切但是在第章将提到的“数据化”概念可以帮助我们大致了解这次变革。数据化意味着我们要从一切太阳底下的事物中汲取信息甚至包括数据化意味着我们要从一切太阳底下的事物中汲取信息甚至包括很多我们以前认为和很多我们以前认为和“信息信息”根本搭不上边的事情。根本搭不上边的事情。比方说一个人所在的位置、引擎的振动、桥梁的承重等。我们要通过量化的方法把这些内容转化为数据。这就使得我们可以尝试许多以前无法做到的事情如根据引擎的散热和振动来预测引擎是否会出现故障。这样我们就激发出了这些数据此前未被挖掘的潜在价值。大数据时代开启了一场寻宝游戏而人们对于数据的看法以及对于由因果关系向相关大数据时代开启了一场寻宝游戏而人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度正是主宰这场游戏的关键。关系转化时释放出的潜在价值的态度正是主宰这场游戏的关键。新兴技术工具的使用使这一切成为可能。宝贝不止一件每个数据集内部都隐藏着某些未被发掘的价值。这场发掘和利用数据价值的竞赛正开始在全球上演。第章和第章将讲述大数据如何改变了商业、市场和社会的本质。世纪价值已经从

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/28

大数据时代(经典)

仅供在线阅读

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利