第1章 大数据概述

第1章 大数据概述

大数据时代悄然来临,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。全球范围内,世界各国政府均高度重视大数据技术的研究和产业发展,纷纷把大数据上升为国家战略加以重点推进。企业和学术机构纷纷加大技术、资金和人员投入力度,加强对大数据关键技术的研发与应用,以期在“第三次信息化浪潮”中占得先机、引领市场。大数据已经不是“镜中花、水中月”,它的影响力和作用力正迅速触及社会的每个角落,所到之处,或是颠覆,或是提升,都让人们深切感受到了大数据实实在在的威力。

对于一个国家而言,能否紧紧抓住大数据发展机遇,快速形成核心技术和应用参与新一轮的全球化竞争,将直接决定未来若干年世界范围内各国科技力量博弈的格局。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任,因此,各高等院校非常重视大数据课程的开设,大数据课程已经成为计算机科学与技术专业的重要核心课程。

本章首先介绍了大数据的发展历程、基本概念、主要影响、应用领域、关键技术、计算模式和产业发展,并阐述了云计算、物联网的概念及其与大数据之间的紧密关系。

1.1 大数据时代

1.1.1 第三次信息化浪潮

根据IBM前首席执行官郭士纳的观点,IT领域每隔15年就会迎来一次重大变革(见表1-1)。1980年前后,个人计算机(PC)开始普及,使得计算机走入企业和千家万户,大大提高了社会生产力,也使人类迎来了第一次信息化浪潮,Intel、IBM、苹果、微软、联想等企业是这个时期的标志。随后,在1995年前后,人类开始全面进入互联网时代,互联网的普及把世界变成“地球村”,每个人都可以自由徜徉于信息的海洋,由此,人类迎来了第二次信息化浪潮,这个时期也缔造了雅虎、谷歌、阿里巴巴、百度等互联网巨头。时隔15年,在2010年前后,云计算、大数据、物联网的快速发展,拉开了第三次信息化浪潮的大幕,大数据时代已经到来,也必将涌现出一批新的市场标杆企业。

表1-1 三次信息化浪潮

信息化浪潮

发生时间

标志

解决的问题

代表企业

第一次浪潮

1980年前后

个人计算机

信息处理

Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等

第二次浪潮

1995年前后

互联网

信息传输

雅虎、谷歌、阿里巴巴、百度、腾讯等

第三次浪潮

2010年前后

物联网、云计算和大数据

信息爆炸

将涌现出一批新的市场标杆企业

1.1.2 信息科技为大数据时代提供技术支撑

信息科技需要解决信息存储、信息传输和信息处理3个核心问题,人类社会在信息科技领域的不断进步,为大数据时代的到来提供了技术支撑。

1.存储设备容量不断增加

数据被存储在磁盘、磁带、光盘、闪存等各种类型的存储介质中,随着科学技术的不断进步,存储设备制造工艺不断升级,容量大幅增加,速度不断提升,价格却在不断下降(见图1-1)。

1-1

图1-1 存储价格随时间的变化情况

早期的存储设备容量小、价格高、体积大,例如,IBM在1956年生产的一个早期的商业硬盘,容量只有5MB,不仅价格昂贵,而且体积有一个冰箱那么大(见图1-2)。相反,今天容量为1TB的硬盘,大小只有3.5英寸(约8.89厘米),读写速度达到200MB/s,价格仅为400元左右。廉价、高性能的硬盘存储设备,不仅提供了海量的存储空间,同时大大降低了数据存储成本。

IBM-disk1956

图1-2 IBM在1956年生产的一个早期的商业硬盘

与此同时,以闪存为代表的新型存储介质也开始得到大规模的普及和应用。闪存是一种新兴的半导体存储器,从1989年诞生第一款闪存产品开始,闪存技术不断获得新的突破,并逐渐在计算机存储产品市场中确立了自己的重要地位。闪存是一种非易失性存储器,即使发生断电也不会丢失数据,因此,可以作为永久性存储设备,它具有体积小、质量轻、能耗低、抗震性好等优良特性。

闪存芯片可以被封装制作成SD卡、U盘和固态盘等各种存储产品,SD卡和U盘主要用于个人数据存储,固态盘则越来越多地应用于企业级数据存储。一个32GB的SD卡,体积只有24mm×32mm×2.1mm,质量只有0.5克。以前7 200r/min的硬盘,一秒钟只有100个IOPS(Input/Output Operations Per Second),速率只有50MB/s,而现在的基于闪存的固态盘,每秒钟有几万甚至更高的IOPS,访问延迟只有几十微秒,允许我们以更快的速度读写数据。

总体而言,数据量和存储设备容量二者之间是相辅相成、互相促进的。一方面,随着数据的不断产生,需要存储的数据量不断增加,对存储设备的容量提出了更高的要求,促使存储设备生产商制造更大容量的产品满足市场需求;另一方面,更大容量的存储设备,进一步加快了数据量增长的速度,在存储设备价格高企的年代,由于考虑到成本问题,一些不必要或当前不能明显体现价值的数据往往会被丢弃,但是,随着单位存储空间价格的不断降低,人们开始倾向于把更多的数据保存起来,以期在未来某个时刻可以用更先进的数据分析工具从中挖掘价值。

2.CPU处理能力大幅提升

CPU处理速度的不断提升也是促使数据量不断增加的重要因素。性能不断提升的CPU,大大提高了处理数据的能力,使得我们可以更快地处理不断累积的海量数据。从20世纪80年代至今,CPU的制造工艺不断提升,晶体管数量不断增加(见图1-3),运行频率不断提高,核心(Core)数量逐渐增多,而同等价格所能获得的CPU处理能力也呈几何级数上升。在30多年里,CPU的处理速度已经从10MHz提高到3.6GHz,在2013年之前的很长一段时期,CPU处理速度的增加一直遵循“摩尔定律”,性能每隔18个月提高一倍,价格下降一半。

1-3

图1-3 CPU晶体管数目随时间的变化情况

3.网络带宽不断增加

1977年,世界上第一条光纤通信系统在美国芝加哥市投入商用,数据传输速率为45Mbit/s,从此,人类社会的信息传输速度不断被刷新。进入21世纪,世界各国更是纷纷加大宽带网络建设力度,不断扩大网络覆盖范围和传输速度(见图1-4)。以我国为例,截至2012年6月,92.6%的固定宽带用户接入速率达到或超过2Mbit/s,国际互联网出口带宽达到1.48Tbit/s,是2005年的11.4倍。与此同时,移动通信宽带网络迅速发展,3G网络基本普及,4G网络覆盖范围不断加大,各种终端设备可以随时随地传输数据。大数据时代,信息传输不再遭遇网络发展初期的瓶颈和制约。

1-4

图1-4 网络带宽随时间的变化情况

1.1.3 数据产生方式的变革促成大数据时代的来临

数据产生方式的变革,是促成大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段(见图1-5)。

1-5

图1-5 数据产生方式的变革

1.运营式系统阶段

人类社会最早大规模管理和使用数据,是从数据库的诞生开始的。大型零售超市销售系统、银行交易系统、股市交易系统、医院医疗系统、企业客户管理系统等大量运营式系统,都是建立在数据库基础之上的,数据库中保存了大量结构化的企业关键信息,用来满足企业各种业务需求。在这个阶段,数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库,比如,对于股市交易系统而言,只有当发生一笔股票交易时,才会有相关记录生成。

2.用户原创内容阶段

互联网的出现,使得数据传播更加快捷,不需要借助于磁盘、磁带等物理存储介质传播数据,网页的出现进一步加速了大量网络内容的产生,从而使得人类社会数据量开始呈现“井喷式”增长。但是,互联网真正的数据爆发产生于以“用户原创内容”为特征的Web 2.0时代。Web 1.0时代主要以门户网站为代表,强调内容的组织与提供,大量上网用户本身并不参与内容的产生。而Web 2.0技术以Wiki、博客、微博、微信等自服务模式为主,强调自服务,大量上网用户本身就是内容的生成者,尤其是随着移动互联网和智能手机终端的普及,人们更是可以随时随地使用手机发微博、传照片,数据量开始急剧增加。

3.感知式系统阶段

物联网的发展最终导致了人类社会数据量的第三次跃升。物联网中包含大量传感器,如温度传感器、湿度传感器、压力传感器、位移传感器、光电传感器等,此外,视频监控摄像头也是物联网的重要组成部分。物联网中的这些设备,每时每刻都在自动产生大量数据,与Web 2.0时代的人工数据产生方式相比,物联网中的自动数据产生方式,将在短时间内生成更密集、更大量的数据,使得人类社会迅速步入“大数据时代”。

1.1.4 大数据的发展历程

从大数据的发展历程来看,总体上可以划分为3个重要阶段:萌芽期、成熟期和大规模应用期(见表1-2)。

表1-2 大数据发展的3个阶段

阶段

时间

内  容

第一阶段:萌芽期

20世纪90年代至21世纪初

随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等

第二阶段:成熟期

21世纪前十年

Web 2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道

第三阶段:大规模应用期

2010年以后

大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高

这里简要回顾一下大数据的发展历程。

  • 1980年,著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

  • 1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中,发表了《为外存模型可视化而应用控制程序请求页面调度》的文章,这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。

  • 1999年10月,在美国电气和电子工程师协会(IEEE)关于可视化的年会上,设置了名为“自动化或者交互:什么更适合大数据?”的专题讨论小组,探讨大数据问题。

  • 2001年2月,梅塔集团分析师道格·莱尼发布题为《3D数据管理:控制数据容量、处理速度及数据种类》的研究报告。10年后,“3V”(Volume、Variety和Velocity)作为定义大数据的三个维度而被广泛接受。

  • 2005年9月,蒂姆·奥莱利发表了《什么是Web 2.0》一文,并在文中指出“数据将是下一项技术核心”。

  • 2008年,《自然》杂志推出大数据专刊;计算社区联盟(Computing Community Consortium)发表了报告《大数据计算:在商业、科学和社会领域的革命性突破》,阐述了大数据技术及其面临的一些挑战。

  • 2010年2月,肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》。

  • 2011年2月,《科学》杂志推出专刊《处理数据》,讨论了科学研究中的大数据问题。

  • 2011年,维克托·迈尔·舍恩伯格出版著作《大数据时代:生活、工作与思维的大变革》,引起轰动。

  • 2011年5月,麦肯锡全球研究院发布《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,提出“大数据”时代到来。

  • 2012年3月,美国奥巴马政府发布了《大数据研究和发展倡议》,正式启动“大数据发展计划”,大数据上升为美国国家发展战略,被视为美国政府继信息高速公路计划之后在信息科学领域的又一重大举措。

  • 2013年12月,中国计算机学会发布《中国大数据技术与产业发展白皮书》,系统总结了大数据的核心科学与技术问题,推动了中国大数据学科的建设与发展,并为政府部门提供了战略性的意见与建议。

  • 2014年5月,美国政府发布2014年全球“大数据”白皮书《大数据:抓住机遇、守护价值》,报告鼓励使用数据来推动社会进步。

1.2 大数据的概念

随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V”说法。大数据的4个“V”,或者说是大数据的四个特点,包含四个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。

1.2.1 数据量大

人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移。从1986年开始到2010年的二十多年时间里,全球数据的数量增长了100倍,今后的数据量增长速度将更快,我们正生活在一个“数据爆炸”的时代。今天,世界上只有25%的设备是联网的,大约80%的上网设备是计算机和手机,而在不远的将来,将有更多的用户成为网民,汽车、电视、家用电器、生产机器等各种设备也将接入互联网。随着Web 2.0和移动互联网的快速发展,人们已经可以随时随地、随心所欲发布包括博客、微博、微信等在内的各种信息。以后,随着物联网的推广和普及,各种传感器和摄像头将遍布我们工作和生活的各个角落,这些设备每时每刻都在自动产生大量数据。

综上所述,人类社会正经历第二次“数据爆炸”(如果把印刷在纸上的文字和图形也看作数据的话,那么,人类历史上第一次数据爆炸发生在造纸术和印刷术发明的时期)。各种数据产生速度之快,产生数量之大,已经远远超出人类可以控制的范围,“数据爆炸”成为大数据时代的鲜明特征。根据著名咨询机构IDC(Internet Data Center)做出的估测,人类社会产生的数据一直都在以每年50%的速度增长,也就是说,每两年就增加一倍,这被称为“大数据摩尔定律”。这意味着,人类在最近两年产生的数据量相当于之前产生的全部数据量之和。预计到2020年,全球将总共拥有35ZB(见表1-3)的数据量,与2010年相比,数据量将增长到近30倍。

表1-3 数据存储单位之间的换算关系

单位

换算关系

Byte(字节)

1Byte=8bit

KB(Kilobyte,千字节)

1KB=1024Byte

MB(Megabyte,兆字节)

1MB=1024KB

GB(Gigabyte,吉字节)

1GB=1024MB

TB(Trillionbyte,太字节)

1TB=1024GB

PB(Petabyte,拍字节)

1PB=1024TB

EB(Exabyte,艾字节)

1EB=1024PB

ZB(Zettabyte,泽字节)

1ZB=1024EB

1.2.2 数据类型繁多

大数据的数据来源众多,科学研究、企业应用和Web应用等都在源源不断地生成新的数据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等,都呈现出“井喷式”增长,所涉及的数量十分巨大,已经从TB级别跃升到PB级别。

大数据的数据类型丰富,包括结构化数据和非结构化数据,其中,前者占10%左右,主要是指存储在关系数据库中的数据,后者占90%左右,种类繁多,主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。

如此类型繁多的异构数据,对数据处理和分析技术提出了新的挑战,也带来了新的机遇。传统数据主要存储在关系数据库中,但是,在类似Web 2.0等应用领域中,越来越多的数据开始被存储在NoSQL数据库中,这就必然要求在集成的过程中进行数据转换,而这种转换的过程是非常复杂和难以管理的。传统的OLAP(On-Line Analytical Processing)分析和商务智能工具大都面向结构化数据,而在大数据时代,用户友好的、支持非结构化数据分析的商业软件也将迎来广阔的市场空间。

1.2.3 处理速度快

大数据时代的数据产生速度非常迅速。在Web 2.0应用领域,在1分钟内,新浪可以产生2万条微博,Twitter可以产生10万条推文,苹果可以下载4.7万次应用,淘宝可以卖出6万件商品,人人网可以发生30万次访问,百度可以产生90万次搜索查询,Facebook可以产生600万次浏览量。大名鼎鼎的大型强子对撞机(LHC),大约每秒产生6亿次的碰撞,每秒生成约700MB的数据,有成千上万台计算机分析这些碰撞。

大数据时代的很多应用,都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践,因此,数据处理和分析的速度通常要达到秒级响应,这一点和传统的数据挖掘技术有着本质的不同,后者通常不要求给出实时分析结果。

为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。以谷歌公司的Dremel为例,它是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析,通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询,系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级数据的需求,并且可以在2~3秒内完成PB级别数据的查询。

1.2.4 价值密度低

大数据虽然看起来很美,但是,价值密度却远远低于传统关系数据库中已经有的那些数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。以小区监控视频为例,如果没有意外事件发生,连续不断产生的数据都是没有任何价值的,当发生偷盗等意外情况时,也只有记录了事件过程的那一小段视频是有价值的。但是,为了能够获得发生偷盗等意外情况时的那一段宝贵的视频,我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的电能和存储空间,来保存摄像头连续不断传来的监控数据。

如果这个实例还不够典型的话,那么我们可以想象另一个更大的场景。假设一个电子商务网站希望通过微博数据进行有针对性营销,为了实现这个目的,就必须构建一个能存储和分析新浪微博数据的大数据平台,使之能够根据用户微博内容进行有针对性的商品需求趋势预测。愿景很美好,但是,现实代价很大,可能需要耗费几百万元构建整个大数据团队和平台,而最终带来的企业销售利润增加额可能会比投入低许多,从这点来说,大数据的价值密度是较低的。

1.3 大数据的影响

大数据对科学研究、思维方式和社会发展都具有重要而深远的影响。在科学研究方面,大数据使得人类科学研究在经历了实验、理论、计算3种范式之后,迎来了第四种范式——数据;在思维方式方面,大数据具有“全样而非抽样、效率而非精确、相关而非因果”三大显著特征,完全颠覆了传统的思维方式;在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现;在就业市场方面,大数据的兴起使得数据科学家成为热门职业;在人才培养方面,大数据的兴起将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制。

1.3.1 大数据对科学研究的影响

图灵奖获得者、著名数据库专家吉姆·格雷(Jim Gray)博士观察并总结认为,人类自古以来在科学研究上先后历经了实验、理论、计算和数据四种范式(见图1-6),具体如下。

(1)第一种范式:实验

在最初的科学研究阶段,人类采用实验来解决一些科学问题,著名的比萨斜塔实验就是一个典型实例。1590年,伽利略在比萨斜塔上做了“两个铁球同时落地”的实验,得出了重量不同的两个铁球同时下落的结论,从此推翻了亚里士多德“物体下落速度和重量成比例”的学说,纠正了这个持续了1 900年之久的错误结论。

图片 12

图1-6 科学研究的4种范式

(2)第二种范式:理论

随着科学的进步,人类开始采用各种数学、几何、物理等理论,构建问题模型和解决方案。比如牛顿第一定律、牛顿第二定律、牛顿第三定律构成了牛顿力学的完整体系,奠定了经典力学的概念基础,它的广泛传播和运用对人们的生活和思想产生了重大影响,在很大程度上推动了人类社会的发展与进步。

(3)第三种范式:计算

随着1946年人类历史上第一台计算机ENIAC的诞生,人类社会开始步入计算机时代,科学研究也进入了一个以“计算”为中心的全新时期。通过设计算法并编写相应程序输入计算机运行,人类可以借助于计算机的高速运算能力去解决各种问题。计算机具有存储容量大、运算速度快、精度高、可重复执行等特点,是科学研究的利器,推动了人类社会的飞速发展。

(4)第四种范式:数据

随着数据的不断累积,其宝贵价值日益得到体现,物联网和云计算的出现,更是促成了事物发展从量变到质变的转变,使人类社会开启了全新的大数据时代。在大数据环境下,一切将以数据为中心,从数据中发现问题、解决问题,真正体现数据的价值。大数据将成为科学工作者的宝藏,从数据中可以挖掘未知模式和有价值的信息,服务于生产和生活,推动科技创新和社会进步。

1.3.2 大数据对思维方式的影响

维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中明确指出,大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果。

1.全样而非抽样

过去,由于数据存储和处理能力的限制,在科学分析中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析,来推断全集数据的总体特征。通常,样本数据规模要比全集数据小很多,因此,可以在可控的代价内实现数据分析的目的。现在,我们已经迎来大数据时代,大数据技术的核心就是海量数据的存储和处理,分布式文件系统和分布式数据库技术,提供了理论上近乎无限的数据存储能力,分布式并行编程框架MapReduce提供了强大的海量数据并行处理能力。因此,有了大数据技术的支持,科学分析完全可以直接针对全集数据而不是抽样数据,并且可以在短时间内迅速得到分析结果,速度之快,超乎我们的想象。就像前面我们已经提到过的,谷歌公司的Dremel可以在2~3秒内完成PB级别数据的查询。

2.效率而非精确

过去,我们在科学分析中采用抽样分析方法,就必须追求分析方法的精确性,因为,抽样分析只是针对部分样本的分析,其分析结果被应用到全集数据以后,误差会被放大,这就意味着,抽样分析的微小误差,被放大到全集数据以后,可能会变成一个很大的误差。因此,为了保证误差被放大到全集数据时仍然处于可以接受的范围,就必要确保抽样分析结果的精确性。正是由于这个原因,传统的数据分析方法往往更加注重提高算法的精确性,其次才是提高算法效率。现在,大数据时代采用全样分析而不是抽样分析,全样分析结果就不存在误差被放大的问题,因此,追求高精确性已经不是其首要目标;相反,大数据时代具有“秒级响应”的特征,要求在几秒内就迅速给出针对海量数据的实时分析结果,否则就会丧失数据的价值,因此,数据分析的效率成为关注的核心。

3.相关而非因果

过去,数据分析的目的,一方面是解释事物背后的发展机理,比如,一个大型超市在某个地区的连锁店在某个时期内净利润下降很多,这就需要IT部门对相关销售数据进行详细分析找出发生问题的原因;另一方面是用于预测未来可能发生的事件,比如,通过实时分析微博数据,当发现人们对雾霾的讨论明显增加时,就可以建议销售部门增加口罩的进货量,因为,人们关注雾霾的一个直接结果是,大家会想到购买一个口罩来保护自己的身体健康。不管是哪个目的,其实都反映了一种“因果关系”。但是,在大数据时代,因果关系不再那么重要,人们转而追求“相关性”而非“因果性”。比如,我们去淘宝网购物时,当我们购买了一个汽车防盗锁以后,淘宝网还会自动提示你,与你购买相同物品的其他客户还购买了汽车坐垫,也就是说,淘宝网只会告诉你“购买汽车防盗锁”和“购买汽车坐垫”之间存在相关性,但是,并不会告诉你为什么其他客户购买了汽车防盗锁以后还会购买汽车坐垫。

1.3.3 大数据对社会发展的影响

大数据将会对社会发展产生深远的影响,具体表现在以下几个方面:大数据决策成为一种新的决策方式;大数据应用促进信息技术与各行业的深度融合;大数据开发推动新技术和新应用的不断涌现。

1.大数据决策成为一种新的决策方式

根据数据制定决策,并非大数据时代所特有。从20世纪90年代开始,数据仓库和商务智能工具就开始大量用于企业决策。发展到今天,数据仓库已经是一个集成的信息存储仓库,既具备批量和周期性的数据加载能力,也具备数据变化的实时探测、传播和加载能力,并能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策(如宏观决策和长远规划等)和战术决策(如实时营销和个性化服务等)的双重支持。但是,数据仓库以关系数据库为基础,无论是数据类型还是数据量方面都存在较大的限制。现在,大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析,已经成为受到追捧的全新决策方式。比如,政府部门可以把大数据技术融入“舆情分析”,通过对论坛、微博、微信、社区等多种来源数据进行综合分析,弄清或测验信息中本质性的事实和趋势,揭示信息中含有的隐性情报内容,对事物发展做出情报预测,协助实现政府决策,有效应对各种突发事件。

2.大数据应用促进信息技术与各行业的深度融合

有专家指出,大数据将会在未来10年改变几乎每一个行业的业务功能。互联网、银行、保险、交通、材料、能源、服务等行业领域,不断累积的大数据将加速推进这些行业与信息技术的深度融合,开拓行业发展的新方向。比如,大数据可以帮助快递公司选择运费成本最低的最佳行车路径,协助投资者选择收益最大化的股票投资组合,辅助零售商有效定位目标客户群体,帮助互联网公司实现广告精准投放,还可以让电力公司做好配送电计划确保电网安全等。总之,大数据所触及的每个角落,我们的社会生产和生活都会因之而发生巨大而深刻的变化。

3.大数据开发推动新技术和新应用的不断涌现

大数据的应用需求,是大数据新技术开发的源泉。在各种应用需求的强烈驱动下,各种突破性的大数据技术将被不断提出并得到广泛应用,数据的能量也将不断得到释放。在不远的将来,原来那些依靠人类自身判断力的领域应用,将逐渐被各种基于大数据的应用所取代。比如,今天的汽车保险公司,只能凭借少量的车主信息,对客户进行简单类别划分,并根据客户的汽车出险次数给予相应的保费优惠方案,客户选择哪家保险公司都没有太大差别。随着车联网的出现,“汽车大数据”将会深刻改变汽车保险业的商业模式,如果某家商业保险公司能够获取客户车辆的相关细节信息,并利用事先构建的数学模型对客户等级进行更加细致的判定,给予更加个性化的“一对一”优惠方案,那么,毫无疑问,这家保险公司将具备明显的市场竞争优势,获得更多客户的青睐。

1.3.4 大数据对就业市场的影响

大数据的兴起使得数据科学家成为热门职业。2010年的时候,在高科技劳动力市场上还很难见到数据科学家的头衔,但此后,数据科学家逐渐发展成为市场上最热门的职位之一,具有广阔发展前景,并代表着未来的发展方向。

互联网企业和零售、金融类企业都在积极争夺大数据人才,数据科学家成为大数据时代最紧缺的人才。据麦肯锡预测,在未来几年内,仅美国本土就可能缺少14万~19万具备数据深入分析能力的专业人才,能够通过分析大数据支撑企业做出有效决策的数据管理人员和分析师,也大概存在150万人的缺口。

根据中桥调研咨询2013年7月针对中国市场的一次调研结果显示,中国用户目前还主要局限在结构化数据分析方面,尚未进入通过对半结构化和非结构化数据进行分析、捕捉新的市场空间的阶段。但是,大数据中包含了大量的非结构化数据,未来将会产生大量针对非结构化数据分析的市场需求,因此,未来中国市场对掌握大数据分析专业技能的数据科学家的需求会逐年递增。

尽管有少数人认为,未来有更多的数据会采用自动化处理,会逐步降低对数据科学家的需求,但是,仍然有更多的人认为,随着数据科学家给企业所带来的商业价值的日益体现,市场对数据科学家的需求会越发旺盛。

1.3.5 大数据对人才培养的影响

大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制。一方面,数据科学家是一个需要掌握统计、数学、机器学习、可视化、编程等多方面知识的复合型人才,在中国高校现有的学科和专业设置中,上述专业知识分布在数学、统计和计算机等多个学科中,任何一个学科都只能培养某个方向的专业人才,无法培养全面掌握数据科学相关知识的复合型人才。另一方面,数据科学家需要大数据应用实战环境,在真正的大数据环境中不断学习、实践并融会贯通,将自身技术背景与所在行业业务需求进行深度融合,从数据中发现有价值的信息,但是,目前大多高校还不具备这种培养环境,不仅缺乏大规模基础数据,也缺乏对领域业务需求的理解。鉴于上述两个原因,目前国内的数据科学家人才并不是由高校培养的,而主要是在企业实际应用环境中通过边工作边学习的方式不断成长起来的,其中,互联网领域集中了大多数的数据科学家人才。

在未来5~10年,市场对数据科学家的需求会日益增加,不仅互联网企业需要数据科学家,类似金融、电信这样的传统企业在大数据项目中也需要数据科学家。由于高校目前尚未具备大量培养数据科学家的基础和能力,传统企业很可能会从互联网行业“挖墙角”,来满足企业发展对数据分析人才的需求,继而造成用人成本高企,制约企业的成长壮大。因此,高校应该秉承“培养人才、服务社会”的理念,充分发挥科研和教学综合优势,培养一大批具备数据分析基础能力的数据科学家,有效缓解数据科学家的市场缺口,为促进经济社会发展做出更大贡献。

高校培养数据科学家人才需要采取“两条腿”走路的策略,即“引进来”和“走出去”。所谓“引进来”,是指高校要加强与企业的紧密合作,从企业引进相关数据,为学生搭建起接近企业应用实际的、仿真的大数据实战环境,让学生有机会理解企业业务需求和数据形式,为开展数据分析奠定基础,同时,从企业引进具有丰富实战经验的高级人才,承担起数据科学家相关课程教学任务,切实提高教学质量、水平和实用性。所谓“走出去”,是指积极鼓励和引导学生走出校园,进入互联网、金融、电信等具备大数据应用环境的企业去开展实践活动,同时,努力加强产、学、研合作,创造条件让高校教师参与到企业大数据项目中,实现理论知识与实际应用的深层次融合,锻炼高校教师的大数据实战能力,为更好培养数据科学家人才奠定基础。

在课程体系的设计上,高校应该打破学科界限,设置跨院系跨学科的“组合课程”,由来自计算机、数学、统计等不同院系的教师构建联合教学师资力量,多方合作,共同培养具备大数据分析基础能力的数据科学家,使其全面掌握包括数学、统计学、数据分析、商业分析和自然语言处理等在内的系统知识,具有独立获取知识的能力,并具有较强的实践能力和创新意识。

1.4 大数据的应用

大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹,表1-4是大数据在各个领域的应用情况。本书在第11~13章将会详细介绍大数据在互联网、生物医学、物流等领域的具体应用。

表1-4 大数据在各个领域的应用一览

领域

大数据的应用

金融行业

大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重要作用

汽车行业

利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活

互联网行业

借助于大数据技术,可以分析客户行为,进行商品推荐和有针对性广告投放

餐饮行业

利用大数据实现餐饮O2O模式,彻底改变传统餐饮经营方式

电信行业

利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施

能源行业

随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理地设计电力需求响应系统,确保电网运行安全

物流行业

利用大数据优化物流网络,提高物流效率,降低物流成本

城市管理

可以利用大数据实现智能交通、环保监测、城市规划和智能安防

生物医学

大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘

体育和娱乐

大数据可以帮助我们训练球队,决定投拍哪种题材的影视作品,以及预测比赛结果

安全领域

政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪

个人生活

大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务

1.5 大数据关键技术

当人们谈到大数据时,往往并非仅指数据本身,而是数据和大数据技术这二者的综合。所谓大数据技术,是指伴随着大数据的采集、传输、处理和应用的相关技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。

从数据分析全流程的角度,大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容,具体如表1-5所示。

表1-5 大数据技术的不同层面及其功能

技术层面

功能

数据采集

利用ETL工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析

数据存储和管理

利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理

数据处理与分析

利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据

数据安全和隐私保护

在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

需要指出的是,大数据技术是许多技术的一个集合体,这些技术也并非全部都是新生事务,诸如关系数据库、数据仓库、ETL、OLAP、数据挖掘、数据隐私和安全、数据可视化等已经发展多年的技术,在大数据时代得到不断补充、完善、提高后又有了新的升华,也可以视为大数据技术的一个组成部分。对于这些技术,除了数据可视化技术以外,我们将不做介绍,本书重点阐述近些年新发展起来的大数据核心技术,包括分布式并行编程、分布式文件系统、分布式数据库、NoSQL数据库、云数据库、流计算、图计算等。

1.6 大数据计算模式

MapReduce是被大家所熟悉的大数据处理技术,当人们提到大数据时就会很自然地想到MapReduce,可见其影响力之广。实际上,大数据处理的问题复杂多样,单一的计算模式是无法满足不同类型的计算需求的,MapReduce其实只是大数据计算模式中的一种,它代表了针对大规模数据的批量处理技术,除此以外,还有查询分析计算、图计算、流计算等多种大数据计算模式(见表1-6)。本书后面内容将会介绍批处理计算(第7章)、流计算(第8章)和图计算(第9章)。

表1-6 大数据计算模式及其代表产品

大数据计算模式

解决问题

代表产品

批处理计算

针对大规模数据的批量处理

MapReduce、Spark等

流计算

针对流数据的实时计算

Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等

图计算

针对大规模图结构数据的处理

Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等

查询分析计算

大规模数据的存储管理和查询分析

Dremel、Hive、Cassandra、Impala等

1.6.1 批处理计算

批处理计算主要解决针对大规模数据的批量处理,也是我们日常数据分析工作中非常常见的一类数据处理需求。MapReduce是最具有代表性和影响力的大数据批处理技术,可以并行执行大规模数据处理任务,用于大规模数据集(大于1TB)的并行运算。MapReduce极大地方便了分布式编程工作,它将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数——Map和Reduce,编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在分布式系统上,完成海量数据集的计算。

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReduce快许多。Spark启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。在MapReduce中,数据流从一个稳定的来源,进行一系列加工处理后,流出到一个稳定的文件系统(如HDFS)。而对于Spark而言,则使用内存替代HDFS或本地磁盘来存储中间结果,因此,Spark要比MapReduce的速度快许多。

1.6.2 流计算

流数据也是大数据分析中的重要数据类型。流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此,必须采用实时计算的方式给出秒级响应。流计算可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理,给出有价值的分析结果。目前业内已涌现出许多的流计算框架与平台,第一类是商业级的流计算平台,包括IBM InfoSphere Streams和IBM StreamBase等,第二类是开源流计算框架,包括Twitter Storm、Yahoo! S4(Simple Scalable Streaming System)等,第三类是公司为支持自身业务开发的流计算框架,如Facebook使用Puma和HBase相结合来处理实时数据,百度开发了通用实时流数据计算系统DStream,淘宝开发了通用流数据实时计算系统——银河流数据处理平台。

1.6.3 图计算

在大数据时代,许多大数据都是以大规模图或网络的形式呈现,如社交网络、传染病传播途径、交通事故对路网的影响等,此外,许多非图结构的大数据,也常常会被转换为图模型后再进行处理分析。MapReduce作为单输入、两阶段、粗粒度数据并行的分布式计算框架,在表达多迭代、稀疏结构和细粒度数据时,往往显得力不从心,不适合用来解决大规模图计算问题。因此,针对大型图的计算,需要采用图计算模式,目前已经出现了不少相关图计算产品。Pregel是一种基于BSP(Bulk Synchronous Parallel)模型实现的并行图处理系统。为了解决大型图的分布式计算问题,Pregel搭建了一套可扩展的、有容错机制的平台,该平台提供了一套非常灵活的API,可以描述各种各样的图计算。Pregel主要用于图遍历、最短路径、PageRank计算等。其他代表性的图计算产品还包括Facebook针对Pregel的开源实现Giraph、Spark下的GraphX、图数据处理系统PowerGraph等。

1.6.4 查询分析计算

针对超大规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能很好地满足企业经营管理需求。谷歌公司开发的Dremel,是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析。通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询。系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级的数据,并且可以在2~3秒内完成PB级别数据的查询。此外,Cloudera公司参考Dremel系统开发了实时查询引擎Impala,它提供SQL语义,能快速查询存储在Hadoop的HDFS和HBase中的PB级大数据。

1.7 大数据产业

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,具体如表1-7所示。

表1-7 大数据产业链的各个环节

产业链环节

包含内容

IT基础设施层

包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等

数据源层

大数据生态圈里的数据提供者,是生物(生物信息学领域的各类研究机构)大数据、交通(交通主管部门)大数据、医疗(各大医院、体检机构)大数据、政务(政府部门)大数据、电商(淘宝、天猫、苏宁云商、京东等电商)大数据、社交网络(微博、微信、人人网等)大数据、搜索引擎(百度、谷歌等)大数据等各种数据的来源

数据管理层

包括数据抽取、转换、存储和管理等服务的各类企业或产品,如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等)

数据分析层

包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,如分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等

数据平台层

包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,如阿里巴巴、谷歌、中国电信、百度等

数据应用层

提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

近些年,我国一些地方政府也在积极尝试以“大数据产业园”为依托,加快发展本地的大数据产业。大数据产业园是大数据产业的聚集区或大数据技术的产业化项目孵化区,是大数据企业的孵化平台以及大数据企业走向产业化道路的集中区域。陕西西咸新区沣西新城已在信息产业园中规划了国内首家以大数据处理与服务为特色的产业园区;重庆市政府出台的《重庆市大数据行动计划》中明确提出,到2017年,重庆市将打造2至3个大数据产业示范园区,培育10家核心龙头企业、500家大数据应用和服务企业,引进和培养1 000名大数据产业高端人才,形成500亿元大数据产业规模,建成国内重要的大数据产业基地;天津市在2013年11月初公布了《滨海新区大数据行动方案(2013—2015)》,方案中明确提出,到2017年,把天津建设成为具有国际竞争力的大数据产业基地和数据资源聚集服务区。

1.8 大数据与云计算、物联网

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。为了更好地理解三者之间的紧密关系,下面将首先简要介绍云计算和物联网的概念,再分析云计算、大数据和物联网的区别与联系。

1.8.1 云计算

1.云计算的概念

云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施,是近年来最有代表性的网络计算技术与模式。

云计算包括3种典型的服务模式(见图1-7),即IaaS(基础设施即服务)、PaaS(平台即服务)和SaaS(软件即服务)。IaaS将基础设施(计算资源和存储)作为服务出租,PaaS把平台作为服务出租,SaaS把软件作为服务出租。

图像说明文字

图1-7 云计算的服务模式和类型

云计算包括公有云、私有云和混合云3种类型(见图1-7)。公有云面向所有用户提供服务,只要是注册付费的用户都可以使用;私有云只为特定用户提供服务;混合云综合了公有云和私有云的特点。

2.云计算的关键技术

云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户等。

(1)虚拟化

虚拟化技术是云计算基础架构的基石,是指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。

虚拟化的资源可以是硬件(如服务器、磁盘和网络),也可以是软件。以服务器虚拟化为例,它将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百台相互隔离的虚拟服务器,不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服务器整合,让IT对业务的变化更具适应力。

Hyper-V、VMware、KVM、Virtualbox、Xen、Qemu等都是非常典型的虚拟化技术。Hyper-V是微软的一款虚拟化产品,旨在为用户提供成本效益更高的虚拟化基础设施软件,从而为用户降低运作成本,提高硬件利用率,优化基础设施,提高服务器的可用性。Vmware(威睿)是全球桌面到数据中心虚拟化解决方案的领导厂商。

(2)分布式存储

面对数据爆炸的时代,集中式存储已经无法满足海量数据的存储需求,分布式存储应运而生。GFS(Google File System)是谷歌公司推出的一款分布式文件系统,可以满足大型、分布式、对大量数据进行访问的应用的需求。GFS具有很好的硬件容错性,可以把数据存储到成百上千台服务器上面,并在硬件出错的情况下尽量保证数据的完整性。GFS还支持GB或者TB级别超大文件的存储,一个大文件会被分成许多块,分散存储在由数百台机器组成的集群里。HDFS(Hadoop Distributed File System)是对GFS的开源实现,它采用了更加简单的“一次写入、多次读取”文件模型,文件一旦创建、写入并关闭了,之后就只能对它执行读取操作,而不能执行任何修改操作;同时,HDFS是基于Java实现的,具有强大的跨平台兼容性,只要是JDK支持的平台都可以兼容。

谷歌公司后来又以GFS为基础开发了分布式数据管理系统BigTable,它是一个稀疏、分布、持续多维度的排序映射数组,适合于非结构化数据存储的数据库,具有高可靠性、高性能、可伸缩等特点,可在廉价PC服务器上搭建起大规模存储集群。HBase是针对BigTable的开源实现。

(3)分布式计算

面对海量的数据,传统的单指令单数据流顺序执行的方式,已经无法满足快速数据处理的要求;同时,我们也不能寄希望于通过硬件性能的不断提升来满足这种需求,因为,由于晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律已经开始慢慢失效,CPU处理能力再也不会每隔18个月翻一番。在这样的大背景下,谷歌公司提出了并行编程模型MapReduce,让任何人都可以在短时间内迅速获得海量计算能力,它允许开发者在不具备并行开发经验的前提下也能够开发出分布式的并行程序,并让其同时运行在数百台机器上,在短时间内完成海量数据的计算。MapReduce将复杂的、运行于大规模集群上的并行计算过程抽象为两个函数——Map和Reduce,并把一个大数据集切分成多个小的数据集,分布到不同的机器上进行并行处理,极大提高了数据处理速度,可以有效满足许多应用对海量数据的批量处理需求。Hadoop开源实现了MapReduce编程框架,被广泛应用于分布式计算。

(4)多租户

多租户技术目的在于使大量用户能够共享同一堆栈的软硬件资源,每个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户的使用。多租户技术的核心包括数据隔离、客户化配置、架构扩展和性能定制。

3.云计算数据中心

云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等。数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境。

谷歌、微软、IBM、惠普、戴尔等国际IT巨头,纷纷投入巨资在全球范围内大量修建数据中心,旨在掌握云计算发展的主导权。我国政府和企业也都在加大力度建设云计算数据中心。内蒙古提出了“西数东输”发展战略,即把本地的数据中心通过网络提供给其他省份用户使用。福建省泉州市安溪县的中国国际信息技术(福建)产业园的数据中心,是福建省重点建设的两大数据中心之一,由惠普公司承建,拥有5 000台刀片服务器,是亚洲规模最大的云渲染平台。阿里巴巴集团公司在中国甘肃玉门建设的数据中心,是中国第一个绿色环保的数据中心,电力全部来自于风力发电,用祁连山融化的雪水冷却数据中心产生的热量。

4.云计算的应用

云计算在电子政务、医疗、卫生、教育、企业等领域的应用不断深化,对提高政府服务水平、促进产业转型升级和培育发展新兴产业等都起到了关键的作用。政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型。教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标。中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,迅速提升企业信息化水平,增强企业市场竞争力。医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量。

5.云计算产业

云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构(见图1-8),产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节。

1-8

图1-8 云计算产业链

硬件与设备制造环节包括了绝大部分传统硬件制造商,这些厂商都已经在某种形式上支持虚拟化和云计算,主要包括Intel、AMD、Cisco、SUN等。基础设施运营环节包括数据中心运营商、网络运营商、移动通信运营商等。软件与解决方案供应商主要以虚拟化管理软件为主,包括IBM、微软、思杰、SUN、Redhat等。IaaS将基础设施(计算和存储等资源)作为服务出租,向客户出售服务器、存储和网络设备、带宽等基础设施资源,厂商主要包括Amazon、Rackspace、Gogrid、Gridplayer等。PaaS把平台(包括应用设计、应用开发、应用测试、应用托管等)作为服务出租,厂商主要包括谷歌、微软、新浪、阿里巴巴等。SaaS则把软件作为服务出租,向用户提供各种应用,厂商主要包括Salesforce、谷歌等。云安全旨在为各类云用户提供高可信的安全保障,厂商主要包括IBM、OpenStack等。云计算交付/咨询/认证环节包括了三大交付以及咨询认证服务商,这些服务商已经支持绝大多数形式的云计算咨询及认证服务,主要包括IBM、微软、Oracle、思杰等。

1.8.2 物联网

1.物联网的概念

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

从技术架构上来看,物联网可分为四层(见图1-9):感知层、网络层、处理层和应用层。每层的具体功能如表1-8所示。

图像说明文字

图1-9 物联网体系架构

表1-8 物联网各个层次的功能

层次

功能

感知层

如果把物联网系统比喻为一个人体,那么,感知层就好比人体的神经末梢,用来感知物理世界,采集来自物理世界的各种信息。这个层包含了大量的传感器,如温度传感器、湿度传感器、应力传感器、加速度传感器、重力传感器、气体浓度传感器、土壤盐分传感器、二维码标签、RFID(Radio Frequency Identification)标签和读写器、摄像头、GPS设备等

网络层

相当于人体的神经中枢,起到信息传输的作用。网络层包含各种类型的网络,如互联网、移动通信网络、卫星通信网络等

处理层

相当于人体的大脑,起到存储和处理的作用,包括数据存储、管理和分析平台

应用层

直接面向用户,满足各种应用需求,如智能交通、智慧农业、智慧医疗、智能工业等

这里给出一个简单的智能公交实例来加深对物联网概念的理解。目前,很多城市居民的智能手机中都安装了“掌上公交”APP,可以用手机随时随地查询每辆公交车的当前到达位置信息,这就是一种非常典型的物联网应用。在智能公交应用中,每辆公交车都安装了GPS定位系统和3G/4G网络传输模块,在车辆行驶过程中,GPS定位系统会实时采集公交车当前到达位置信息,并通过车上的3G/4G网络传输模块发送给车辆附近的移动通信基站,经由电信运营商的3G/4G移动通信网络传送到智能公交指挥调度中心的数据处理平台,平台再把公交车位置数据发送给智能手机用户,用户的“掌上公交”软件就会显示出公交车的当前位置信息。这个应用实现了“物与物的相连”,即把公交车和手机这两个物体连接在一起,让手机可以实时获得公交车的位置信息,进一步讲,实际上也实现了“物和人的连接”,让手机用户可以实时获得公交车位置信息。在这个应用中,安装在公交车上的GPS定位设备就属于物联网的感知层;安装在公交车上的3G/4G网络传输模块以及电信运营商的3G/4G移动通信网络,属于物联网的网络层;智能公交指挥调度中心的数据处理平台属于物联网的处理层;智能手机上安装的“掌上公交”APP,属于物联网的应用层。

2.物联网关键技术

物联网是物与物相连的网络,通过为物体加装二维码、RFID标签、传感器等,就可以实现物体身份唯一标识和各种信息的采集,再结合各种类型网络连接,就可以实现人和物、物和物之间的信息交换。因此,物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。

(1)识别和感知技术

二维码是物联网中一种很重要的自动识别技术,是在一维条码基础上扩展出来的条码技术。二维码包括堆叠式/行排式二维码和矩阵式二维码,后者较为常见。如图1-10所示,矩阵式二维码在一个矩形空间中通过黑、白像素在矩阵中的不同分布进行编码。在矩阵相应元素位置上,用点(方点、圆点或其他形状)的出现表示二进制“1”,点的不出现表示二进制的“0”,点的排列组合确定了矩阵式二维条码所代表的意义。二维码具有信息容量大、编码范围广、容错能力强、译码可靠性高、成本低易制作等良好特性,已经得到了广泛的应用。

图像说明文字

图1-10 矩阵式二维码

RFID(Radio Frequency Identification)技术用于静止或移动物体的无接触自动识别,具有全天候、无接触、可同时实现多个物体自动识别等特点。RFID技术在生产和生活中得到了广泛的应用,大大推动了物联网的发展,我们平时使用的公交卡、门禁卡、校园卡等都嵌入了RFID芯片,可以实现迅速、便捷的数据交换。从结构上讲,RFID是一种简单的无线通信系统,由RFID读写器和RFID标签两个部分组成。RFID标签是由天线、耦合元件、芯片组成的,是一个能够传输信息、回复信息的电子模块。RFID读写器是由天线、耦合元件、芯片组成的,用来读取(或者有时也可以写入)RFID标签中的信息。RFID使用RFID读写器及可附着于目标物的RFID标签,利用频率信号将信息由RFID标签传送至RFID读写器。以公交卡为例,市民持有的公交卡就是一个RFID标签(见图1-11),公交车上安装的刷卡设备就是RFID读写器,当我们执行刷卡动作时,就完成了一次RFID标签和RFID读写器之间的非接触式通信和数据交换。

图像说明文字

图1-11 采用RFID芯片的公交卡

传感器是一种能感受规定的被测量件并按照一定的规律(数学函数法则)转换成可用信号的器件或装置,具有微型化、数字化、智能化、网络化等特点。人类需要借助于耳朵、鼻子、眼睛等感觉器官感受外部物理世界,类似地,物联网也需要借助于传感器实现对物理世界的感知。物联网中常见的传感器类型有光敏传感器、声敏传感器、气敏传感器、化学传感器、压敏传感器、温敏传感器、流体传感器等(见图1-12),可以用来模仿人类的视觉、听觉、嗅觉、味觉和触觉。

图像说明文字

图1-12 不同类型的传感器

(2)网络与通信技术

物联网中的网络与通信技术包括短距离无线通信技术和远程通信技术。短距离无线通信技术包括Zigbee、NFC、蓝牙、Wi-Fi、RFID等。远程通信技术包括互联网、2G/3G/4G移动通信网络、卫星通信网络等。

(3)数据挖掘与融合技术

物联网中存在大量数据来源、各种异构网络和不同类型系统,如此大量的不同类型数据,如何实现有效整合、处理和挖掘,是物联网处理层需要解决的关键技术问题。今天,云计算和大数据技术的出现,为物联网数据存储、处理和分析提供了强大的技术支撑,海量物联网数据可以借助于庞大的云计算基础设施实现廉价存储,利用大数据技术实现快速处理和分析,满足各种实际应用需求。

3.物联网的应用

物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用,具体如下。

  • 智能交通。利用RFID、摄像头、线圈、导航设备等物联网技术构建的智能交通系统,可以让人们随时随地通过智能手机、大屏幕、电子站牌等方式,了解城市各条道路的交通状况、所有停车场的车位情况、每辆公交车的当前到达位置等信息,合理安排行程,提高出行效率。

  • 智慧医疗。医生利用平板电脑、智能手机等手持设备,通过无线网络,可以随时连接访问各种诊疗仪器,实时掌握每个病人的各项生理指标数据,科学、合理地制定诊疗方案,甚至可以支持远程诊疗。

  • 智能家居。利用物联网技术提升家居安全性、便利性、舒适性、艺术性,并实现环保节能的居住环境。比如,可以在工作单位通过智能手机远程开启家里的电饭煲、空调、门锁、监控、窗帘和电灯等,家里的窗帘和电灯也可以根据时间和光线变化自动开启和关闭。

  • 环保监测。可以在重点区域放置监控摄像头或水质土壤成分检测仪器,相关数据可以实时传输到监控中心,出现问题时实时发出警报。

  • 智能安防。采用红外线、监控摄像头、RFID等物联网设备,实现小区出入口智能识别和控制、意外情况自动识别和报警、安保巡逻智能化管理等功能。

  • 智能物流。利用集成智能化技术,使物流系统能模仿人的智能,具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力(如选择最佳行车路线,选择最佳包裹装车方案),从而实现物流资源优化调度和有效配置,提升物流系统效率。

  • 智能电网。通过智能电表,不仅可以免去抄表工的大量工作,还可以实时获得用户用电信息,提前预测用电高峰和低谷,为合理设计电力需求响应系统提供依据。

  • 智慧农业。利用温度传感器、湿度传感器和光线传感器,实时获得种植大棚内的农作物生长环境信息,远程控制大棚遮光板、通风口、喷水口的开启和关闭,让农作物始终处于最优生长环境,提高农作物产量和品质。

  • 智能工业。将具有环境感知能力的各类终端、基于泛在技术的计算模式、移动通信技术等不断融入工业生产的各个环节,大幅提高制造效率,改善产品质量,降低产品成本和资源消耗,将传统工业提升到智能化的新阶段。

4.物联网产业

完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等环节(见图1-13),具体如下。

1-13

图1-13 物联网产业链

  • 核心感应器件提供商。提供二维码、RFID及读写机具、传感器、智能仪器仪表等物联网核心感应器件。

  • 感知层末端设备提供商。提供射频识别设备、传感系统及设备、智能控制系统及设备、GPS设备、末端网络产品等。

  • 网络提供商。包括电信网络运营商、广电网络运营商、互联网运营商、卫星网络运营商和其他网络运营商等。

  • 软件与行业解决方案提供商。提供微操作系统、中间件、解决方案等。

  • 系统集成商。提供行业应用集成服务。

  • 运营及服务提供商。开展行业物联网运营及服务。

1.8.3 大数据与云计算、物联网的关系

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。云计算最初主要包含了两类含义:一类是以谷歌的GFS和MapReduce为代表的大规模分布式并行计算技术;另一类是以亚马逊的虚拟机和对象存储为代表的“按需租用”的商业模式。但是,随着大数据概念的提出,云计算中的分布式计算技术开始更多地被列入大数据技术,而人们提到云计算时,更多指的是底层基础IT资源的整合优化以及以服务的方式提供IT资源的商业模式(如IaaS、PaaS、SaaS)。从云计算和大数据概念的诞生到现在,二者之间的关系非常微妙,既密不可分,又千差万别。因此,我们不能把云计算和大数据割裂开来作为截然不同的两类技术来看待。此外,物联网也是和云计算、大数据相伴相生的技术。下面总结一下三者的联系与区别(见图1-14)。

1-14

图1-14 大数据、云计算和物联网三者之间的关系

第一,大数据、云计算和物联网的区别。大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式,廉价地提供给用户;物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。

第二,大数据、云计算和物联网的联系。从整体上看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce提供了海量数据分析能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。反之,大数据为云计算提供了“用武之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。

可以说,云计算、大数据和物联网三者已经彼此渗透、相互融合,在很多应用场合都可以同时看到三者的身影。在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。

1.9 本章小结

本章介绍了大数据技术的发展历程,并指出信息科技的不断进步为大数据时代提供了技术支撑,数据产生方式的变革促成了大数据时代的来临。

大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点,统称“4V”。大数据对科学研究、思维方式、社会发展、就业市场和人才培养等方面,都产生了重要的影响,深刻理解大数据的这些影响,有助于我们更好把握学习和应用大数据的方向。

大数据在金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都得到了日益广泛的应用,深刻地改变着我们的社会生产和日常生活。

大数据并非单一的数据或技术,而是数据和大数据技术的综合体。大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。

大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,在不同层面,都已经形成了一批引领市场的技术和企业。

本章最后介绍了云计算和物联网的概念和关键技术,并阐述了大数据、云计算和物联网三者之间的区别与联系。

1.10 习题

1.试述信息技术发展史上的3次信息化浪潮及其具体内容。

2.试述数据产生方式经历的几个阶段。

3.试述大数据的4个基本特征。

4.试述大数据时代的“数据爆炸”特性。

5.科学研究经历了哪4个阶段?

6.试述大数据对思维方式的重要影响。

7.大数据决策与传统的基于数据仓库的决策有什么区别?

8.举例说明大数据的具体应用。

9.举例说明大数据的关键技术。

10.大数据产业包含哪些层面?

11.定义并解释以下术语:云计算、物联网。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

目录

相关文章

  • 山西省高等教育计算机专业课程教学研讨会

    2016年4月24日,人民邮电出版社与山西财经大学信息管理学院联合举办了“山西省本科计算机专业精品资源共享课程研讨会,山西省100多位相关专业老师参加,会上全国”大数据“与”数据结构“课程专家进行了精彩的讲座,获得参会教师的一致好评。...

    1256 0 0 6
  • 以平台化思维构建高效大数据课程公共服务体系

    大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学体制和教学方法。作为大数据教学工作者,必须敢于站在第三次信息化浪潮的潮头,高瞻远瞩,大胆实践,只有这样,才能够在新时期的教学工作中有所作为,有所成就。中国高校大数据课程公共服务平台,是一个开放的平台,不断进步提升的平台,未来将会有更多来自全国各地的热爱大数据教学的开拓创新者加入这个平台,为平台建设添砖加瓦,共同推进中国高校大数据教学...

    972 0 0 1

推荐用户

同系列书

人邮微信
本地服务
人邮微信
教师服务
二维码
读者服务
读者服务
返回顶部
返回顶部