任务一 认识统计
【知识目标】
1.统计的内涵和统计的职能
2.统计学的基本概念:总体、样本、个体、参数、统计量、变量
3.统计应用软件
【能力目标】
1.能正确理解统计的内涵
2.能正确理解统计学在认识世界和管理决策中的作用
2.能根据特定研究对象理解统计学中的基本概念
【任务引入】
现在几乎每家超市、购物中心都会推出会员卡制度。顾客办理会员卡通常是受到会员折扣价的吸引,或者希望能够获得超市、购物中心定期的返利;商家则希望通过会员卡制度获得顾客的忠诚。会员卡为商家累积了大量的数据,包括顾客的姓名、联系方式等会员信息和每一次的交易数据。如果能够合理地分析和利用,这些数据将成为商家最重要的资产。英国食品连锁零售商Tesco在1995年启动了一个大规模的会员卡项目Clubcard。Clubcard不是英国食品连锁零售业的第一个会员卡项目,但它是英国最成功的会员卡项目之一。为了达到以数据为驱动进行市场营销的目标,Tesco在Clubcard项目启动之前就确定了一个专长于数据分析的合作伙伴,善于从业务角度出发利用数据的公司Dunnhumby。Tesco和Dunnhumby之间十余年的合作为双方带来了巨大的价值。Tesco宣称,因为分析和利用Clubcard的数据,使公司每年因从不囤积销量不好的产品而节省3.5亿英镑。Dunnhumby由合作时的一个小公司成长为到2010年年营业收入2亿英镑,年利润5 340万英镑的公司。在推出Clubcard项目的当年,Tesco的市场份额就超越了它的最大竞争对手Sainsbury,目前Tesco已经成为英国最大、世界第三大的食品零售商。Dunnhumby是怎样借助统计工具和先进的计算机技术对会员卡信息和交易数据进行分析的呢?统计的应用领域还有哪些呢?
【知识链接】
1.1 统计的内涵
“统计”一词有3种含义:统计学、统计工作和统计资料。统计学是一系列统计方法的理论阐述;统计工作是统计的具体实践活动;统计资料是统计工作各阶段的成果,也可称为统计数据。
1.1.1 统计学
统计学是关于收集、整理、分析和解释统计数据 的科学,是一门方法论性质的学科,其目的是探索研究对象的数量特征和数据的内在规律性。
统计学的这一定义包含了如下3个要点。
(1)统计学是研究“数据”的科学,离开了数据,统计学也就失去了它存在的意义,因此有人称统计学是“数据的科学”。
(2)统计学是方法论科学,是研究数据的“工具”,因此它适用于所有有数据存在的学科领域。
(3)统计学研究的不是抽象的数据,而是“有载体的统计数据”,因此利用统计方法得到的任何数据特征和数据规律性都与某一研究对象紧密相连。
统计学的研究对象是现象总体的数量方面。统计通过对总体中大量个体的差异化数据进行收集、整理和分析,获得研究对象总体的特征和规律性。
英文“Statistics”一词包含了两层含义,一是作为一门学科的统计学,二是表示统计数据或统计资料,说明了统计学与统计数据之间密不可分的关系。
1.1.2 统计工作过程
一般将统计工作概括地分为4个阶段,即统计设计、数据收集、数据整理和数据分析,如图1-1-1所示。
图1-1-1 统计工作过程
1.统计设计
统计设计是根据统计研究的目的和研究对象的特点,对统计工作各个方面及各个环节所作的通盘考虑与安排。其基本任务是制定出各种统计工作方案,主要内容应包括:统计指标体系、统计调查方案、统计汇总或整理方案以及统计分析方案等诸多方面。统计设计是统计工作实施的基本依据,是使统计工作协调、有序、顺利地进行的必要条件。
2.数据收集
数据收集是根据统计设计的要求,采用科学的数据收集方法,收集总体中全部或部分个体数据资料的工作过程。数据收集是统计工作的基础环节,是认识事物的起点。收集来的数据质量高低,直接影响到分析结论的正确性。因此,数据收集阶段应尽可能地降低统计调查误差。
3.数据整理
数据整理是对收集来的统计数据进行科学的加工整理,使之系统化、条理化,把大量的反映个体特征的零散资料转化为反映总体综合数量特征的统计资料的过程。数据整理是数据收集和数据分析之间承上启下的中间环节,其主要任务是对收集到的数据进行分组、归类,并用合适的统计表或统计图展示整理的结果。
4.数据分析
数据分析是运用统计方法及与分析对象有关的知识,从定量与定性的结合上对研究对象总体进行分析,以认识和揭示研究对象数量特征和规律性的统计工作阶段。数据分析是统计工作的最后一环,也是关键的一步。统计分析报告是统计分析的产品,统计分析报告的质量既取决于数据本身的质量,又有赖于对统计数据分析利用的程度。
一般来说,统计工作的4个阶段是依次进行的,任何一个阶段的工作失误都会影响到下一阶段的工作质量。但在某些情况下,为保证统计工作整体上取得好的效果,各阶段也会交叉进行。比如,在数据收集和整理阶段可以进行一些必要的分析,或者对原设计方案进行适当的改进;在数据分析阶段,如果现有资料不能满足分析的需要,可以做一些必要的补充调查、数据整理等工作。
1.1.3 统计数据
统计数据是对现象进行计量和分析的结果,是研究对象的特征表现。对个体而言,其特征既可以用数字表示也可以用文字表示;对总体而言,其特征都是用数字表示的。
一个完整的统计数据,应包括3个最基本的构成要素:数据名称、数值和数据的计量单位。但在具体表述一个统计数据时,很多时候只有这3个要素是不够的,还应包含对数据其他方面的内涵规定,如数据所属的时间和空间范围等。
例如:“GDP为45 429亿元”,传递的信息是不完整的;“2011年,某省地区生产总值(GDP)为45 429亿元”,数据的内外边界就很清楚了。
统计数据从不同的角度有不同的分类,通常可以从以下3个角度分类,如图1-1-2所示。
图1-1-2 统计数据的分类
1.按计量尺度分类
按计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
① 分类数据:用文字来表述,表明事物的不同属性或类别。在统计处理时,我们用数字代码来表示分类数据的各个类别。例如,用“1”代表“男性”,用“2”代表“女性”,这里的1和2只表达了现象分属于两个类别这样一层含义。再如,企业所属的不同行业、企业的不同所有制类型、不同职业等都属于分类数据。
② 顺序数据:用文字来表述,表明有顺序的不同类别。在统计处理时,我们同样可以用数字代码来表示。例如,用“1”、“2”、“3”、“4”、“5”分别代表考试成绩的“不及格”、“及格”、“中”、“良”、“优”,这里的1、2、3、4、5不仅表明现象分属于不同的类别,而且表明这些类别的顺序。再如,不同的教育程度、产品的不同等级等均属于顺序数据。
③ 数值型数据:用数字来表现现象的数量特征,是使用自然或度量衡单位对事物进行计量的结果。一个企业的职工人数、产值、销售收入、市场占有率等指标都是用具体的数字来表示的。数值型数据不仅能表明现象数量上的不同和大小顺序,还能在数据之间进行数量运算,大部分统计分析方法适用于数值型数据的分析,统计处理的大多是数值型数据。
分类数据和顺序数据也统称为品质数据或定性数据,数值型数据也称为数量数据或定量数据。
2.按数据来源分类
按来源不同,可将统计数据分为观测数据和实验数据。
① 观测数据是通过直接调查或观察收集到的数据,社会经济领域的统计数据基本上是观测数据。
② 实验数据是通过对实验对象、实验环境以及实验过程的有效控制而获得的统计数据,这些数据主要用于考察变量之间的因果关系。
3.按与时间的关系分类
按与时间的关系不同,可将统计数据分为截面数据、时间序列数据和面板数据。
① 截面数据是指某一总体中不同个体在相同或近似相同时间上的数据表现。
② 时间序列数据是将不同时间上某一指标值列出所形成的按时间顺序排列的数据序列。
③ 面板数据是指总体中不同个体在不同时间上的数据表现,是时间序列数据与截面数据的结合。
1.2 统计的职能
统计的职能可以概括为信息职能、咨询职能和监督职能,如图1-2-1所示。
图1-2-1 统计的职能
1.信息职能
信息职能指的是统计提供信息服务的功能,通过采集、处理、传递、存储和分析数据,提供以数量描述为基本特征的社会经济信息。
2.咨询职能
咨询职能指的是统计提供咨询建议和对策方案的服务功能,利用已经掌握的丰富的统计信息资料,运用科学的统计分析方法和先进的技术手段,开展综合分析和专题分析,为科学决策和科学管理提供可选择的咨询建议和决策方案。
3.监督职能
监督职能指的是统计揭示事物运行中的偏差,促使事物运行不偏离正常轨道的功能,统计以定量检查、监测、预警指标体系等为手段,揭示决策及其执行过程中的偏差,使决策及其执行过程按客观规律的要求进行。
信息职能是统计最基本的职能,是保证咨询和监督职能得以有效发挥的前提,反过来统计咨询职能和统计监督职能的强化又会促进统计信息职能的强化。统计的3种功能相辅相成,相互作用,构成了一个有机整体,故又称为统计的整体功能。
统计方法已应用到人类生活的各个领域。尤其是生活在21世纪的人们,将与数据朝夕相处,收集相关数据,从数据中提取信息,进行预测与决策,将是个人、企业、政府经常面对的事情。在科研领域,统计方法已应用到几乎所有的研究领域,有些学科广泛地应用统计方法使得他们拥有各自的统计术语,如生物统计、医学统计、卫生统计、商务统计、经济统计学、统计物理学、人口统计、心理统计学、教育统计学、社会统计、体育统计学等。
统计在工商业领域扮演着一个重要的角色。一个工商管理人员会经常面临大量企业经济管理方面的数据,而这些数据只有被分析、提炼才能成为管理人员进行管理和决策的依据。
图1-2-2简要表述了当我们遇到一个商业问题时,借助于统计工具解决问题的思维过程。
图1-2-2 应用统计的思维过程
我们在讨论统计所具有的职能、统计应用的广泛性及统计对决策的重要性时,还应看到统计有所为有所不为。统计可以帮助人们分析数据,并通过分析得出某种结论,但对统计结论的进一步解释,则需要相关领域的专业知识。
1.3 统计学研究方法
统计学从17世纪产生发展到今天,其应用领域越来越广泛,其方法越来越丰富。统计学的研究方法可以简单地划分为两大类:描述性统计方法和推断性统计方法。
传统统计学以描述统计为主,主要包括数据的收集、整理、图表显示和数据的综合测度等内容,描述统计是统计学的基础和统计工作的初步。
现代统计学产生于20世纪初,以推断统计为主,其方法包括抽样理论、参数估计、假设检验、方差分析、统计决策理论、非参数统计、现代时间序列分析、多变量分析等,推断统计是现代统计学的核心。现代统计学体现了对数学方法的广泛吸收和应用,现代统计方法的应用也提高了数据分析的效率和数据挖掘的深度。
在统计工作的不同阶段应用着不同的统计方法,在数据收集阶段要体现统计的“大量观察法”,具体应用时还有不同的调查方式与方法可供选择;在数据整理阶段,主要应用“统计分组法”,通过分组、归类了解数据的内部结构,并通过合适的图、表展示数据;在数据分析阶段,根据分析问题的角度和深度不同,又有大量的统计分析方法可供选择。随着对更多数学方法的吸收和先进信息技术的不断渗透,更有效的统计分析方法还在不断产生。
本书将按照统计工作的不同阶段,分别介绍数据收集的方式与方法、数据整理与数据显示方法和数据分析的一系列方法。
任何统计方法的有效性都取决于研究对象是否满足方法的适用条件或基本假设,误用统计学方法可能会导致描述上的偏离或者是推论的错误,而这个错误又可能导致决策的失误。因此,作为统计方法的使用者应正确使用统计方法,避免误用。
1.4 统计学中的基本概念
1.4.1 总体、样本与个体
总体是客观存在的、性质相同的大量个体组成的整体,是由统计研究目的决定的统计研究对象的全体。个体是组成总体的个别单位。例如,要研究某地区国有企业的生产经营状况,则该地区全部国有企业构成总体,某个国有企业就是个体;某企业要检查某批产品的质量,该批所有产品构成总体,某件产品就是个体。
样本是从总体中抽取出来的一部分个体组成的整体。抽样的目的是用样本的数据特征推断总体的数据特征。例如,研究顾客的满意度,从该产品的用户中随机抽取5%构成样本,用这部分顾客的满意度对该产品用户的满意度进行估计。总体、样本与个体的关系如图1-4-1所示。
图1-4-1 总体、样本和个体
1.4.2 参数与统计量
参数是描述总体综合数量特征的概括性数字度量,是对总体中所有个体某一数量特征的综合。
统计量是描述样本综合数量特征的概括性数字度量,是对样本中所有个体某一数量特征的综合,计算样本统计量是为了估计总体参数。
不管是总体参数还是样本统计量,体现的都是对个体数量特征的综合,都用数字表示。例如,随机抽取5%的用户进行满意度调查,5%用户的满意度得分是82分,这就是统计量;据此推算出全部用户的满意度得分为79~85分,这就是参数。
习惯上,也将总体的综合数量特征称作统计指标。
1.4.3 变量
变量是描述个体特征的概念,变量的具体取值称为变量值。习惯上,也将反映个体特征的变量称为标志。
1.按变量的表现形式分类
变量按其表现形式不同可分为品质变量和数值型变量。
① 品质变量用文字表示,包括分类变量和顺序变量。分类变量是说明事物类别的一个名称,其取值是分类数据。如,“行业”是分类变量,其变量值表现为“IT业”、“物流业”、“旅游业”等不同类别的行业;顺序变量也是说明事物有序类别的一个名称,其取值是顺序数据。如“服务等级”是顺序变量,其变量值表现为“优”、“良”、“中”、“差4个顺序等级。
② 数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。例如,“营业额”是数值型变量,其变量值为具体的数据,如“20万元”、“30万元”、“40万元”等。
以商场的会员卡为例,每个会员的个体信息就是变量,其中,性别是分类变量,教育程度是顺序变量,购买金额是数值型变量。
2.按变量的取值不同分类
数值型变量根据变量取值不同,分为离散型变量和连续型变量。
① 离散型变量是只能取可数值的变量,一般用来反映以自然整数计量的数量表现,变量值之间以整数位断开。例如,企业从业人数1 000人,用整数来计量,在999和1 000两个整数之间不可能有小数值。
② 连续型变量是可以在一个或多个区间中取任何值的变量,其取值是连续不断的,不能一一列举。例如,销售收入20万元,以货币单位计量,在顺序的两个“万元”之间可以有小数值,表示比万元更小的计量单位上的取值。
1.5 统计应用软件简介
从古人在树木上刻痕以计算家畜和财产的数量,到今天通过计算机和网络来收集、储存、分析数据,人类处理和分析数据的速度和规模已发生了革命性的变化。人类正行驶在以数据为载体的信息高速公路上,在人们的日常生活、政府行政事务管理、企业生产经营管理、科学研究等各个领域,手工计算已被计算器、计算机所取代,数据分析软件帮助人们快速、高效地完成数据分析任务。
在统计教学中,统计学中众多的公式、符号及数字,令很多人望而生畏、感到枯燥乏味;同时,数据量较大、较为复杂的运算,手工也难以胜任。近年来,借助于计算机和数据处理软件,统计教学和统计学习变得更高效。
目前,可以用于统计数据处理和分析的软件很多。办公自动化软件Excel就包含强大的数据处理功能,其应用非常普遍。专业的统计软件有SPSS、SAS、Minitab、Statistica、Eviews等。本书的适用对象是非统计专业的学生,也不涉及很复杂高深的模型与运算,因此选择具有较高普及率的Excel软件作为统计入门学习和掌握常用数据处理方法的工具。
Excel具有强大的表格格式化功能、计算和函数功能、图表制作功能等,人们可以利用Excel的相应命令来制作电子表格、图表(见图1-5-1),进行数据的分类汇总(见图1-5-2),利用统计函数(见图1-5-3)或相应的数据分析工具(见图1-5-4、图1-5-5)完成数据的运算或分析等。Excel具有功能强大和使用方便的特点,广泛应用于会计、财务、金融、营销、贸易、统计、行政等领域,是比较适合非统计专业的经济管理人员使用的应用统计软件。
本书有关运算的任务实施都借助于Excel来完成,很少涉及手工计算,相应的公式推导、手工计算简捷公式全部省略,读者可将注意力放在统计方法的基本原理、Excel操作步骤和统计结果的解读上。
图1-5-1 插入图表
图1-5-2 数据的分类汇总
图1-5-3 插入函数
图1-5-4 工具菜单中的数据分析
图1-5-5 Excel中的数据分析工具
1.6 案例——“翔之队”的训练数据分析
当我们见证体坛明星们创造奇迹的时候,是否想过在他们的背后还有一个科研团队在用科技的力量帮助这些天才走向成功?从中国的姚明、刘翔、孙杨,到美国的科比、菲尔普斯,世界体坛的超级巨星们都有一个完善的保障团队,其中科研团队的任务是负责分析运动员们的训练数据。以刘翔背后的科研团队“翔之队”来说,他们的日常工作就是用DV机拍摄刘翔日常的训练和比赛,并将画面传入计算机,对刘翔的技术动作进行分析和研究,从而得出刘翔的跨栏角度和跨栏周期等数据,以掌握刘翔的状态。刘翔上午训练结束后,科研小组就马上开始用计算机做分析,下午训练时,教练孙海平就能拿到刘翔最新的资料。如果是下午训练,科研小组就晚上加班,第二天一早分析数据就能送到教练手里。“翔之队”的科研人员,对刘翔参加的每一场国内外比赛,或者将实况转播录下来或者用自己的DV拍摄记录下比赛的全过程,同时也会收集刘翔对手的情况,以便“知己知彼,百战不殆”。在2004年出发雅典前的最后一堂训练课上,刘翔在无助跑状态下跑出12秒90的成绩,但通过教练和科研人员对种种数据的分析,得出状态高潮过早出现的结论。果断决定在出发前增加适量的负重训练给刘翔“降温”,从而确保刘翔将最佳状态调至奥运会决赛。这些科研人员的工作就是用仪器来观察运动员的状态,记录、收集教练用肉眼看不到的情况,深入分析相关数据,为教练制订训练计划提供参考意见。这是统计在体育中的应用。
1.7 习题与实训
一、选择题
1.利用统计方法认识研究对象包括的统计活动有( )。
A.解释数据 B.收集数据 C.分析数据 D.整理数据
2.属于某一有序类别的非数字型数据是( )。
A.支付方式(现金、支票、刷卡) B.购物金额
C.企业规模(大、中、小) D.年龄
3.一个统计数据的构成要素有( )。
A.名称 B.数值 C.时间范围 D.计量单位
4.在不同时间上收集到的数据是( )。
A.观测数据 B.实验数据 C.截面数据 D.时间序列数据
5.描述总体的特征值称为( )。
A.统计量 B.变量 C.参数 D.变量值
6.下列属于离散变量的是( )。
A.某企业职工总人数 B.城乡居民储蓄存款余额
C.职工的月收入 D.全国城镇居民家庭总户数
二、思考题
1.什么是统计学?举出几个统计应用的例子。
2.简述统计工作的流程。
3.统计数据可分为哪几种类型?举例说明各类数据的特点。
三、综合应用题
1.判断下列数据属于分类数据、顺序数据还是数值型数据:品牌、职业、产品的满意度(满意、较满意、一般、不太满意、不满意)、考试成绩、市场占有率、流动资金占用额、学历、购物方式、月收入。
2.某市的城市抽样调查队随机抽取了1 000户居民作为固定样本,记录其每月的消费支出情况,连续记录了12个月,并对这1 000户居民12个月的每月消费总额及消费构成进行了汇总和分析,以此估计该市居民的消费支出情况。
(1)指出该调查的总体、样本、个体;参数、统计量、变量。
(2)每月支出额是分类变量、顺序变量还是数值型变量?
(3)每月食品支出是离散变量还是连续变量?
(4)某月1 000户居民的支出额和12个月各月1 000户居民的平均支出额分别是时间序列数据还是界面数据?
(5)上述数据是观测数据还是实验数据?
3.某校组织了一次学生消费水平的调查。该校共有在校生5 000人,随机调查了800人。
(1) 指出该项调查的总体、总体单位、样本、样本单位、标志(数量标志、品质标志)、指标;
(2)使用该项调查中的资料,举例说明离散变量和连续变量。
【任务解析】
数据是我们在日常生活和生产经营过程中需要经常面对的,如何处理并利用这些数据是一门科学,我们将要学习的就是这样一门学科,即专门提供数据研究方法的统计学。统计研究的基本思路是:围绕所研究的问题,从量化研究的角度进行数据的采集、处理和分析,分析的结论成为决策的依据和参考。本任务试图通过Dunnhumby的做法帮助大家认识什么是统计、统计是怎样帮助管理者决策的。
Tesco在选择合作伙伴时看中的就是Dunnhumby善于从业务角度出发利用数据的理念和能力,因此选中了Dunnhumby而不是同样从事零售业数据分析的IT公司。
Dunnhumby也不负众望,不管是在Clubcard启动前的试验阶段,还是启动Clubcard后的十余年间,数据分析师们通过“比别人更好的理解客户”,帮助Tesco去完成“为顾客创造价值以赢取他们终生的忠诚”的使命。
首先,Dunnhumby知道,不能根据顾客某一次购物来对顾客下结论,分析结论应根据顾客经常性的、规律性的购买习惯做出。其次,在1995年,Tesco所拥有的数据已超出了当时计算机的处理能力,所以必须找出处理海量数据的方法。他们只抽取了所有购物数据中的1%进行分析。Tesco有45 000种商品,数据分析发现8 500种商品贡献了90%的销售份额,对1%的购物数据中8 500中商品的购买情况进行分析也能得到对顾客购物模式足够深入的理解。再者,如何将顾客选择某些商品赋予意义呢?传统的市场分析人员习惯于用顾客的人口统计学信息对顾客进行分类,这种顾客细分的方法关注顾客“是谁”,显然,这些信息对于市场分析人员来说过于粗略了。例如,对食品零售商来说,“中年白人男子”这个群体的共性是性别、年龄、种族,而这个群体内部的差异可能远远大于其共性。Dunnhumby的分析师们利用“桶”(是顾客日常购物的一些常见组合)的概念研究顾客的消费偏好,使用聚类分析方法寻找购物时动机或偏好相似的顾客,借助于计算机对顾客重新细分。针对计算机“只能简单地执行算法、处理输入数据,但不了解数据背后的业务意义”的风险,分析人员对计算机给出的细分结果进行仔细验证,评估每个细分的有效性,最后得到几十个反映顾客生活习惯的细分群,并分别取名为“低消费的忠实顾客”、“每周顾客”、“精打细算的购物者”等,这些名字让顾客的形象在Tesco内部从管理层到一线员工的心目中栩栩如生,当业务遇到问题时,可以利用这些顾客的生活形态发现并解决问题。这是第一次Tesco的一线员工能够将店里一个活生生的顾客和顾客所属的细分群关联起来。这些细分群已经成为Tesco日常决策的重要依据。与业务人员的业务直觉比起来,数据分析能够更准确地洞察客户需求。
【相关知识图示】