200字范文 > 数据分析之统计学（贾俊平）学习笔记二

数据分析之统计学（贾俊平）学习笔记二

时间：2019-07-29 05:03:33

相关推荐

数据分析之统计学（贾俊平）学习笔记二

第2章数据的搜集

2.1 数据的来源2.1.1 数据的间接来源2.1.2 数据的直接来源2.2 调查数据2.2.1 概率抽样和非概率抽样2.2.1 概率抽样和非概率抽样2.3 实验数据2.2.1 概率抽样和非概率抽样2.3.2 实验中的若干问题2.3.3 实验中的统计2.4 数据的误差2.4.1 抽样误差2.4.2 非抽样误差2.4.3 误差的控制

2.1 数据的来源

2.1.1 数据的间接来源

如果与研究内容有关的原信息已经存在，我们只是对这些原信息重新加工，整理，使之成为我们进行统计分析可以使用的数据，则把它们称为间接来源的数据。如统计部门和各级政府公布的有关资料，各类信息中心，调查机构的数据，各种经营活动过程中的统计报表等。

相对而言，这种二手资料的搜集比较容易，采集数据的成本低，并且能很快得手。但二手资料也有很大的局限性，研究者使用二手资料要保持谨慎的态度。在使用二手资料之前，对二手资料进行评估是有必要的。

对二手资料进行评估可以考虑如下一些内容：

（1）资料是谁搜集的？这主要是考察数据搜集者的实力和社会信誉度。例如，对于全国性的宏观数据，与某个专业的调查机构相比，政府有关部门公布的数据可信度更高。

（2）为什么目的而搜集？为了某个集团的利益而搜集的数据是值得怀疑的。

（3）数据是怎样搜集的？数据的质量来源于数据的产生过程，如果不了解搜集数据所用的方法，则很难对数据的质量做出客观的评价。

（4）什么时候搜集的？过时的数据，其说服力自然受到质疑。

使用二手数据，要注意数据的定义、含义、计算口径和计算方法，避免错用、误用、滥用。在引用二手数据时，应注明数据的来源，以尊重他人的劳动成果。

2.1.2 数据的直接来源

通过自己的调查或实验活动，直接获得的第一手数据，对此我们称为数据的直接来源。

二手数据虽然搜集方便，但对一个特定的研究问题而言，二手资料的主要弱点是针对性不够，所以仅仅靠二手数据还不能回答研究所提出的问题，这时就要通过调查和实验的方法直接获得一手资料。我们把通过调查方法获得的数据称为调查数据，把通过实验方法获得的数据称为实验数据。

调查通常是针对社会现象而言的。例如，社会学家通过搜集有关人的数据以了解人类行为。调查数据通常取自有限个体。如果调查针对总体中的所有个体单位进行，就把这种调查称为普查。普查数据具有信息全面、完整的特点，对普查数据的全面分析和深入挖掘是统计分析的重要内容。但是，总体比较大时，进行普查耗时耗力成本高，因此普查不能经常进行。

实验大多是对自然现象而言的。例如，农学家通过实验了解水分、温度对农作物产量的影响。

2.2 调查数据

2.2.1 概率抽样和非概率抽样

在数据采集过程中，统计学家面临的一个关键问题是如何抽选出一个好的样本。好的样本都是相对而言的，相对包括两方面的含义：一个含义是针对研究的方面而言的。不同的研究问题，对样本的要求会有所差别，对某一研究问题，这可能是一个不错的样本，对另一个研究问题，这个样本可能是糟糕的。另一个含义是针对调查费用与估计精度的关系而言的。进行数据搜集要投入一定的费用并希望获得更多的高质量数据，但这两者往往是有矛盾的，一个好的样本应具有最好的性价比。在研究者中，我们对估计结果的精度要求是可以有差别的，有些数据相对而言不太重要，放松精度节省费用是一个不错的选择。

使用抽样采集数据的具体方式有许多种，可以将这些不同的方式分为两类：概率抽样和非概率抽样。

1.概率抽样

概率抽样也称随机抽样，是指遵循随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本。它具有下面几个特点：

首先，抽样时是按一定的概率以随机原则抽取样本。所谓随机原则就是在抽取样本时排除主观上有意识地抽取调查单位，使每个单位都有一定的机会被抽中。需要注意的是，随机不等于随便，例如，要在一栋楼里抽取10个居民作为样本，应该将楼中居民按某种顺序编上号，通过一定的随机化程序，抽取出样本。而如果调查员走到楼前，将最先走到门外的10个居民选为样本，这就是随便，这种方法不能使该楼内的所有居民都有一定机会被选中，已经在楼外或这段时间不外出的居民就没有机会被选中。

其次，每个单位被抽中的概率是已知的，或是可以计算出来的。

最后，当用样本对总体目标进行估算时，要考虑到每个样本单位被抽中的概率。估计量不仅与样本单位的观测值有关，也与入样概率有关。

需要提及的是，但我们谈到概率抽样时，是指总体中的每个单位都有一定的非零概率被抽中，单位之间被抽中的概率可以相等，也可以不等。若为前者称为等概率抽样，后者为不等概率抽样。

调查的实践中经常采用的概率抽样方式有以下几种：

（1）简单随机抽样

进行概率抽样需要抽样框，抽样框通常包括所有总体单位的信息，如企业名录（抽选企业）、学生名册（抽选学生）。简单随机抽样就是从包括总体N各单位的抽样框中随机的，一个个地抽取n个单位作为样本，每个单位的入样概率是相等的。在规模较大的调查中，很少直接采用简单随机抽样，一般是把这种方法和其他抽样方法集合起来使用。

（2）分层抽样

分层抽样是将抽样单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机的抽取样本。将各层的样本结合起来，对总体目标量进行估计。

（3）整群抽样

将总体中若干个单位合并为组，这样的组称为群。抽样是直接抽取群，然后对中选群中所有单位全部实施调查，这样的抽样方法称为整群抽样。

（4）系统抽样

将总体中的所有单位（抽样单位）按一定的顺序排列，在规定的范围内随机的抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位，这种抽样方法称为系统抽样。

（5）多阶段抽样

采用类似整群抽样的方法，首先抽取群，但并不是调查群内的所有单位，而是在进一步抽样，从选中的群中抽取出若干个单位进行调查。因为取得这些接受调查的单位需要两个步骤，所以将这种方式称为二阶段抽样。这里，群是初级抽样单位，第二阶段抽取的是最终抽样单位。将这种方法推广，是抽样的段数增多，就称为多阶段抽样。

2.非概率抽样

非概率抽样是相对于概率抽样而言的，指抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样的方式有许多种，可以归为以下几个类型。

（1）方便抽样

调查过程中有调查员依据方便的原则，自行确定入抽样本的单位。如果研究的目的是对总体有关的参数进行推断，使用方便样本是不合适的。但在科学研究中，使用方便样本可以产生一些想法以及对研究内容的初步认识，或建立假设。

（2）判断抽样

判断抽样是指研究人员根据经验、判断和对研究对象的了解，有目的的选择一些单位作为样本，实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式。判断抽样也不能用于对总体有关参数进行估计。

（3）自愿样本

自愿样本时被调查者自愿参加，成为样本中的一份子，像调查员提过有关信息。我们不能依据样本的信息对总体的状况进行估计，但自愿样本仍可以给研究人员提供许多有价值的信息，它可以反映某类群体的一般看法。

（4）滚雪球抽样

滚雪球抽样往往用于对稀少群体的调查。在滚雪球抽样中，首先选择一组调查单位，对其实施调查之后，再其他们提供另外一些属于研究总体的调查对象，调查人员根据所提供的线索，进行此后的调查。这个过程持续下去，就会形成滚雪球效应。因为与随机抽取的被调查者相比，被推荐者在许多方面与他们相似，滚雪球抽样主要优点是容易找到那些属于特定群体的被调查者，调查的成本也比较低，它适合对特定群体研究的资料搜集。

（5）配额抽样

配额抽样类似于概率抽样中的分层抽样, 在市场调査中有广泛的应用。它是首先将总体中的所有单位按一定的标志 (变量) 分为若干类, 然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。

在配额抽样中,可以按单一变量控制,也可以按交叉变量控制。表1是单一变量控制的例子，表2是交又变量控制的例子。

交叉变量配额控制可以保证样本的分布更为平均，但现场调查中为了保证配额的实现，尤其是在调查接近结束时，所选的样本单位要同时满足特定的配额，操作的难度可能要大一些。

3.概率抽样与非概率抽样的比较

由于非概率抽样不是依照随即原则抽取样本，样本统计量的分布是不确切的，一次无法用样本的结果对总体相应的参数进行推断。非概率抽样的特点是操作简便、时效快，成本低，而且对于抽样中的统计学专业技术要求不是很高。非概率抽样适合探索式的研究，调查结果用于发现问题，为更深入的数量分析做好准备。

概率抽样是依据随机原则抽选样本，因此可以根据调查的结果对总体的有关参数进行估计，计算估计误差，得到总体参数的置信区间，概率抽样的技术含量更高，要求有较高的统计学专业知识，调查成本也比非概率抽样高。

2.2.1 概率抽样和非概率抽样

1.自填式

自填式是指在没有调查员协助的情况下由被调查者自己填写，完成调查问卷。自填式问卷应有制作详细、形象友好的说明，必要时可在问卷上提供调查人员的联系方式，以便被调查者遇到疑问时与调查员联络。

2.面访式

面访式是指现场调查中与调查者面对面，调查员提问、被调查者回答这种调查方式。

3.电话式

电话式是指调查员通过打电话的方式向被调查者实施调查。

4.观察式

观察式是指调查员通过直接观测的方法获取信息，如在十字路口通过计数方法估算车流量。

5.数据搜集方法的选择

搜集数据的不同方法各有特点，在选择数据收集方法时，需要考虑以下几个问题。

（1）抽样框中的有关信息。

例如抽样框中没有通信地址，就无法用自填式搜集数据。

（2）目标总体的特征。

例如总体识字率低，对问卷的理解有困难，就不宜使用自填式方法。

（3）调查问题的内容。

例如比较复杂的问题，面访式调查比较适合，因为调查员可以在现场对模糊的问题进行解释和澄清，并判断被访者对问题是否真正理解。

（4）有形辅助物的使用。

例如在调查期间显示产品、产品的样本、广告等，在一些市场调查中，有时还需要被调查者试用产品，然后接受调查。

（5）实施调查的资源。

实施调查的资源会对搜集数据的方法产生重大的影响，这些资源包括经费预算、人员、调查设备以及调查时间。

（6）管理与控制

有些搜集数据的方法比另外一种方法更容易管理，例如，在电话式调查中，调查人员通常集中在调查中心一起工作，易于管理和控制，而面访式调查调查员要分散、独立完成工作，不易于管理和控制。

（7）质量要求

质量要求也是确定数据方法的一个重要因素。

没有哪一种方法在所有方面都是最好的，因此，在一项调查活动中将各种方法结合起来使用也许时不错的选择。

2.3 实验数据

实验数据是指在实验中控制实验对象而搜集到的变量的数据。实验是检验变量间因果关系的一种方法。在实验中，研究人员要控制某一情形的所有相关方面，操纵少数感兴趣的变量，然后观察实验的结果。

2.2.1 概率抽样和非概率抽样

实验法的基本逻辑是：有意识的改变某个变量的情况（不妨设为A项），然后看另一个变量变化的情况（不妨设为B项）。如果B项随着A项的变化而变化，就说明A项对B项有影响。为此，需要将研究对象分为两组，一个为实验组，一个为对照组。实验组是指随机抽取的实验对象的子集。在这个子集中，每个单位接受某种特别的处理。而在对照组中，每个单位不接受实验组成员所接受的某种特别的处理。

一个好的实验，对照组和实验组的产生不仅应该是随机的，而且应该是匹配的。所谓匹配，是指对实验对象的背景资料就行分析比较，将情况类似的每对单位分别随机的分配到实验组和对照组。

2.3.2 实验中的若干问题

1.人的意愿

在划分实验组和对照组时应该采用随机原则，但如果研究对象是人，他们未必会按照研究者的要求和布置行事，因为人们都有自己的生活方式和处事原则。

2.心理问题

在试验研究中，人们对被研究非常敏感，这使得他们更加注重自我

3.道德问题

道德问题使得对人和动物做的实验复杂化了，当某种实验涉及道德问题时，人们会处于进退两难的尴尬境地。

2.3.3 实验中的统计

统计在实验的过程中发挥着重要的作用。这些作用主要表现在：确定进行实验所需要的单位个数，以保证实验可以达到统计显著的效果；将统计的思想融入实验设计，是实验设计符合统分析的标准；提供尽可能最有效地同时研究几个变量影响的方法。

2.4 数据的误差

数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。数据的误差分为两类：抽样误差和非抽样误差。

2.4.1 抽样误差

抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。

抽样误差的大小与多方面因素有关。最明显的是样本量的大小，样本量越大，抽样误差就越小。抽样误差的大小还与总体的变异性有关。总体的变异性越大，即个单位之间的差异越大，抽样误差也就越大。

2.4.2 非抽样误差

非抽样误差是指除抽样误差之外的，由其他原因引起的样本观察结果与总体真值之间的差异。抽样误差是一种随机性误差，只存在于概率抽样中；非抽样误差则不同，无论是概率抽样、非概况抽样，或是在全面调查中，都有可能产生非抽样误差。非抽样误差有以下几个类型。

1.抽样框误差

在概率抽样中需要根据抽样框抽取样本，一个好的抽样框应该是，抽样框中的单位和研究总体中的单位有一一对应的关系。例如，在某学校中抽取一个学生样本，抽样框是该学校的所有学生名单，但如果学生的名单是去年的，新入学的学生没有在名单中反映，而名单上的学生部分已经毕业，这时，抽样框中的单位和研究总体中的单位就不存在一一对应的关系，就会产生抽样框误差。

2.回答误差

回答误差是指被调查者在接受调查时给出的回答与真是情况不符。导致回答误差的原因有多种，主要有理解误差、记忆误差和有意识误差。

3.无回答误差

无回答误差是指被调查者拒绝接受调查，调查员得到的是一份空白的回答。

4.调查员误差

这是指由于调查员的原因而产生的调查误差。例如，调查员粗心，在记录调查结果时出现错误。

5.测量误差

如果调查与测量工具有关，则很有可能产生测量误差。