200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 统计学基础概念

统计学基础概念

时间:2021-07-10 08:35:18

相关推荐

统计学基础概念

Q1. 统计学上的数据类型包括哪些?

按计量层次,分为类别数据与数值数据;类别数据细分为有序类别数据与无序类别数据,数值数据细分为离散数据与连续数据;

按收集方法,分为调查观察数据与试验数据;

按照时间状况,分为截面数据与时序数据。

Q2. 定比尺度和定距尺度的区别?

这两种尺度的区别关键在绝对零点,定比尺度有绝对零点,定据尺度没有绝对零点;

在定距尺度中,“0”表示某一个数值,而定比尺度中,“0”表示 “无”。

例如:温度为定距尺度,此时“0”表示某一个数值,0℃表示在海平面高度上水结冰的温度;销量为定比尺度,“0”表示 “无“,“0”表示没有成交量。

Q3. 什么样的数据适合用中位数表达集中趋势?

数据集有个别数据离散程度较大时

Q4. 挑选异常值的方法

3σ准则法:数据集足够大,σ代表标准差,μ代表均值,依据3σ准则将(μ-3σ,μ+3σ)区间外的数据视为异常值;

箱线法:计算出第一四分位数(Q1)、中位数、第三四分位数(Q3),令 IQR=Q3−Q1,依据箱线法,将( Q1−1.5(IQR),Q3+1.5(IQR) )区间外的数据视为异常值。

Q5. 标准差和标准误的区别。

标准差是衡量一组数据自身的离散程度;

标准误是衡量观测值与真实值之间的偏差。

Q6. 如何解读95%的置信度。

首先,明确置信区间与置信度的含义,在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,如将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占比例称为置信度。

95%的置信度指该总体参数落在该置信区间里的可能性为95%。简单来说,95%的置信度指做了1000次抽样,有950次抽样的置信区间包含了总体参数。

Q7. 已知P=0.8,计算在95%的置信度下,5%抽样误差对应的样本量(不考虑总体情况)

根据样本量计算公式n=t^2 * P*(1-P)/e^2,此时总体比例P=0.8,抽样误差e=5%,由置信度95%得t=1.96,

故n=1.96^20.80.2/(5%*5%)=246,对应样本量为246。

Q8. 从数据收集、分析方法的多个角度,简单阐述大数据和抽样数据的区别

数据收集:

抽样数据收集方法为统计人员设计调查表,确定抽样调查的群体,设计调查方案进行数据收集;

大数据数据收集方法有两大类,一是系统日志采集方法,日志文件一般由数据源系统产生,用于记录数据源的执行的各种操作活动;二是网络爬虫,通过网络爬虫从网站上获取数据信息,将非结构化数据从网页中抽取出来,将其存储为结构化本地数据文件。

数据性质:

抽样数据样本量小,格式统一,精度高;

大数据样本量大,格式繁杂,半结构化、非结构化数据占主流,精度低。

分析方法:

抽样数据分析方法一般是基于事务间的相关性、先验信息,根据收集的统计样本,采用传统统计学的推断方法进行因果关系的推断;

大数据分析方法立足与全部数据,采用大数据算法,通过云计算强大的运算能力去分析、归纳、对比,发现其内部联系和复杂现象。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。