200字范文 > 统计学基础概念

统计学基础概念

时间：2021-07-10 08:35:18

相关推荐

统计学基础概念

Q1. 统计学上的数据类型包括哪些？

按计量层次，分为类别数据与数值数据；类别数据细分为有序类别数据与无序类别数据，数值数据细分为离散数据与连续数据；

按收集方法，分为调查观察数据与试验数据；

按照时间状况，分为截面数据与时序数据。

Q2. 定比尺度和定距尺度的区别？

这两种尺度的区别关键在绝对零点，定比尺度有绝对零点，定据尺度没有绝对零点；

在定距尺度中，“0”表示某一个数值，而定比尺度中，“0”表示 “无”。

例如：温度为定距尺度，此时“0”表示某一个数值，0℃表示在海平面高度上水结冰的温度；销量为定比尺度，“0”表示 “无“，“0”表示没有成交量。

Q3. 什么样的数据适合用中位数表达集中趋势?

数据集有个别数据离散程度较大时

Q4. 挑选异常值的方法

3σ准则法：数据集足够大，σ代表标准差,μ代表均值，依据3σ准则将（μ-3σ,μ+3σ)区间外的数据视为异常值；

箱线法：计算出第一四分位数（Q1）、中位数、第三四分位数（Q3），令 IQR=Q3−Q1，依据箱线法，将（ Q1−1.5(IQR)，Q3+1.5(IQR) ）区间外的数据视为异常值。

Q5. 标准差和标准误的区别。

标准差是衡量一组数据自身的离散程度；

标准误是衡量观测值与真实值之间的偏差。

Q6. 如何解读95%的置信度。

首先，明确置信区间与置信度的含义，在区间估计中，由样本统计量所构造的总体参数的估计区间称为置信区间，如将构造置信区间的步骤重复多次，置信区间中包含总体参数真值的次数所占比例称为置信度。

95%的置信度指该总体参数落在该置信区间里的可能性为95%。简单来说，95%的置信度指做了1000次抽样，有950次抽样的置信区间包含了总体参数。

Q7. 已知P=0.8，计算在95%的置信度下，5%抽样误差对应的样本量（不考虑总体情况）

根据样本量计算公式n=t^2 * P*(1-P)/e^2,此时总体比例P=0.8，抽样误差e=5%,由置信度95%得t=1.96,

故n=1.96^20.80.2/(5%*5%）=246，对应样本量为246。

Q8. 从数据收集、分析方法的多个角度，简单阐述大数据和抽样数据的区别

数据收集：

抽样数据收集方法为统计人员设计调查表，确定抽样调查的群体，设计调查方案进行数据收集；

大数据数据收集方法有两大类，一是系统日志采集方法，日志文件一般由数据源系统产生，用于记录数据源的执行的各种操作活动；二是网络爬虫，通过网络爬虫从网站上获取数据信息，将非结构化数据从网页中抽取出来，将其存储为结构化本地数据文件。

数据性质：

抽样数据样本量小，格式统一，精度高；

大数据样本量大，格式繁杂，半结构化、非结构化数据占主流，精度低。

分析方法：

抽样数据分析方法一般是基于事务间的相关性、先验信息，根据收集的统计样本，采用传统统计学的推断方法进行因果关系的推断；

大数据分析方法立足与全部数据，采用大数据算法，通过云计算强大的运算能力去分析、归纳、对比，发现其内部联系和复杂现象。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。