Q1. 统计学上的数据类型包括哪些?
按计量层次,分为类别数据与数值数据;类别数据细分为有序类别数据与无序类别数据,数值数据细分为离散数据与连续数据;
按收集方法,分为调查观察数据与试验数据;
按照时间状况,分为截面数据与时序数据。
Q2. 定比尺度和定距尺度的区别?
这两种尺度的区别关键在绝对零点,定比尺度有绝对零点,定据尺度没有绝对零点;
在定距尺度中,“0”表示某一个数值,而定比尺度中,“0”表示 “无”。
例如:温度为定距尺度,此时“0”表示某一个数值,0℃表示在海平面高度上水结冰的温度;销量为定比尺度,“0”表示 “无“,“0”表示没有成交量。
Q3. 什么样的数据适合用中位数表达集中趋势?
数据集有个别数据离散程度较大时
Q4. 挑选异常值的方法
3σ准则法:数据集足够大,σ代表标准差,μ代表均值,依据3σ准则将(μ-3σ,μ+3σ)区间外的数据视为异常值;
箱线法:计算出第一四分位数(Q1)、中位数、第三四分位数(Q3),令 IQR=Q3−Q1,依据箱线法,将( Q1−1.5(IQR),Q3+1.5(IQR) )区间外的数据视为异常值。
Q5. 标准差和标准误的区别。
标准差是衡量一组数据自身的离散程度;
标准误是衡量观测值与真实值之间的偏差。
Q6. 如何解读95%的置信度。
首先,明确置信区间与置信度的含义,在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,如将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占比例称为置信度。
95%的置信度指该总体参数落在该置信区间里的可能性为95%。简单来说,95%的置信度指做了1000次抽样,有950次抽样的置信区间包含了总体参数。
Q7. 已知P=0.8,计算在95%的置信度下,5%抽样误差对应的样本量(不考虑总体情况)
根据样本量计算公式n=t^2 * P*(1-P)/e^2,此时总体比例P=0.8,抽样误差e=5%,由置信度95%得t=1.96,
故n=1.96^20.80.2/(5%*5%)=246,对应样本量为246。
Q8. 从数据收集、分析方法的多个角度,简单阐述大数据和抽样数据的区别
数据收集:
抽样数据收集方法为统计人员设计调查表,确定抽样调查的群体,设计调查方案进行数据收集;
大数据数据收集方法有两大类,一是系统日志采集方法,日志文件一般由数据源系统产生,用于记录数据源的执行的各种操作活动;二是网络爬虫,通过网络爬虫从网站上获取数据信息,将非结构化数据从网页中抽取出来,将其存储为结构化本地数据文件。
数据性质:
抽样数据样本量小,格式统一,精度高;
大数据样本量大,格式繁杂,半结构化、非结构化数据占主流,精度低。
分析方法:
抽样数据分析方法一般是基于事务间的相关性、先验信息,根据收集的统计样本,采用传统统计学的推断方法进行因果关系的推断;
大数据分析方法立足与全部数据,采用大数据算法,通过云计算强大的运算能力去分析、归纳、对比,发现其内部联系和复杂现象。