200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > Python应用实战-用pandas实现数据预处理

Python应用实战-用pandas实现数据预处理

时间:2020-06-14 06:07:03

相关推荐

Python应用实战-用pandas实现数据预处理

数据预处理常用的处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等,下面使用 pandas 解决这些最常见的预处理任务。

找出异常值常用两种方法:

标准差法:异常值平均值上下1.96个标准差区间以外的值

分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值

技能1 :标准差法

importpandasaspddf=pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})#异常值平均值上下1.96个标准差区间以外的值meangrade=df['a'].mean()stdgrade=df['a'].std()toprange=meangrade+stdgrade*1.96botrange=meangrade-stdgrade*1.96#过滤区间外的值copydf=dfcopydf=copydf.drop(copydf[copydf['a']>toprange].index)copydf=copydf.drop(copydf[copydf['a']<botrange].index)copydf

技能2:分位数法:

q1=df['a'].quantile(.25)q3=df['a'].quantile(.75)iqr=q3-q1toprange=q3+iqr*1.5botrange=q1-iqr*1.5copydf=dfcopydf=copydf.drop(copydf[copydf['a']>toprange].index)copydf=copydf.drop(copydf[copydf['a']<botrange].index)copydf

技能3:处理空值

np.nan 是 pandas 中常见空值,使用 dropna 过滤空值,axis 0 表示按照行,1 表示按列,how 默认为 any ,意思是只要有一个 nan 就过滤某行或某列,all 所有都为 nan

#axis0表示按照行,all此行所有值都为nandf.dropna(axis=0,how='all')

技能4:充填空值

空值一般使用某个统计值填充,如平均数、众数、中位数等,使用函数 fillna:

#使用a列平均数填充列的空值,inplacetrue表示就地填充df["a"].fillna(df["a"].mean(),inplace=True)

技能5:修复不合适值

假如某门课最高分100,如果出现 -2, 120 这样的值,显然不合理,使用布尔类型的Series对象修改数值:

df.loc[(df['a']<-2,'a')]=0df.loc[(df['a']>=100,'a')]=100

技能6:过滤重复值

过滤某列重复值,使用 drop_duplicated 方法,第一个参数为列名,keep关键字等于last:最后一次出现此值行:

df.drop_duplicates(['Names'],keep='last')

技能7:apply 元素级:去掉特殊字符

某列单元格含有特殊字符,如标点符号,使用元素级操作方法 apply 干掉它们:

importstringexclude=set(string.punctuation)defremove_punctuation(x):x=''.join(chforchinxifchnotinexclude)returnx#原dfOut[26]:ab0c,dedc.rc1332def4#过滤a列标点In[27]:df.a=df.a.apply(remove_punctuation)In[28]:dfOut[28]:ab0cdedc.rc1332def4

技能8:cut 数据分箱

将百分制分数转为A,B,C,D四个等级,bins 被分为 [0,60,75,90,100],labels 等于['D', 'C', 'B', 'A']:

#生成20个[0,100]的随机整数In[30]:a=np.random.randint(1,100,20)In[31]:aOut[31]:array([48,22,46,84,13,52,36,35,27,99,31,37,15,31,5,46,98,99,60,43])#cut分箱In[33]:pd.cut(a,[0,60,75,90,100],labels=['D','C','B','A'])Out[33]:[D,D,D,B,D,...,D,A,A,D,D]Length:20Categories(4,object):[D<C<B<A]

技能9:rank 排名

rank 方法,生成数值排名,ascending 为False,分值越大,排名越靠前:

In[36]:df=pd.DataFrame({'a':[46,98,99,60,43]}))In[53]:df['a'].rank(ascending=False)Out[53]:04.012.021.033.045.0

技能10:category列转数值

某列取值只可能为有限个枚举值,往往需要转为数值,使用get_dummies,或自己定义函数:

pd.get_dummies(df['a'])

自定义函数,结合 apply:

defc2n(x):ifx=='A':return95ifx=='B':return80df['a'].apply(c2n)

以上结合数据预处理的十个小任务,分别找到对应pandas中的实现。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。