200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > Python使用pandas读取Excel文件数据和预处理小案例

Python使用pandas读取Excel文件数据和预处理小案例

时间:2019-07-15 18:46:36

相关推荐

Python使用pandas读取Excel文件数据和预处理小案例

假设有Excel文件data.xlsx,其中内容为

现在需要将这个Excel文件中的数据读入pandas,并且在后续的处理中不关心ID列,还需要把sex列的female替换为1,把sex列的male替换为0。本文演示有关的几个操作。

(1)导入pandas模块

>>> import pandas as pd

(2)把Excel文件中的数据读入pandas

>>> df = pd.read_excel('data.xlsx')

>>> df

ID age height sex weight

张三 1 39 181 female 85

李四 2 40 180 male 80

王五 3 38 178 female 78

赵六 4 59 170 male 66

(3)删除ID列

可以得到新的DataFrame:

>>> df.drop('ID', axis=1)

age height sex weight

张三 39 181 female 85

李四 40 180 male 80

王五 38 178 female 78

赵六 59 170 male 66

也可以直接在原DataFrame上原地删除:

>>> df.drop('ID', axis=1, inplace=True)

>>> df

age height sex weight

张三 39 181 female 85

李四 40 180 male 80

王五 38 178 female 78

赵六 59 170 male 66

(4)替换sex列

方法一:使用replace()方法替换sex列,得到新的DataFrame,如果指定参数inplace=True,则可以原地替换。

>>> df.replace({'female':1, 'male':0})

age height sex weight

张三 39 181 1 85

李四 40 180 0 80

王五 38 178 1 78

赵六 59 170 0 66

方法二:使用map()方法+lambda表达式,原地替换。

>>> df1 = df[:]

>>> df1['sex'] = df1['sex'].map(lambda x:1 if x=='female' else 0)

>>> df1

age height sex weight

张三 39 181 1 85

李四 40 180 0 80

王五 38 178 1 78

赵六 59 170 0 66

方法三:使用map()方法+字典,原地替换。

>>> df1 = df[:]

>>> df1['sex'] = df1['sex'].map({'female':1, 'male':0})

>>> df1

age height sex weight

张三 39 181 1 85

李四 40 180 0 80

王五 38 178 1 78

赵六 59 170 0 66

方法四:使用loc类,原地替换。

>>> df1 = df[:]

>>> df1.loc[df['sex']=='female', 'sex'] = 1

>>> df1.loc[df['sex']=='male', 'sex'] = 0

>>> df1

age height sex weight

张三 39 181 1 85

李四 40 180 0 80

王五 38 178 1 78

赵六 59 170 0 66

---------相关阅读------------

明天火车回老家帮忙掰玉米,顺便陪老人过个中秋节,老家没有网络,预计3天不更新,大家可以阅读下面的有关文章,或者进入公众号菜单“最新资源”==>“历史文章分类速查表”文章。提前祝朋友们中秋节快乐!

使用Python内置集合对象和内置函数filter()过滤无效书评

Python数据分析扩展库pandas的DataFrame排序方法小结

Pandas创建DataFrame对象的几种常用方法

Python基于用户协同过滤算法的电影推荐代码demo

Python+pandas读取Excel文件并统计演员参演电影数量

Python统计共同参演电影最多的演员组合

Python读取Excel文件统计演员参演电影

----------喜大普奔----------

1、继《Python程序设计基础》(9月第5次印刷)、《Python程序设计(第2版)》(9月第4次印刷)、《Python可以这样学》(7月第3次印刷)系列图书之后,董付国老师新书《Python程序设计开发宝典》已于8月1日在清华大学出版社出版,并于9月进行了第2次印刷。为庆祝新书《Python程序设计开发宝典》全面上架,清华大学出版社联合“赣江图书专营”淘宝店推出特价优惠活动,《Python程序设计开发宝典》原价69元,新书上架期间超低价39.8元,可以复制下面的链接使用浏览器打开查看图书详情和购买:

/item.htm?spm=a1z10.3-b-s.w4011-14464369246.84.46f16db0roWfX4&id=557107249812&rn=339cbc9df2bac424664103917dedfbd2&abbucket=8&tbpm=3

2、10月13日——15日,重庆,全国高校程序设计系列课程高级研究班,详见:全国高校程序设计系列课程高级研修班(Python)通知

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。