作者:xiaoyu
微信公众号:Python数据科学目的:本篇给大家介绍一个数据分析的初级项目,目的是通过项目了解如何使用Python进行简单的数据分析。
数据源:博主通过爬虫采集的链家全网北京二手房数据(公众号后台回复?二手房数据?便可获取)。
下面是第二篇建模篇,看完这篇可继续研究这篇。
数据初探
首先导入要使用的科学计算包numpy,pandas,可视化matplotlib,seaborn,以及机器学习包sklearn。import?pandas?as?pd?import?numpy?as?np?import?seaborn?as?sns?import?matplotlib?as?mpl?import?matplotlib.pyplot?as?plt?from?IPython.display?import?display?plt.style.use("fivethirtyeight")?sns.set_style({font.sans-serif:[simhei,Arial]})?%matplotlib?inline?#?检查Python版本?from?sys?import?version_info?if?version_info.major?!=?3:?????raise?Exception(请使用Python?3?来完成此项目)
然后导入数据,并进行初步的观察,这些观察包括了解数据特征的缺失值,异常值,以及大概的描述性统计。#?导入链家二手房数据?lianjia_df?=?pd.read_csv(lianjia.csv)?display(lianjia_df.head(n=2))