200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 最简单实用的爬虫(批量数据获取 最后有完整源代码)

最简单实用的爬虫(批量数据获取 最后有完整源代码)

时间:2024-02-06 15:47:42

相关推荐

最简单实用的爬虫(批量数据获取 最后有完整源代码)

第一篇文章大概把整个框架全托出来了,这一章主要针对数据源获取方法做个介绍,这应该是最简单的爬虫获取数据的步骤了。如果有需要附件或者安装包的可以私信我,只要我手边有电脑就能给你发。最后的代码复制粘贴直接能用哈。

数据爬取步骤

a.此次爬取的是某某客在天津的房价信息,用到的工具和技术有:

python库:PyQuery、requests、csv

用csv格式保存文件(Excel啥的都行),用chrome浏览器打开网页,F12打开开发者工具

先找到网页的header信息,如图,代码如下:

headers = {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36}

b.先获取第一页数据:

response = requests.get(url,headers=headers)if response.status_code == 200 :#返回网络请求状态return response.content.decode("utf-8")else:return None

c.因为某某客的网页所发布的每一个房价信息的结构组成都是一致的,所以解析第一页的某个房价信息,推出所有房价信息的结构框架的组成。在开发者页面中,Element标签中可以看到网页的信息如图,按照路径展开,找到想要挖掘的房屋的信息如图,由于安居客的房价的信息和房子的其他信息路径是在同一个父目录中的,所以可以直接放在一个循环中。这里需要注意的是安居客的显示面积的模块有的是有几室几厅,有的没有,所以需要判断一下,当item扫描到area部分时,由于几室几厅不止一行,所以要换掉回车换行:

if area:area =

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。