推荐专题：

200字范文 > Python爬虫UA伪装（简易网页采集器）

Python爬虫UA伪装（简易网页采集器）

时间：2019-03-03 18:47:04

相关推荐

Python爬虫UA伪装（简易网页采集器）

爬虫实战

requests实现简易网页采集器UA伪装UAUA伪装

requests实现简易网页采集器

目标：实现输入关键字能爬取某一浏览器页面

关键步骤：

指定url，词条封装发起请求,get方法返回响应对象拼接参数，获取响应数据存储数据

代码：

import requestsif __name__ == "__main__":# url='/web?query=菜菜'url = '/web'# 1.处理url携带的参数：封装到字典中。动态输入搜索关键字kw=input('enter a word:')# 将要输入的词条封装到字典中parm={'query':kw}# 2.(发起请求)对指定的url发起的请求对应url是携带的参数。并且请求过程中处理了参数。# params是url的参数值（自己输入）。动态拼接参数。response = requests.get(url=url,params=parm)# 3.获取响应数据page_text=response.text# 4.存储fileName=kw+'.html'with open(fileName,'w',encoding='utf-8') as fp:fp.write(page_text)print(fileName,"保存成功！")

结果：

html文件运行结果：

然而当运行html文件的时候会发现不能访问，这是因为在访问时服务器识别不是某浏览器请求，服务器端会拒绝其请求，这是就需要UA伪装。

UA伪装

UA

UA：User-Agent翻译是用户代理，其实就是用户的身份。门户网站的服务器会检测用户的身份，如果检测到请求的载体身份为某一款浏览器说明该请求是一个正常的请求，如果检测到请求的载体身份不是某一款浏览器说明该请求不是一个正常的请求（爬虫），服务器端会拒绝其请求。

UA伪装

UA伪装：让爬虫对应的请求载体身份标识伪装成某一浏览器。

# UA伪装，将对应的user-agent封装到一个字典中，这里以火狐为例headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/0101 Firefox/93.0'}

在.get响应中添加参数header

response = requests.get(url=url,params=parm,headers=headers)

html文件运行结果：

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

Python爬虫之UA伪装

2019-09-28

关于Python爬虫时UA伪装的实现。

2021-08-23

Python:简易网页采集器

2020-11-02

python爬虫实现网页采集器

2019-01-08

扩展阅读

: Python破解反爬虫：最新反爬虫有道翻译中英文互译破解附代码

: Python网络爬虫：一步步指导获取小说的方法

: Python 爬虫分析后疫情电影现状：从低迷到稳定

: python爬虫入门实战！爬取博客文章标题和链接！

: Python小伙用简单爬虫实现成语接龙小游戏！

: python爬虫入门实战！爬取博客文章标题和链接！

最近发布

宇宙的有趣片段描写200字

2024-07-19

小学生观察作文200字

2024-07-19

小学三年级写给妈妈的一封信作文200字

2024-07-19

个人智力与犯罪：反思与观察

2024-07-19

我的美丽秋游探险记：一年级日记200字

2024-07-19

伟大的日子：小学生的读后感在读完伟大的日子后我感触颇深。这本书讲述了一位伟大

2024-07-19

推荐专题

写秋的作文200字西游记第47回概括200字团员自我评议200字书香家庭事迹材料200字桂林作文200字感恩的作文200字左右景物描写200字段落打羽毛球作文200字观察日记200个字随笔200字小学冬天的雪景作文200字捉迷藏作文200字 200字童话作文劳动日记200字写家乡的作文200字