200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > Python:简易网页采集器

Python:简易网页采集器

时间:2019-08-27 20:19:14

相关推荐

Python:简易网页采集器

#UA:User-Agent (请求载体的身份标识)

#UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,则说明该请求是一个正常的请求,如果检测到请求的身份标识不是基于某一款浏览器,则表示该为不正常的请求(爬虫),则服务器就可能拒绝该次请求

#UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器

import requestsif __name__=="__main__":#UA伪装:将对应的User-Agent封装到一个字典中headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.33'}url='/search'#处理url携带的参数:封装到字典中kw=input("enter a word:")param={'query':kw}#对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数response=requests.get(url=url,params=param,headers=headers)page_text=response.textfilename=kw+'.html'with open(filename,'w',encoding='utf-8') as fp:fp.write(page_text)print(filename,"保存成功!!!!")

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。