200字范文 > CrawlSpider实现微信小程序社区爬虫

CrawlSpider实现微信小程序社区爬虫

时间：2021-12-27 14:03:10

在新建的包目录下面创建一个爬虫项目，cmd——>scrapy startproject wxapp

创建成功后，cd wxapp

创建wxapp_spider爬虫 scrapy genspider -t crawl wxapp_spider "wxapp-"

编写wxapp_spider.py代码：

import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass WxappSpiderSpider(CrawlSpider):name = 'wxapp_spider'allowed_domains = ['wxapp-']start_urls = ['http://www.wxapp-/portal.php?mod=list&catid=1&page=1']rules = (Rule(LinkExtractor(allow=r'.+mod=list&catid=1&page=\d'), follow=True),Rule(LinkExtractor(allow=r".+article-.+\.html"),callback="parse_detail",follow=False))def parse_detail(self, response):title = response.xpath("//h1[@class='ph']/text()").get()print(title)

在settings.py设置有关配置默认的true改为False

把注释掉的DEFAULT_REQUEST_HEADERS不注释加上user_agent，可以在你的浏览器上copy下来

在wxapp下面添加start_project.py文件

代码如下

from scrapy import cmdlinecmdline.execute("scrapy crawl wxapp_spider".split())

运行它，打印出了新闻里面的标题和访问的url

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。