200字范文 > python分析并爬取起点中文网的章节数据最后保存为txt文档

python分析并爬取起点中文网的章节数据最后保存为txt文档

时间：2024-01-12 22:47:08

如题，分析起点中文网，并提取出来章节链接，保存为txt文档。

代码仅供交流使用，请勿用作商业用途，如有违规，请联系删除

一，分析

1.打开带有章节的链接，例如：（随便选的一篇文章）

2.打开浏览器的抓包工具f12（我用的是谷歌浏览器），点击页面的免费试读，因为页面是在一个页面跳转，不需要多开浏览器。

抓到包会发现很杂乱，通过筛选会出现所需要的一些链接，这些链接一个个点击查看返回详情，最后发现那条蓝色链接是包含所有这篇小说的目录的。

3.可以发现这个是一个get包，变化的参数有两个。

4.bookid可以发现是书的id，_csrfToken是一个可变的参数，这个得找到从哪获取的，先在所有链接里进行搜索这个内容，可以发现这个token是存在cookie中，查看了没有返回过cookie，就只能从refer来，找到最先出现这个token的链接，在这个链接里提取refer的，然后通过代码提取到这个token的值。

5.回到出现目录的链接那里（这个链接要在页面点击一下目录），分析返回的内容，返回的是属于json格式，提取也能用过key值提取出来，红色方框是主key，箭头是列表，小说包含的章节数多，圆圈的是代表目录的内容。具体的提取方式会在代码显示，公式是：返回内容[主key1][主key2][列表数][圆圈][具体提取的key]。其中提取的每章的链接需要自己补全。

二.代码

代码上面附上解释说明，详情请看：

def get_qidian(url):import requestsimport jsonimport refrom lxml import etree#设置全局变量some_ = ''#提取bookidbid = url.split("/")[-1]# print(bid)headers ={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/0101 Firefox/4.0.1"}res = requests.get(url, headers=headers)#提取后面用到的refernew_url = 'https:' + re.search(pile(r'<a class="red-btn J-getJumpUrl " href="(.*?)"'), res.text).group(1)#提取小说名字title = re.search(pile('《(.*?)》'), res.text).group(1)#两种提取cookie成字典模式#第一种# print(res.cookies.list_domains())# print(res.cookies.list_paths())# print(res.cookies.get_dict(res.cookies.list_domains()[0],res.cookies.list_paths()[0]))#第二种cookie = requests.utils.dict_from_cookiejar(res.cookies)Token = cookie['_csrfToken']#更新字典的headersheaders.update({"x-requested-with": "XMLHttpRequest", "referer": new_url})headers.update(cookie)#解码返回的内容res = requests.get(f'/ajax/book/category?_csrfToken={Token}&bookId={bid}',headers=headers).text.encode("raw_unicode_escape").decode()# 把返回的内容转为json格式res = json.loads(res)headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/0101 Firefox/4.0.1"}#提取列表for s in res['data']['vs']:#提取目录内容for i in s['cs']:#提取章节名字chapter = i['cN']#提取链接后半部分ch_url = '/chapter/' + i['cU']# print(chapter)# print(ch_url)#/chapter/#<div class="read-content j_readContent">res = requests.get(ch_url, headers=headers).text# print(res)#通过etree提取每一章的内容selector = etree.HTML(res)txt_ = selector.xpath('//div[@class="read-content j_readContent"]/p/text()')# print(txt_)all_txt = ''for g in txt_:#对每一条内容进行处理g = str(g)g = g.replace('\u3000\u3000', '').replace('\n', '').strip() + '\n'all_txt = all_txt + g#把所有内容放在一个变量里，最后再保存all_txt = chapter + '\n\n' + all_txtsome_ = some_ + all_txt#把所有处理好了，进行写出保存with open(f'{title}.txt', 'w') as f:f.write(some_)f.close()if __name__ == '__main__':get_qidian('/info/1018027842')

本文仅交流学习，觉得有帮助的点个赞，后续将会发布更多的好文章，请持续关注。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。