200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > python爬虫技术可以干什么-利用爬虫技术能做到哪些很酷很有趣很有用的事情?...

python爬虫技术可以干什么-利用爬虫技术能做到哪些很酷很有趣很有用的事情?...

时间:2024-06-06 00:23:55

相关推荐

python爬虫技术可以干什么-利用爬虫技术能做到哪些很酷很有趣很有用的事情?...

很久之前就看到老爬虫 @何明科 的回答,在后续的几年里面,一致在思考和践行爬虫赋能业务运营的结合点和场景。爬虫是虾米东东?真的是盗取数据的不法之徒吗?

真相却恰恰相反,而且很多场景下都能极大的赋能业务。

【目录】一句话点透爬虫到底是什么

爬虫如何赋能有趣的业务场景的入门应用场景知乎粉丝分析

小姐姐图片分析

买车和车牌竞拍

朋友圈的黑科技

进阶应用场景“我要导出这个表格,可是为啥没有导出功能咧”

“每天我都要从京东、天猫、苏宁几个平台下载销售报表”,好鬼累

高阶应用场景

很酷的是,APP的数据也可以爬下来

更酷的是,如果不写代码,点点鼠标就能实现以上场景呢

1.爬虫到底是什么?

数据领域有一个重要概念,叫做ETL,即extract、transform和load,中文叫抽取、转换和加载。 />图片来自网络哦。紫色部分就是ETL的三大模块,是不是和爬虫很像

嗯,有哪些应用场景?

我们工作中经常看的报表,或者BI驾驶舱等顶层数据平台中的报表,里面的指标加工逻辑和流程就是一个完整的ETL过程。

每张报表的数据都来源于一个或多个数据源系统,或者叫业务系统,然后经过各种计算、格式转换等等(术语叫加工)就形成了我们可见的报表。

哪怕是一个极其简单的折线图。

OK,如果数据源(或业务系统)不是自己公司自有的平台,而是互联网上所有网站上可见的公开数据呢?例如汽车之家的车价、口碑和优惠信息,门户网站的新闻等。

那么这个时候ETL就对接到这些公开数据的数据源,我们就把这种对接互联网公开数据的系统叫做爬虫。

所以爬虫是ETL的简化,于是爬虫是数据自动化的一种重要实现。

记住关键字:数据自动化。

2. 爬虫有哪些有趣的应用场景呢?在这些场景中又是如何赋能的呢?

2.1 基础场景

1)爬知乎粉丝,分析粉丝画像,有点伤心

前天爬了自己的粉丝 想看看自己粉丝的情况,诶呀,不容乐观呀,不过无伤大雅,无伤大雅。虽然每天都新增个百八十千的,看着新增很喜人,但爬下来丢进Excel跑个分析后发现,绝大多数都是0回答0赞同个位关注和个位粉丝的人,唔~~~为啥没更多的大咖关注我尼 />

2)爬海量小姐姐图片,分析特征,正儿八经的分析

有人说我low,我却回复你No!

我又不是边吃甜甜圈边喝肥宅水边看小姐姐的油腻大叔,我拿小姐姐图片做人脸识别训练的你敢信~~~

手工打标签累死人 />

3)爬车价和车牌竞价信息,分析车价和竞价趋势,我真的竞价到了车牌

想买车,选了那么几款吧,爬了过去2年的车价,接下来做曲线图和预测,找到价格最低的下手时机,没错,我的普锐斯就是这么买来的。

购车指标,摇号自然是摇不中的,那就考虑竞价吧,但是要尽量低价竞拍到嘛。于是把过去1.5年的广州车牌竞价信息爬下来丢进Excel,简单跑个趋势和预测,没错,我的车牌就是这么拍回来的,低于成交均价2000多拿到。关于用爬虫搞定买车和车牌的故事,我逢人就炫耀,哈哈 />

4)朋友圈的黑科技

爬虫半夜启动,开始爬我当天的朋友圈,分别执行以下业务流程 :分享的是链接:全都抓回来过nlp(很多在线免费的)输出标签,然后导出成PDF保存到本地做成一个有趣的资料库。毕竟,自己收集干货内容精力有限,要借助朋友们的力量。

分享的图片:暂时没啥特别有趣的场景。

分享的是文字:一些猎头朋友会发一些职位信息,不如爬回来看看,保持关注。

当然,爬虫可以设置”无论你干什么我都想知道“和”9图也无法吸引我“等两类客群,目标明确,提升效率。

爬虫在朋友圈的黑科技就是自动操作,包括但不限于自动点赞、自动回复。营销圈用的比较多,这个太简单了,不说了。同样自动操作也能根据自己定的白名单或者黑名单来针对性操作。这些是基础玩法,属于个人爱好和解决生活问题的范畴。

但在我看来,爬虫如果没有创造商业价值或者解决工作疑难问题,都只是玩具。

所以,接下来的场景都是在业务运营和实际工作中落地爬虫的,真正让爬虫这个技术为我们的运营、市场、营销赋能,是大数据赋能的重要组成部分之一。

2.2 进阶场景

1)“我要导出这个表格,可是为啥没有导出功能咧”

事实上,很多b端服务平台,例如订单管理、评论管理、销量管理以及企业内部的后台,时不时的会缺少一个重要功能:导出为Excel。

例如,我关注的是时间-产品名称-销售额这三个字段,但是坐我对面哥们想看时间-渠道-销售额,很可惜,导出功能并不那么智能,依旧导出的是时间-产品名称-销售额-渠道,那么对于我和对面的哥们,都需要再删除,更有甚者,导出功能并不与实际查询看到的数据同步,例如只能导出昨天甚至前天的。

如果有爬虫助力,上述糟心的场景统统不存在,转而为之点击鼠标启动爬虫,然后冲咖啡、看新闻,约莫个几分钟,数据就静静的躺在你的电脑桌面了。 />

2)“每天我都要从京东、天猫、苏宁几个平台下载销售报表”

大概这是每个做电商运营都会遇到的问题。

刚进办公室屁股还没坐到板凳,就被老板夺命呼要拿销量数据。于是打开浏览器从京东、天猫、苏宁下载报表,嗯,谁都不爱做重复的无意义的低附加值的工作。事实上更糟心的是,每个平台的导出的excel表长得都不一样,还要按照自己公司实际的需要再次整理。如果一个不小心字段映射错了,光是找错误就足以让人崩溃。

例如对于“销售金额”,天猫叫销售额,苏宁叫销量,京东叫金额,我们是这么做的:登录天猫,下载销售报表,保存为Excel-1

登录京东,下载销售报表,保存为Excel-2

登录苏宁,下载销售报表,保存为Excel-3

手工把Excel-2、Excel-2和Excel-3合并到我们自己的销售报表

当然,我们自已要保证字段的准确性(高级一点的用VBA来合并)

令人绝望的是,昨天是双11,数据量是万,十万级以上的

假如一不小心出错,嗯,男人哭吧哭吧不是罪~~~

如果有爬虫助力,上面糟心的场景统统不存在,我们是这么做的:点击鼠标启动爬虫

冲咖啡、看新闻,上厕所

和老板聊聊大饼,和同事扯扯淡

相信我,这个过程,你连电脑都不需要碰一下

如果出错,在爬虫欢快的跑的过程中,就会告诉你了 />

2.3 高级场景

这个部分简述几个,都有非常明确地业务目标。

1)求职招聘

多个平台跟踪一个或多个关键字职位信息的变化

2)产品促销

单品在不同平台的销量、促销活动、降价信息,然后将数据二次分析和挖掘后,可以再次给到消费者(例如什么值得买)

3)APP的ASO

做APP平台运营和渠道运营的同学深有体会,国内那么多家应用市场,每家应用市场的数据字段都不一致,汇总app的渠道运营周报还真有点枯燥和乏味呢。如果有爬虫助力,上述糟心的场景统统不存在,转而为之点击鼠标启动爬虫,然后冲咖啡、看新闻,约莫个几分钟,每个应用市场上APP的数据就静静的躺在你的电脑桌面了。当然,还有更多的有趣场景,例如分析竞争伙伴的数据,来学习优秀产品的崛起之路。

3. 终极场景

APP+web数据全平台自动化获取和分析

例如,b站某个up主,我想知道它在全网的播放量、点赞以及评论,可惜的是,抖音或者快手并没有直接网页呈现或者公开的数据接口。没问题,APP我们也可以爬回来。2个小时,就写了B站APP的爬虫,并且其中70%的代码可复用于大众点评APP、携程APP、抖音APP、快手APP等一众APP。

4. 是的,上述90%的场景不用写代码,点点鼠标就能搞定

将信将疑的,私信开放交流。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。