Category爬虫黑作坊

抖音爬虫小工具:你要的小姐姐我这里全都有

之前发布的抖音视频爬取教程已经失效,最近有空将加密算法做了更新,接着又更新了一个异步版本。不过那个还不完善,就暂时就先不上线了。 为了方便大家使用(其实真正的目的是自己想下载很多好看的小姐姐的视频),目前支持的功能有: 下载该用户发不过的视频 下载该用户点赞过的视频 下载单视频下的评论信息 下载单个视频 项目地址: 目前大家可以在项目地址:www_douyin_com/spiders/douyin_crawl.py 下,根据最下方的提示,修改指定的参数运行代码 # 关注公众号【鸡仔说】回复【抖音】获取自己的唯一 token 号# 注:提取了 Token 值后,在 /www_douyin_com/config.py 中,将 token 值替换之后才可以运行,# 不温馨提示:每日的 api 次数有限,省着点用~😬😬​douyin = DouyinCrawl(TOKEN)​aweme_id =...

脱单日记:一周CP反爬虫破解之疯狂点赞小姐姐

2019年03月03日 天气晴 今天是我来到这个世界的第9558天,也是单身的第9558天。今年回家见老妈,被下了死命令,再不带一个回去,我可能要就要露宿街头了。 平时就蓬头垢面写代码,哪有时间撩妹啊。现在已经到三月份了,看了下公司的需求,已经排到了7月中旬,照这个趋势看,脱单?是不可能脱单的!这辈子都不可能脱单的!!!旁友那哥们为见我为这事焦头烂额,就给我介绍一软件:一周CP,🤩瞬间打开新世界的大门,里面有好多小姐姐。但问题是我没时间玩啊。不过转念一想,找对象不过就是个算术题嘛,接触的人越多,找到对象的概率越大。所以,这周末,不吃饭也得把软件破解了,只要破解了加密算法,就可以让它自动给小姐姐点赞,增加自己的曝光率,想来靠谱,上,怼它。为脱单奋斗! 工具环境 语言:Python 编辑器:Pycharm 数据库:MongoDB...

10个爬虫工程师必备的工具了解一哈

1

工欲善其事必先利其器的道理相信大家都懂。而作为经常要和各大网站做拉锯战的爬虫工程师们,则更需要利用利用好身边的一切法器,以便更快的攻破对方防线。今天我就以日常爬虫流程,给大家介绍十款工具,相信大家掌握之后,必定能够在工作效率上,提升一个量级 爬虫第一部做什么?当然是目标站点分析 1.Chrome Chrome属于爬虫的基础工具,一般我们用它做初始的爬取分析,页面逻辑跳转、简单的js调试、网络请求的步骤等。我们初期的大部分工作都在它上面完成,打个不恰当的比喻,不用Chrome,我们就要从智能时代倒退到马车时代 同类工具: Firefox、Safari、Opera 2.Charles...

python爬虫之批量抖音视频提取术

p

假期正好有空闲时间,终于可以整理自己的笔记啦。整理到抖音视频的时候,就好麻烦,每次都要先把视频导出到本地,再给微信的文件管理助手,再下载传到印象笔记,一来二去浪费不少时间,想想这事不正好适合爬虫去干吗?于是就有了以下这篇内容 工具环境 语言:Python3.6 编辑器:Pycharm 数据库:MongoDB 工具:Charles 前言 在使用Charles,你需要做一些基础的配置,将你的手机的网络代理到本地电脑,以便做进一步的抓包分析,以下两篇文章可能对你有所帮助   爬取思路 爬取站点: 这里的爬取思路非常简单,以至于我会觉得这篇文章会有些空洞。当你抓包正确配置好环境后,打开抖音软件,做一些简单的操作,Charles就会给你返回如下的数据,这些数据其实就是服务端给你返回的数据,里面包含所有我们需要的信息。比如我们今天要下载的自己点击过的,喜欢的视频链接等...

scrapy虫术 | 通用爬虫之站酷全站设计师资料爬取

s

我们写多几个爬虫就会发现,其实有很多相同的模块,比如翻页,比如网络错误重试等。scrapy内部已经有非常完美的处理模块,我们只需要简单配置即可使用,还是接上一节我们的爬虫,这一次我们将它封装地更加强大。这次,我们做一个通用爬虫,实现随机请求头和换ip功能,除此之外将实现可配置化爬虫,也就是说,我们要爬取一个站点,只需要写必要的链接筛选和解析规则即可,而无需像之前那样写很多冗余的代码块。黑喂狗\~ ### 工具环境 – 语言:python3.6 – 编辑器:Pycharm – 数据库:MongoDB – 框架:scrapy1.5.1 ### 温馨提示: 阅读此文可能需要对scrapy框架有基本的了解,对xpath解析有一个基本的了解 ### 爬取思路 爬取站点:[ ] 我们需要的是每一个设计师的资料页面的信息,如下所示: 逻辑其实很简单: 1...

scrapy10行代码爬下电影天堂全站

s

scrapy的强大相信大家已早有耳闻,之前用的时候只是感觉它爬取效率高,内部的异步封装很友好。殊不知我看到的知识冰山一角,它还有很多提高开发效率的功能,今天就以一个实例带大家窥探一二 ### 工具环境 – 语言:python3.6 – 编辑器:Pycharm – 数据库:MongoDB – 框架:scrapy1.5.1 ### 温馨提示: 阅读此文可能需要对scrapy框架有基本的了解,对xpath解析有一个基本的了解 ### 爬取思路 爬取站点:[] 这样的站点我一眼望过去就想给站长打Q币,为什么啊?这站点简直是为爬虫而生啊?你看,一点花里胡哨的东西都没有,我们小眼一瞅便知,和我们不相关的就只是游戏部分的资源。我们需要如果要进入爬取更多的页面就只需要点击导航页...