作者: 张小鸡 Python爱好者社区专栏作者
知乎ID:https://www.zhihu.com/people/mr.ji
个人公众号:鸡仔说
假期正好有空闲时间,终于可以整理自己的笔记啦。整理到抖音视频的时候,就好麻烦,每次都要先把视频导出到本地,再给微信的文件管理助手,再下载传到印象笔记,一来二去浪费不少时间,想想这事不正好适合爬虫去干吗?于是就有了以下这篇内容
工具环境
语言:Python3.6
编辑器:Pycharm
数据库:MongoDB
工具:Charles
前言:
在使用Charles,你需要做一些基础的配置,将你的手机的网络代理到本地电脑,以便做进一步的抓包分析,以下两篇文章可能对你有所帮助
Charles 从入门到精通
https://www.jianshu.com/p/a3f005628d07
移动应用抓包调试利器Charles
https://www.jianshu.com/p/68684780c1b0
爬取思路
爬取站点:https://www.douyin.com/
这里的爬取思路非常简单,以至于我会觉得这篇文章会有些空洞。当你抓包正确配置好环境后,打开抖音软件,做一些简单的操作,Charles就会给你返回如下的数据,这些数据其实就是服务端给你返回的数据,里面包含所有我们需要的信息。比如我们今天要下载的自己点击过的,喜欢的视频链接等
你操作软件时,看一下Charles中每条数据的变化情况,你会发现,你个人主页下面的链跟videos、feed和likes和这三条数据有关,每一次你做相应的操作,下面就会多出一些请求链接
charles中的请求截取结果
抖音中的我的功能页
那我们别的先不管,看下每个请求中的数据,有没有我们想要的数据,随便看一下某个链接中的返回数据
可以看到这里有play_addr,再一看链接中有video字样,基本八九不离十了。因为我已经验证过了,这里的信息就是如我们猜测的那样,包含视频的全部信息
那我们其实就需要模拟这里的请求链接即可,先看下请求中都包含哪些必要的信息,你多看几个就发现,真正变化的就几个固定的参数,其中红线以上的部分都是和设备相关的信息和app信息,真正核心加密的参数就只有,mas,as和ts。这里我先自己网上找了下有没有相关的轮子可用,索性狗屎运比较好,正好找到了,地址在这:https://github.com/AppSign/douyin
套用即可,而且这位大佬的所有破解,都是和字节跳动有关的,我有点觉得这个就是官方让员工自己放出来的。按尼胃,我们拿到了加密的参数的实现之后,后面就太简单了
看上面那位大佬的代码提取视频那里,跟视频相关的关键参数就是这个aweme_id,我们拿到它之后,后面直接构造提取原视频的请求即可
那么废话不说,上码走起
show me the code
核心请求:
def grab_favorite(self, user_id, max_cursor=0):
favorite_params = self.FAVORITE_PARAMS
favorite_params['user_id'] = user_id
favorite_params['max_cursor'] = max_cursor
query_params = {favorite_params, self.common_params}
sign = getSign(self.gettoken(), query_params)
params = {query_params, sign}
resp = requests.get(self.FAVORITE_URL,
params=params,
verify=False,
headers=self.HEADERS)
favorite_info = resp.json()
hasmore = favorite_info.get('hasmore')
max_cursor = favorite_info.get('max_cursor')
video_infos = favorite_info.get('aweme_list')
for per_video in video_infos:
author_nickname = per_video['author'].get("nickname")
author_uid = per_video['author'].get('uid')
video_desc = per_video.get('desc')
download_item = {
"author_nickname": author_nickname,
"video_desc": video_desc,
"author_uid": author_uid,
}
awemeid = per_video.get("awemeid")
self.download_favorite_video(awemeid, download_item)
time.sleep(5)
return hasmore, max_cursor
这里我们将设备参数,app信息,用户一起用作查询参数,再与获得的token一起,发送给getSign函数,构造加密数据,最后把这些数据组合成的字典放在一起,请求我们的喜欢的链接(https://aweme.snssdk.com/aweme/v1/aweme/favorite/)即可拿到对应的response数据。大家可能会发现,我这里漏掉了一个max_cursor参数,这是因为,第一次发送请求时,这里的参数是0,之后我们请求了数据后,如果返回的has_more是1,就代表有数据,那么下一次我们请求的时候,就需要带上上一次的max_cursor。就可以理解为我们刷数据,往下翻页吧
所以这也就是为什么我在这个地方做了返回,就是为了方便上一层调用,看下这里如果有数据的话,我们就继续翻页下载
翻页:
def grab_favorite_main(self, user_id):
count = 1
self.logger.info("当前正在爬取第