Python爬虫之抖音视频批量提取术

浏览: 4083

作者:  张小鸡  Python爱好者社区专栏作者

知乎ID:https://www.zhihu.com/people/mr.ji

个人公众号:鸡仔说  

假期正好有空闲时间,终于可以整理自己的笔记啦。整理到抖音视频的时候,就好麻烦,每次都要先把视频导出到本地,再给微信的文件管理助手,再下载传到印象笔记,一来二去浪费不少时间,想想这事不正好适合爬虫去干吗?于是就有了以下这篇内容

工具环境

  • 语言:Python3.6

  • 编辑器:Pycharm

  • 数据库:MongoDB

  • 工具:Charles

前言:

在使用Charles,你需要做一些基础的配置,将你的手机的网络代理到本地电脑,以便做进一步的抓包分析,以下两篇文章可能对你有所帮助

Charles 从入门到精通

https://www.jianshu.com/p/a3f005628d07

移动应用抓包调试利器Charles

https://www.jianshu.com/p/68684780c1b0

爬取思路

爬取站点:https://www.douyin.com/

这里的爬取思路非常简单,以至于我会觉得这篇文章会有些空洞。当你抓包正确配置好环境后,打开抖音软件,做一些简单的操作,Charles就会给你返回如下的数据,这些数据其实就是服务端给你返回的数据,里面包含所有我们需要的信息。比如我们今天要下载的自己点击过的,喜欢的视频链接等

你操作软件时,看一下Charles中每条数据的变化情况,你会发现,你个人主页下面的链跟videos、feed和likes和这三条数据有关,每一次你做相应的操作,下面就会多出一些请求链接

charles中的请求截取结果

抖音中的我的功能页

那我们别的先不管,看下每个请求中的数据,有没有我们想要的数据,随便看一下某个链接中的返回数据

可以看到这里有play_addr,再一看链接中有video字样,基本八九不离十了。因为我已经验证过了,这里的信息就是如我们猜测的那样,包含视频的全部信息

那我们其实就需要模拟这里的请求链接即可,先看下请求中都包含哪些必要的信息,你多看几个就发现,真正变化的就几个固定的参数,其中红线以上的部分都是和设备相关的信息和app信息,真正核心加密的参数就只有,mas,as和ts。这里我先自己网上找了下有没有相关的轮子可用,索性狗屎运比较好,正好找到了,地址在这:https://github.com/AppSign/douyin

套用即可,而且这位大佬的所有破解,都是和字节跳动有关的,我有点觉得这个就是官方让员工自己放出来的。按尼胃,我们拿到了加密的参数的实现之后,后面就太简单了

看上面那位大佬的代码提取视频那里,跟视频相关的关键参数就是这个aweme_id,我们拿到它之后,后面直接构造提取原视频的请求即可

那么废话不说,上码走起

show me the code

核心请求:

def grab_favorite(self, user_id, max_cursor=0):
   favorite_params = self.FAVORITE_PARAMS
   favorite_params['user_id'] = user_id
   favorite_params['max_cursor'] = max_cursor
   query_params = {favorite_params, self.common_params}
   sign = getSign(self.gettoken(), query_params)
   params = {query_params, sign}
   resp = requests.get(self.FAVORITE_URL,
                       params=params,
                       verify=False,
                       headers=self.HEADERS)

   favorite_info = resp.json()

   hasmore = favorite_info.get('hasmore')
   max_cursor = favorite_info.get('max_cursor')

   video_infos = favorite_info.get('aweme_list')

   for per_video in video_infos:
       author_nickname = per_video['author'].get("nickname")
       author_uid = per_video['author'].get('uid')
       video_desc = per_video.get('desc')
       download_item = {
           "author_nickname": author_nickname,
           "video_desc": video_desc,
           "author_uid": author_uid,
       }
       awemeid = per_video.get("awemeid")
       self.download_favorite_video(awemeid, download_item)
       time.sleep(5)

   return hasmore, max_cursor

这里我们将设备参数,app信息,用户一起用作查询参数,再与获得的token一起,发送给getSign函数,构造加密数据,最后把这些数据组合成的字典放在一起,请求我们的喜欢的链接(https://aweme.snssdk.com/aweme/v1/aweme/favorite/)即可拿到对应的response数据。大家可能会发现,我这里漏掉了一个max_cursor参数,这是因为,第一次发送请求时,这里的参数是0,之后我们请求了数据后,如果返回的has_more是1,就代表有数据,那么下一次我们请求的时候,就需要带上上一次的max_cursor。就可以理解为我们刷数据,往下翻页吧

所以这也就是为什么我在这个地方做了返回,就是为了方便上一层调用,看下这里如果有数据的话,我们就继续翻页下载

翻页:

   def grab_favorite_main(self, user_id):
       count = 1
       self.logger.info("当前正在爬取第

推荐 0
本文由 Python爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册