python爬虫如何自动爬取下一页的数据,网页网址是动态的不是规律变化的

0
我开始用的最简单的正则加解析 ,但是58同城的下一页是变化的   贴一下网址
第二页  http://bj.58.com/ershoufang/pn2/?key=%E6%96%B0%E6%88%BF&cmcskey=%E6%96%B0%E6%88%BF&final=1&jump=1&specialtype=gls&PGTID=0d300000-0000-0780-0443-7b618e45d6cd&ClickID=1
第三页  http://bj.58.com/ershoufang/pn3/?key=%E6%96%B0%E6%88%BF&cmcskey=%E6%96%B0%E6%88%BF&final=1&jump=1&specialtype=gls&PGTID=0d300000-0000-032b-370d-6c6c4735b8e4&ClickID=1
 
 
 
032b-370d-6c6c4735b8e4这一部分我不知道是什么意思,所以无法成功的去循环爬取
后来用selenium跟着教程学习 ,点击下一页的时候无法自动跳转,请求各位大牛   无论哪一种方法都可以
已邀请:
0

一只写程序的猿 - 一个圣骑士成熟的标志是不再向盲人解释阳光。公众号:Python攻城狮 2018-01-18 回答

有些url中一些数是开发人员迷惑别人的 其实没用 这里get方式传递过去的参数主要是页码 条件 如果你要采集北京二手房新房信息的话 后边那一串是没用的 你可以看下边两个链接 少了后边一长串返回的数据还是北京二手房新房信息
http://bj.58.com/ershoufang/pn2/?key=新房undefinedcmcskey=新房undefinedfinal=1undefinedjump=1undefinedspecialtype=glsundefined
http://bj.58.com/ershoufang/pn2/?key=%E6%96%B0%E6%88%BFundefinedcmcskey=%E6%96%B0%E6%88%BFundefinedfinal=1undefinedjump=1undefinedspecialtype=glsundefinedPGTID=0d300000-0000-0780-0443-7b618e45d6cdundefinedClickID=1

要回复问题请先登录注册