Python爬取起点中文网小说排行榜信息(上海线下培训作业)

浏览: 2458

上周末两天的天善智能上海线下培训已经结束啦~

小编带大家从爬虫零基础到进阶飞飞飞

以下是部分课程内容和学员成果展示

1、课程内容

2、课堂实景

大家都在听小编讲课【听的好认真啊】

                             

学员课堂实际操作时间【学一点就要及时动手操作一下】

小编在课上给学员答疑【有问题要及时解决】

助教知己在给学员答疑【小编的好朋友哈】

学员们相互帮助解决问题【好有爱啊啊啊】

最后的合影【有好多小姐姐也来学爬虫技术】

3、学员群答疑和反馈

课前准备工作

课前准备工作

必须让每个学员都学到东西

学员不仅学到技能,还认识了新朋友

课后答疑

学员来交作业啦【好有成就感啊】

4、学员作业风采欣赏

第二天最后留下的作业是爬取起点小说排行榜信息

作业要求如下:

以下是部分学员完成情况:

01

作者:柳东

原文链接:https://ask.hellobi.com/blog/ld634/10455

两天的爬虫线下培训结束了,感谢大伟老师和工作人员们的辛苦付出,以下为本次作业的简述:

一、先处理单页信息的爬取:

image.png

输出结果后发现网页被重定向至其他网页,并非需要爬取的排行榜,于是加入代理及异常机制尝试:

image.png

输出结果正常:

image.png

接着,加入解析器,通过循环,把需要的信息先放入字典,再将全部信息分类汇总入列表:

image.png

image.png

引入pandas,将信息转化为DataFrame:

image.png

输出结果第一页所需信息:

image.png

    image.png

至此,单页爬取完成。

二、爬取前200名的信息:

单页爬取成功,加入循环,实现多页爬取,并输出结果,以下为完整代码:

image.png

以下为完整输出结果:



如有发现问题,欢迎各位老师同学的批评指正。

再次感谢大伟老师,各位天善的工作人员及各位同学!

02

作者:走马兰台

原文链接:https://ask.hellobi.com/blog/ysfyb/10484

周末两天的培训结束了,非常感谢这段时间老师的热情指导,现对起点小说排名信息的爬取已完成,具体思路如下:

第一步:首先选取起点的网站网址:https://www.qidian.com/rank/hotsales,先尝试用代理和cookies进入网址,发现得到的界面源代码都没有问题,然后去掉代理和cookies发现也能爬取信息

使用代理和headers运行程序:


不使用代理运行程序结果:


第二步:查看起点排行榜多个界面,发现只是后面的page=不同,取出所有的源代码信息,发现所有内容都在class=book-mid-info的a标签上,然后用BS4来对整个网页内容的提取,使用find_all和css的select方法都可以得到结果,结果如下:

find_all方法:


select方法:


第三步:在这里使用css的select方法提取数据,然后把数据转变为pandas的DataFrame格式,因为数据都是在同一列,需要对数据进行切片及去掉原有索引,然后用pandas的concat把书名、作者等信息进行合并

数据传入DataFrame结果:


用pandas的concat把作者等信息进行合并运行后的结果:

最后就是保存在csv中,因为格式不同,需要对数据使用gbk格式写入

下图即是所有的代码:

03

作者:Zexuan

原文链接:https://ask.hellobi.com/blog/Kacey/10551

上周末在上海进行了2天的python爬虫培训,感谢天善智能感谢王大伟老师,要开始入坑啦!

上课基本能听懂,但是回来自己码代码就会发现各种问题~~~~(>_<)~~~~

把python的基础知识补了一遍,完成了老师留下的作业。

要求:

https://www.qidian.com/rank/hotsales?page=1

爬取前200名排行榜的作者,书名,分类,更新的信息

建议先爬取一页

要求使用BeautifulSoup爬取

交作业啦!


虽然只是一个简单的交作业,不过完成了还是超有成就感的!!!

未完待续

小编鼓励大家写博客记录自己的学习成果

方便以后用到回顾,还能分享给需要的人

虽然这期的上海站线下爬虫培训结束了

以后还会有的,除了上海还可能去其他城市哦

除了网络爬虫

以后还会开机器学习,数据分析挖掘之类的线下课程哦

敬请期待~

小编的免费Python入门课程已经登场,等你来撩~

已经有1100+小伙伴来学习咯

点击阅读原文,立即学习

Python爱好者社区历史文章大合集

Python爱好者社区历史文章列表(每周append更新一次)

福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复课程即可获取:

0.小编的Python入门视频课程!!!

1.崔老师爬虫实战案例免费学习视频。

2.丘老师数据科学入门指导免费学习视频。

3.陈老师数据分析报告制作免费学习视频。

4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

5.丘老师Python网络爬虫实战免费学习视频。

image.png

推荐 0
本文由 Python爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册