python爬虫工作了一段时间后,技术栈应该怎么发展?大家给点建议,谢谢

0
已邀请:
2

许胜利 - 一个圣骑士成熟的标志是不再向盲人解释阳光。 2018-03-01 回答

爬虫无非三步(这里就不扯皮应对网站反爬要做的一些操作了)
  • 抓取(requests、selenium、scrapy、scrapy+redis)
  • 解析(xpath、BeautifulSoup)
  • 存储(mysql、mongodb、redis)

 
如果你已经把这三步运用的炉火纯青的时候,真正有信心所见即所得的时候,我觉得有你需要考虑的是
  • 如何高效的抓取
  • 如何设计数据结构
  • 如何通过增量采集实现近乎实时更新
  • 如何减少冗余数据的存储

 
如果看到这里你觉得感同身受的话我觉得我们水平应该是差不多了,这个时候我们就需要回头思考我们为什么要爬虫,显而易见是为了获取我们需要的数据,而爬虫最有价值的一环正是通过我们爬取的数据进行数据分析取得的结果。这个时候我们需要做的
  • 对数据进行清理
  • 对数据进行转换、重塑
  • 数据建模、数据可视化呈现

 
这个时候你才会得到全新的属于我们自己处理过的数据。接下来我们就需要去考虑如何进行分析和展示,比较好的手段可以通过机器学习建模、通过Python的第三方库做图做表,呈现结果的方式多种多样。推荐一门天善不错的一门课程人人都爱数据科学家!Python数据科学精华实战课程 
 
认识很多写爬虫的朋友,我觉得我们大多数都停留在了对数据采集这一步忽略了爬虫最有价值的一环,我们应该追求的是从采集的数据中提炼出我们需要的或者是最有价值的那一部分为我所用,爬虫是手段而非目的。
 
好了,巴拉巴拉这么多,还是那句话,如果只会爬虫,天花板很快就可以够得着,重点是把取得的数据利用起来。所以接下来可以考虑向数据分析、数据挖掘、数据科学家方向发展。
0

ID王大伟 - 人生苦短,我选Python,转行之路如漫漫长夜,唯有不断学习充电保证不停机。 2018-02-23 回答

是问的职业技术发展么?  如果你还想深入爬虫  要学分布式  多线程  异步  验证码识别  前端知识 等

要回复问题请先登录注册