引用原博文链接:https://ask.hellobi.com/blog/lsxxx2011/5792
在根据 @每天进步一点点2015 指导如何在链家网上爬取数据源的基础上,一模一样的码了一遍,中文上偷工减料,代码想偷懒也偷不动...
在完成模仿的过程中,还是有很多问题需要注意的,下面就是几个需要关注小亮点:
1、字符串大小写问题
如:,
当字母小写时,系统识别会报错,这个就是我偷懒的节奏...经过多次新手试验,要遵循源代码格式:...这样就不会报错了。
2、findall和find_all问题
findall和find_all不是同一个性质,findall是一个功能模块,当偷懒敲成findall时,,
又报错了...正确是格式是:,还是得用原格式敲代码...而find_all只是一个代码,我理解上是这样的,说错的话,帮我纠正一下吧。
3、文本输出问题
过程会输出CSV格式的文件,但仔细观察会发现,有一句print被隐去,可能是做为过程测试意图吧,等打开文件之后会发现,老大一串乱码,经过其他大神观察(写入CSV乱码,但print正常),一定是编码格式出了问题。
那接下来的操作就是将输出的CSV文件用记事本的方式打开,就瞬间正常了,然后选择另存为,如果选择ASNI格式,会出现
所以俺就选了unicode格式,就没有问题了,随后用逗号分列一下就干净很多了。
以上都是自学的内容哈
Ps. 但是祥哥哥的数据源title被我搞没了,不知道什么情况,有谁知道我哪里错了么,求指导,求说明...