(干货)数据分析案例--以上海二手房为例 —— 自学补充

浏览: 1169

引用原博文链接:https://ask.hellobi.com/blog/lsxxx2011/5792


在根据 @每天进步一点点2015 指导如何在链家网上爬取数据源的基础上,一模一样的码了一遍,中文上偷工减料,代码想偷懒也偷不动...


在完成模仿的过程中,还是有很多问题需要注意的,下面就是几个需要关注小亮点:

1、字符串大小写问题

如:Clipboard Image.png

当字母小写时,系统识别会报错,这个就是我偷懒的节奏...经过多次新手试验,要遵循源代码格式:Clipboard Image.png...这样就不会报错了。


2、findall和find_all问题

findall和find_all不是同一个性质,findall是一个功能模块,当偷懒敲成findall时,Clipboard Image.png

又报错了...正确是格式是:Clipboard Image.png,还是得用原格式敲代码...而find_all只是一个代码,我理解上是这样的,说错的话,帮我纠正一下吧。


3、文本输出问题

过程会输出CSV格式的文件,但仔细观察会发现,有一句print被隐去,可能是做为过程测试意图吧,等打开文件之后会发现,老大一串乱码,经过其他大神观察(写入CSV乱码,但print正常),一定是编码格式出了问题。

那接下来的操作就是将输出的CSV文件用记事本的方式打开,就瞬间正常了,然后选择另存为,如果选择ASNI格式,会出现Clipboard Image.png


所以俺就选了unicode格式,就没有问题了,随后用逗号分列一下就干净很多了。

以上都是自学的内容哈


Ps. 但是祥哥哥的数据源title被我搞没了,不知道什么情况,有谁知道我哪里错了么,求指导,求说明...

推荐 2
本文由 数据小学生 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册