数据之航

记录本人在数据科学远航路上的一些思考和积淀。包括数据挖掘、统计学、Python、R、可视化等。期待在天善社区与大家一起成长。

0
推荐
1964
阅读

用Python处理PDF_读写批量合并等

PDF作为可移植文档格式(Portable Document Format),在日常生活中经常接触到,最近处理一些数据更是频繁接触一些需要批量处理pdf文件的需求,因此便想整理一下自己实践的用Python处理PDF格式数据的笔记。本文会保持更新。PDF处理的高频需求有:读取、写入、格式转换(pdf提取文本写入txt、根据url写入pdf等)、批处理(...

发表了文章 • 2019-04-03 00:52 • 0 条评论

0
推荐
2551
阅读

淘宝商品评论的爬虫实战

之前的一篇文章实践了微博这类短文本可以进行的分析,没有讲数据的来源。因此我打算记录一些爬虫方面的实践,毕竟爬虫是我很需要深入的部分,欢迎大家指教。这里讨论一下淘宝商品的评论的爬取。用的工具还是利器Python。Python爬取简单页面还是比较套路的,要么直接爬取HTML页面,要么爬取对应的json页面,当然这里不考...

发表了文章 • 2018-06-09 16:51 • 0 条评论

1
推荐
1765
阅读

微博热点关注度对比与可视化

最近一个项目用到一个上百万行的微博数据,包括微博文本数据和地理坐标数据,从数据库中把这些数据取出来后做了一些分析,这里选了其中比较有趣的部分记录一下,当做积淀。因为数据是2013年的(现在2018年去挖2013的数据确实有些“落后”了,但它比较全而且现在微博爬数据越来越困难了),首先要确定2013年有哪些微博热点...

发表了文章 • 2018-06-08 00:35 • 0 条评论