邓旭东HIT - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

3

推荐

2146

阅读

大邓送上的一大波福利来了~~~~

今天上传一份python编程学习方面的书单及资源。资源包括python入门、爬虫编写、数据分析、再到编程思想。1、入门python1、深入浅出学python强烈推荐入门看，入门的话看前半部分即可（本文中链接是英文书，如果看着不方便可去网上买本）2、像计算机科学家一样思考python3、可爱的python（中文版）4、编程小白的第一本Pyth...

发表了文章 • 2017-03-21 11:22 • 1 条评论

7

推荐

2868

阅读

【含视频教程】用python批量抓取简书用户信息

前几天在看崔庆才老师的教程，用Scrapy抓知乎用户信息，里面用到了递归。之前我写的爬虫都是将已知的固定数据的网址存到list中，然后遍历list中的网址。这次针对简书，我们使用递归来试一下。什么是递归程序（或函数）调用自身的编程技巧称为递归（ recursion）。一个过程或函数在其定义或说明中有直接或间接调用自身的...

发表了文章 • 2017-03-19 01:08 • 2 条评论

1

推荐

1619

阅读

识别假货有绝招，先用python抓淘宝评论（附视频教程）

之前我水平有限，对于淘宝评论这种动态网页，由于数据在网页源码中是找不到的，所以无法抓取数据，只能使用selenium模仿人操控浏览器来抓数据，优点是可见容易且不宜被淘宝公司封锁；缺点是速度太慢。经过今天一天的钻研，终于学会分析数据包，而且淘宝评论的数据包都是以json格式传输的。除了学会抓包，还要会从json中...

发表了文章 • 2017-03-17 16:28 • 2 条评论

0

推荐

1384

阅读

爬豆瓣电影名的小案例2（附视频操作）

上一篇只是对一个网页进行的数=数据提取，还不算完整的的爬虫。我的理解是，一个初级的爬虫脚本应该包括三部分：网址处理器，用来提供抓取网址对象网页解析器，用来提取网页中稀疏分散着的目标数据数据存储器，用来保存提取的数据。上一节的小例子，只涉及到第二部分，第一部分不完整，第三部分没涉及。网址处理器做爬虫...

发表了文章 • 2017-03-16 05:23 • 0 条评论

7

推荐

1785

阅读

爬豆瓣电影名的小案例（附视频操作）

之前的文章一直都是代码，文字讲解很少。从今天开始，我想每天讲解一个爬虫的小案例，可能是爬豆瓣，可能是爬知乎，也可能去爬淘宝评论，不一而足。只要有趣有用就好。豆瓣是我很喜欢的平台，一般大家都会去豆瓣看影评，书评，根据评论决定自己是否观看电影或者入手书籍。所以有很多经济管理类的学生有这方面的数据采集...

发表了文章 • 2017-03-15 14:14 • 10 条评论

0

推荐

1369

阅读

【原文链接（英文）】How to install Scrapy 3.1.1rc3 for Python3 on Windows and use it in Pycharm不能再windows平台上为python3安装Scrapy库真的真的很蛋疼。这是是我发现的能在python3中运行scarpy的方法。安装方法如下：一、首先我推荐你先安装Conda，这是一个包管理器，当然也可以创建虚拟环境（总而言之，Conda=...

发表了文章 • 2017-03-15 13:28 • 0 条评论

0

推荐

1926

阅读

Python3写的一个抓取法大BBS论坛的爬虫

之前写了一个抓取BBS论坛所有帖子标题名的爬虫，不过该论坛已经把我封了，还是自己太年轻经验少，没有设置sleep time# -*- coding=utf-8 -*- from bs4 import BeautifulSoup import urllib.request import urllib import re #获取板块的链接 def get_Bankuan_link(url): link_list = [] #用来收集板块的链接 ...

发表了文章 • 2017-03-15 13:17 • 0 条评论

0

推荐

1319

阅读

python3爬取数据保存为csv问题

爬取Comparison of text editors网页中第一个table，代码如下。可是打开保存文件，发现csv如图所示与自己设想的第一行是抬头名，记录信息是一行一行的。不一样啊...

发表了文章 • 2017-03-15 13:13 • 0 条评论

1

推荐

1372

阅读

用python统计水吧帖子的词频

中文分词效果好用又简单的包，我认为就是jieba了。主要功能是分词，其余功能请看jieba文档jieba.cut方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引...

发表了文章 • 2017-03-15 13:10 • 0 条评论

0

推荐

1456

阅读

python3.5生成自己的词性词典

由于朋友需要做文本分析，前提是要将文本中的名词和动词剔除掉，但没有现成的名词和动词的txt格式的词典。于是找来了一个英汉词典，根据每一行出现的adj、adv、n、prep等，使用正则表达式匹配需要的词性，并将其追加写入到txt文件中。建议大家使用python3.5，3的优点是避免了很多编码问题。3代表着python的未来，大家还...

发表了文章 • 2017-03-15 13:04 • 0 条评论

0

推荐

1445

阅读

使用selenium简单收集知乎的话题数据

当你在知乎上搜索“王宝强”时候，搜索结果页面的底部有个“更多”按钮，如下图遇到这个坑爹了，因为你发现点击“更多”按钮后，网址部分没有变化，但页面却加载了新的数据。怎么办？？？？没法按照之前的有规律的网址&page=number ，通过for循环依次遍历网页。在这里我不讲抓包，分析请求包。咱们就用生硬的方法，破解这...

发表了文章 • 2017-03-15 12:56 • 0 条评论

1

推荐

1363

阅读

如何计算两个文档的相似度（二）

【转自我爱自然语言】如何计算两个文档的相似度（二） | 我爱自然语言处理上一节我们介绍了一些背景知识以及gensim , 相信很多同学已经尝试过了。这一节将从gensim最基本的安装讲起，然后举一个非常简单的例子用以说明如何使用gensim，下一节再介绍其在课程图谱上的应用。二、gensim的安装和使用1、安装gensim依赖N...

发表了文章 • 2017-03-15 12:46 • 0 条评论

1

推荐

1605

阅读

用python计算两个文档的相似度（一）

[转自我爱自然语言]如何计算两个文档的相似度（一） | 我爱自然语言处理一、相关的知识点及参考资料这篇文章不会写很长，但是涉及的知识点蛮多，所以首先会在这里介绍相关的知识点，了解的同学可以一笑而过，不了解的同学最好能做一些预习，这对于你了解topic model以及gensim更有好处。如果以后时间允许，我可能会基于...

发表了文章 • 2017-03-15 12:42 • 0 条评论

2

推荐

3514

阅读

用python抓取淘宝某产品评论（附视频教程）

之前我水平有限，对于淘宝评论这种动态网页，由于数据在网页源码中是找不到的，所以无法抓取数据，只能使用selenium模仿人操控浏览器来抓数据，优点是可见容易且不宜被淘宝公司封锁；缺点是速度太慢。经过今天一天的钻研，终于学会分析数据包，而且淘宝评论的数据包都是以json格式传输的。除了学会抓包，还要会从json中...

发表了文章 • 2017-03-15 12:38 • 1 条评论

0

推荐

1446

阅读

学习永远不晚，只需做到更好

今天早上看到的这幅图，很有感慨，我是25岁开始学的编程，比一般的计算机专业18岁就开始，一开始学编程时候，也经常纠结“**岁开始学编程，会不会很晚？”。所以我也可以以自己的例子向大家传递“学习永远不迟，只需做得更好”精神，特将本人学习python的历程经验分享与大家听。我是09年读的本科，考了三次研究生，15年才...

发表了文章 • 2017-03-15 12:31 • 1 条评论