Python综合文章分类州的先生的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

2483

阅读

Python快速搭建会学习的微信聊天机器人

最近微软小冰和QQ小冰又火了一把，对于聊天机器人大家好像都是很有兴趣。今天就分享一个前些天做的一个小Demo，快速搭建的微信聊天机器人。依赖于两个开源项目：ChatterBot ：一个基于机器学习的聊天机器人ItChat ：微信号接口原理：1、利用ItChat对微信号进行登录和消息接收、发送操作；2、将接收到的消息使...

发表了文章 • 2017-05-22 15:13 • 0 条评论

1

推荐

2667

阅读

爬取百度音乐5000热门歌单10万音乐数据

平时喜欢用百度音乐随便找个歌单听听歌，一来搜索打开方便，二来歌曲曲目也全。今天在找歌单的时候，突然想看看热门歌单里都有哪里歌曲，于是便有了这个小程序。首先，需要获取各个歌单的地址，我们从百度音乐的歌单首页入手：图中红框的为歌单的当前的数目，页面每一页有20个歌单，也就是有20个URL，我们把它提取出来：...

发表了文章 • 2017-05-12 14:46 • 0 条评论

0

推荐

1675

阅读

如何提高爬虫效率？Python下简单的进程、线程效率对比

在爬取海量的网络数据时，一方面我们需要确保爬虫不被网站服务器封掉，一方面也要提高爬虫的采集效率。避免爬虫不被封掉，一般我们通过大量的代理IP构成代理池，通过代理来访问采集的网站，而对于如何提高爬虫的采集效率，就有很多种方法，比如：使用多进程、多线程、分布式、协程等等。个人在实际的爬虫使用中，出于个...

发表了文章 • 2017-05-12 14:33 • 0 条评论

0

推荐

1990

阅读

10行Python搞定微信公众号邮箱检测

微信公众号的注册需要使用邮箱，而一个邮箱又只能注册一个微信公众号。有时候注册管理的公众号多了，新注册公众号时，就不记得自己的哪些邮箱已经注册了，哪些没注册。微信公众号的注册页面本身是提供了邮箱的检测的。我们使用它的接口，用Python来调用，10行代码就能够搞定：# coding:utf-8 # 检查微信公众号注册邮箱 ...

发表了文章 • 2017-05-12 14:28 • 0 条评论

1

推荐

6421

阅读

Python爬虫入门实战八：数据储存——MongoDB与MySQL

前面的文章里写的爬虫都是直接把爬取的数据打印出来。在实际的应用中，当然不能这么做，我们需要将数据存储起来。存储数据的方式有很多中，比如存储在文本文件中，或者是存储在数据库中。为了使用数据的便捷性，我们选择将数据存储在数据库中。数据库主流的两种类型为：SQL（关系型数据库）和NoSQL（非关系型数据库）我...

发表了文章 • 2017-05-09 11:33 • 0 条评论

2

推荐

2030

阅读

【我爱背单词】用Python提炼3000英语新闻高频词汇

学英语，无论目的何在，词汇量总是一个绕不过去的坎，没有足够的词汇量，都难以用文法来组词造句。前段时间，恶魔的奶爸提供了几份偏向于各个领域的高频词汇，很是不错。最近用Python写爬虫入门教程的时候，碰到过几个英文网站，便有了统计一份网站英文单词词频的念头。3000高频单词库说明：来源：www.chinadaily.com.cn...

发表了文章 • 2017-05-04 17:21 • 1 条评论

2

推荐

1652

阅读

Python爬虫入门实战七：使用Selenium--以抓取QQ空间好友说说为例

Selenium抓取QQ空间好友说说前面我们接触到的，都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析，若是JS生成的内容，也介绍了通过寻找API借口来获取数据。但是有的时候，网页数据由JS生成，API借口又死活找不着或者是API借口地址随机变换，时间不等人。那就只能使用Selenium了。一、Selenium简介Seleni...

发表了文章 • 2017-05-04 16:27 • 0 条评论

2

推荐

1668

阅读

Python爬虫实战入门六：提高爬虫效率—并发爬取智联招聘

提高爬虫效率—多进程并发之前文章中所介绍的爬虫都是对单个URL进行解析和爬取，url数量少不费时，但是如果我们需要爬取的网页url有成千上万或者更多，那怎么办？使用for循环对所有的url进行遍历访问？嗯，想法很好，但是如果url过多，爬取完所有的数据会不会太过于耗时了？对此我们可以使用并发来对URL进行访问以爬取数...

发表了文章 • 2017-05-04 15:59 • 1 条评论

0

推荐

2120

阅读

Python爬虫实战入门五：获取JS动态内容—爬取今日头条

获取JS动态内容—爬取今日头条之前我们爬取的网页，多是HTML静态生成的内容，直接从HTML源码中就能找到看到的数据和内容，然而并不是所有的网页都是这样的。有一些网站的内容由前端的JS动态生成，由于呈现在网页上的内容是由JS生成而来，我们能够在浏览器上看得到，但是在HTML源码中却发现不了。比如今日头条：浏览器呈现...

发表了文章 • 2017-05-04 15:45 • 0 条评论

2

推荐

1622

阅读

Python爬虫实战入门四：使用Cookie模拟登录——获取电子书下载链接

在实际情况中，很多网站的内容都是需要登录之后才能看到，如此我们就需要进行模拟登录，使用登录后的状态进行爬取。这里就需要使用到Cookie。现在大多数的网站都是使用Cookie跟踪用户的登录状态，一旦网站验证了登录信息，就会将登录信息保存在浏览器的cookie中。网站会把这个cookie作为验证的凭据，在浏览网站的页面是...

发表了文章 • 2017-04-26 17:03 • 0 条评论

0

推荐

1960

阅读

Python爬虫实战入门三：简单的HTML解析—爬取腾讯新闻

上一章咱们使用Python实现了一个简单的HTTP请求，瞧着简单，爬虫就是模拟人打开一个个URL浏览一个个网页来爬取数据的，一个成功的HTTP请求，就是一个爬虫的基础。接下来，咱们以一个实际的例子：爬取百度新闻，来介绍使用BeautifulSoup对HTML进行解析处理。1、寻找数据特征腾讯新闻的网址URL为：http://new...

发表了文章 • 2017-04-26 17:00 • 0 条评论

0

推荐

1667

阅读

Python爬虫实战入门二：从一个简单的HTTP请求开始

无论我们通过浏览器打开网站、访问网页，还是通过脚本对URL网址进行访问，本质上都是对HTTP服务器的请求，浏览器上所呈现的、控制台所显示的都是HTTP服务器对我们请求的响应。以打开我的个人网站为例，我们在地址栏输入“zmister.com”，浏览器上呈现的是下图：我们按F12打开网页调试工具，选择“network”选项卡，可以看到...

发表了文章 • 2017-04-26 16:57 • 0 条评论

0

推荐

1634

阅读

一、基础知识使用Python编写爬虫，当然至少得了解Python基本的语法，了解：基本数据结构数据类型控制流函数的使用模块的使用不需要过多过深的Python知识，仅此而已。个人推荐《Python简明教程》http://www.kuqin.com/abyteofpython_cn/、Python官方的《Python教程》http://python.usyiyi.cn/translate/python_352/tutori...

发表了文章 • 2017-04-26 16:51 • 0 条评论

0

推荐

1522

阅读

Matplotlib实践系列：折线图完全示例

matplotlib是Python下最常用的数据可视化绘图库，功能强大，绘图精美，虽然也有基于matplotlib的seabron库，极大得简化的绘图的流程，但个人还是更加偏向于在静态数据可视化方面使用matplotlib来进行绘图工作。下面，我们从matplotlib的绘图实践出发，了解如何使用matplotlib绘制可观的图形。此文简陋，权作引路，更丰...

发表了文章 • 2017-04-26 16:43 • 0 条评论

2

推荐

1653

阅读

运用汽车数据进行Python可视化分析

数据来源：vehicles.csv是一份来自于www.fuelconomy.gov的，数据，它包含了美国各个汽车制造商各个型号汽车不同时间点的油耗表现参数和各个汽车型号丰富的其他特性和属性，为我们整理和分组分析数据以发现有趣的趋势和关系提供了机会分析过程：描述汽车油耗数据： # 导入相关的库 import numpy as np import pandas as p...

发表了文章 • 2017-04-06 10:18 • 1 条评论