州的先生的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

1

推荐

6422

阅读

Python爬虫入门实战八：数据储存——MongoDB与MySQL

前面的文章里写的爬虫都是直接把爬取的数据打印出来。在实际的应用中，当然不能这么做，我们需要将数据存储起来。存储数据的方式有很多中，比如存储在文本文件中，或者是存储在数据库中。为了使用数据的便捷性，我们选择将数据存储在数据库中。数据库主流的两种类型为：SQL（关系型数据库）和NoSQL（非关系型数据库）我...

发表了文章 • 2017-05-09 11:33 • 0 条评论

2

推荐

2031

阅读

【我爱背单词】用Python提炼3000英语新闻高频词汇

学英语，无论目的何在，词汇量总是一个绕不过去的坎，没有足够的词汇量，都难以用文法来组词造句。前段时间，恶魔的奶爸提供了几份偏向于各个领域的高频词汇，很是不错。最近用Python写爬虫入门教程的时候，碰到过几个英文网站，便有了统计一份网站英文单词词频的念头。3000高频单词库说明：来源：www.chinadaily.com.cn...

发表了文章 • 2017-05-04 17:21 • 1 条评论

2

推荐

1653

阅读

Python爬虫入门实战七：使用Selenium--以抓取QQ空间好友说说为例

Selenium抓取QQ空间好友说说前面我们接触到的，都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析，若是JS生成的内容，也介绍了通过寻找API借口来获取数据。但是有的时候，网页数据由JS生成，API借口又死活找不着或者是API借口地址随机变换，时间不等人。那就只能使用Selenium了。一、Selenium简介Seleni...

发表了文章 • 2017-05-04 16:27 • 0 条评论

2

推荐

1668

阅读

Python爬虫实战入门六：提高爬虫效率—并发爬取智联招聘

提高爬虫效率—多进程并发之前文章中所介绍的爬虫都是对单个URL进行解析和爬取，url数量少不费时，但是如果我们需要爬取的网页url有成千上万或者更多，那怎么办？使用for循环对所有的url进行遍历访问？嗯，想法很好，但是如果url过多，爬取完所有的数据会不会太过于耗时了？对此我们可以使用并发来对URL进行访问以爬取数...

发表了文章 • 2017-05-04 15:59 • 1 条评论

0

推荐

2120

阅读

Python爬虫实战入门五：获取JS动态内容—爬取今日头条

获取JS动态内容—爬取今日头条之前我们爬取的网页，多是HTML静态生成的内容，直接从HTML源码中就能找到看到的数据和内容，然而并不是所有的网页都是这样的。有一些网站的内容由前端的JS动态生成，由于呈现在网页上的内容是由JS生成而来，我们能够在浏览器上看得到，但是在HTML源码中却发现不了。比如今日头条：浏览器呈现...

发表了文章 • 2017-05-04 15:45 • 0 条评论

2

推荐

1623

阅读

Python爬虫实战入门四：使用Cookie模拟登录——获取电子书下载链接

在实际情况中，很多网站的内容都是需要登录之后才能看到，如此我们就需要进行模拟登录，使用登录后的状态进行爬取。这里就需要使用到Cookie。现在大多数的网站都是使用Cookie跟踪用户的登录状态，一旦网站验证了登录信息，就会将登录信息保存在浏览器的cookie中。网站会把这个cookie作为验证的凭据，在浏览网站的页面是...

发表了文章 • 2017-04-26 17:03 • 0 条评论

0

推荐

1961

阅读

Python爬虫实战入门三：简单的HTML解析—爬取腾讯新闻

上一章咱们使用Python实现了一个简单的HTTP请求，瞧着简单，爬虫就是模拟人打开一个个URL浏览一个个网页来爬取数据的，一个成功的HTTP请求，就是一个爬虫的基础。接下来，咱们以一个实际的例子：爬取百度新闻，来介绍使用BeautifulSoup对HTML进行解析处理。1、寻找数据特征腾讯新闻的网址URL为：http://new...

发表了文章 • 2017-04-26 17:00 • 0 条评论

0

推荐

1667

阅读

Python爬虫实战入门二：从一个简单的HTTP请求开始

无论我们通过浏览器打开网站、访问网页，还是通过脚本对URL网址进行访问，本质上都是对HTTP服务器的请求，浏览器上所呈现的、控制台所显示的都是HTTP服务器对我们请求的响应。以打开我的个人网站为例，我们在地址栏输入“zmister.com”，浏览器上呈现的是下图：我们按F12打开网页调试工具，选择“network”选项卡，可以看到...

发表了文章 • 2017-04-26 16:57 • 0 条评论

0

推荐

1634

阅读

一、基础知识使用Python编写爬虫，当然至少得了解Python基本的语法，了解：基本数据结构数据类型控制流函数的使用模块的使用不需要过多过深的Python知识，仅此而已。个人推荐《Python简明教程》http://www.kuqin.com/abyteofpython_cn/、Python官方的《Python教程》http://python.usyiyi.cn/translate/python_352/tutori...

发表了文章 • 2017-04-26 16:51 • 0 条评论

0

推荐

1522

阅读

Matplotlib实践系列：折线图完全示例

matplotlib是Python下最常用的数据可视化绘图库，功能强大，绘图精美，虽然也有基于matplotlib的seabron库，极大得简化的绘图的流程，但个人还是更加偏向于在静态数据可视化方面使用matplotlib来进行绘图工作。下面，我们从matplotlib的绘图实践出发，了解如何使用matplotlib绘制可观的图形。此文简陋，权作引路，更丰...

发表了文章 • 2017-04-26 16:43 • 0 条评论

0

推荐

1394

阅读

在Pandas中直接加载MongoDb的数据

在使用Pandas进行数据处理的时候，我们通常从CSV或EXCEL中导入数据，但有的时候数据都存在数据库内，我们并没有现成的数据文件，这时候可以通过Pymongo这个库，从mongoDB中读取数据，然后载入到Pandas中，只需要简单的三步。第一步，导入相关的模块：import pymongo import pandas as pd第二步，设置MongoDB连接信息：# ...

发表了文章 • 2017-04-07 10:56 • 0 条评论

5

推荐

1473

阅读

Python爬虫：100万以大学专业为关键词的职位信息爬取

一、系统环境：Windows 7+Python3.4+MongoDB二、爬取过程：（1）获取大学本科所有专业名称# 获取大学本科专业名称 def get_name(): url = 'http://yx.liexue.cn/zy/' wbdata = requests.get(url,headers=header).content soup = BeautifulSoup...

发表了文章 • 2017-04-07 10:54 • 0 条评论

0

推荐

1899

阅读

爬取了20万淘宝店铺信息，我能干些什么？

下午，写了个简单的多进程爬虫，按照热门类目，爬取了淘宝C点的20多万条店铺信息。获取了店铺名、卖家昵称、店铺ID、店铺区域、店铺商品数量、店铺销量、店铺好评率、店铺等级等等信息。主要思路为：一、从淘宝店铺搜索页面获取热门的类目信息；def get_taobao_cate(): url = 'https://shopsear...

发表了文章 • 2017-04-06 10:35 • 0 条评论

1

推荐

1433

阅读

一个简单的多进程爬虫（爬取某加盟创业网）

分享一个简单的多进程小爬虫，爬取某加盟创业网上所有加盟项目；使用requests请求页面，re和beautifulSoup解析网页，multiprocessing进行多进程，pymongo数据入库；（打开网站时发现密密麻麻、琳琅满目的加盟项目，但是爬完之后，发现数据也就只有那么一点点，甚至不到一千条数据，这就有点囧了）# coding:utf-8 ...

发表了文章 • 2017-04-06 10:24 • 2 条评论

2

推荐

1653

阅读

运用汽车数据进行Python可视化分析

数据来源：vehicles.csv是一份来自于www.fuelconomy.gov的，数据，它包含了美国各个汽车制造商各个型号汽车不同时间点的油耗表现参数和各个汽车型号丰富的其他特性和属性，为我们整理和分组分析数据以发现有趣的趋势和关系提供了机会分析过程：描述汽车油耗数据： # 导入相关的库 import numpy as np import pandas as p...

发表了文章 • 2017-04-06 10:18 • 1 条评论