崔斯特的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

1953

阅读

什么是大数据？

大数据 Big Data 据说，词源出自Alvin Toffler，上世纪70年代的作品《第三次浪潮》。逝者 | 阿尔文·托夫勒：如何化解未来的冲击虽然大数据是一个泛泛的概念词，但是关于大数据，关于大数据处理分析的话题近来持续升温，现在基本成了新一轮工业革命级别的话题。大...

发表了文章 • 2017-09-06 15:00 • 1 条评论

0

推荐

3397

阅读

GitHub上超9Kstars的Python爬虫项目——pyspider（国人编写）

A Powerful Spider(Web Crawler) System in Pythonbinux/pyspider简介PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。特性python 脚本控制，可以用任何你喜欢的html解析包（内...

发表了文章 • 2017-07-05 22:35 • 0 条评论

0

推荐

1513

阅读

爬虫三步走（二）解析源码

更优阅读体验爬虫三步走（二）解析源码=====================================================================上一期爬虫三步走（一）获取源码讲了如何获取网页源码的方法，这一期说一说怎么从其中获得我们需要的和数据。解析网页的方法很多，最常见的就是BeautifulSoup和正则了，其他的像xpath、PyQuery等等，...

发表了文章 • 2017-05-26 20:24 • 0 条评论

3

推荐

1972

阅读

举个例子，爬一爬知乎日报的相关数据 http://daily.zhihu.com/1、获取源码import requests url = 'http://daily.zhihu.com/' res = requests.get(url).text print(res)个人喜欢requests，直接访问，发现返回500错误C:\Python35\python.exe F:/PyCharm/爬虫/daily.py <html><body><h1>500 ...

发表了文章 • 2017-05-25 13:23 • 1 条评论

2

推荐

7448

阅读

爬虫杂谈（四）抓取微信公众号文章的轮子

介绍一些可以用来爬取微信公众号的轮子1、基于搜狗微信搜索的微信公众号爬虫接口地址：Chyroc/WechatSogou安装pip install wechatsogou 引用from wechatsogou import * wechats = WechatSogouApi() 搜索公众号 - search_gzh_infofrom wechatsogou import * wechats = WechatSogouApi() name = 'Python' wechat = wechat...

发表了文章 • 2017-05-15 10:45 • 0 条评论

1

推荐

2277

阅读

爬虫杂谈（一）使用Selenium进行网页抓取

萌新要学习Selenium了，安装是个坑。还要下载相关配件，可以参考python 安装selenium环境。1、使用Firefox实例from selenium import webdriver import time firefox = webdriver.Firefox() #初始化Firefox浏览器 url = 'https://www.zhihu.com' firefox.get(url) #调用get方法抓取 time.sleep(10) #10s用于观察 with ...

发表了文章 • 2017-04-27 16:57 • 0 条评论

0

推荐

2216

阅读

转丨一键生成你的微信好友头像

看到好东西，忍不住分享一下原文地址：itchat+pillow实现微信好友头像爬取和拼接 - 知乎专栏只需要下载“wxImage.py”。。Python运行即可python wxImage.py 作者的requirements.txt有很多包。我自己安装过程中失败了，我只安装如下几个itchat、pillow、numpy 然后就生成图片了。快去朋友圈炫耀去吧！“找找你在哪！”别忘...

发表了文章 • 2017-04-26 11:45 • 0 条评论

0

推荐

2310

阅读

PY交易（一）使用Pygame

也可以来我的博客看哦崔斯特的博客专栏1、使用Pygameimport pygame #导入Pygame from pygame import * #导入Pygame中的所有常量 pygame.init() #初始化Pygame screen = pygame.display.set_mode((600,500)) #创建窗口 myfont = pygame.font.Font(None,60) #创建字体对象 white = 255,255,255 blue = 0,0,255 textImage...

发表了文章 • 2017-04-25 17:27 • 3 条评论

2

推荐

1744

阅读

为了找一份Python实习，我用爬虫收集数据

记录下爬取招聘网站上Python实习信息，为了找实习做好准备。======================================================================环境准备：Python3.5 PyCharmfake_useragent实习僧还是挺不错的网站，打开http://www.shixiseng.com/interns?k=Python 打算把职位名称、地点、公司、薪水和职位的URL爬取并保存下来对...

发表了文章 • 2017-04-17 17:28 • 1 条评论

0

推荐

1435

阅读

基于bs4库的HTML内容查找方法

目标网址This is a python demo page主要使用BeautifulSoup的findall_all方法>>> import requests >>> r = requests.get('http://python123.io/ws/demo.html') >>> demo = r.text >>> demo '<html><head><title>This is a python demo page</title></he...

发表了文章 • 2017-04-10 14:38 • 0 条评论

1

推荐

1814

阅读

编程无聊怎么办，边玩游戏边学习

学习编程是漫长的过程，有时候没有动力再继续学习，这个时候，玩玩游戏，岂不是美滋滋？1、CodinGame code game支持多种语言，平台的目标用户是和我一样的具备一定编程基础的人，建议大家可以尝试下。当然同时也为资深程序员提供了相应级别的进阶练习。有兴趣的朋友，可以去平台注册体验一番。2、Code Combat ...

发表了文章 • 2017-04-06 16:31 • 0 条评论

1

推荐

1591

阅读

Python学习笔记 ——yield

经常看到大神写程序中使用yield，一直不明白这个的用法，现在好好记录下。1、迭代器迭代器是访问集合内元素的一种方式。迭代器对象从集合的第一个元素开始访问，直到所有元素都被访问一遍后结束。迭代器不能回退，只能向前进行迭代。Python中最常使用迭代器的场景是循环语句 for>>> for i in range(5): #range...

发表了文章 • 2017-04-02 19:29 • 0 条评论

2

推荐

1892

阅读

震惊丨某男子自学Python7天后找到高薪工作

Happy April Fool's Day！没错，这是一个标题党。各位愚人节快乐~~我想表达的是，精通Python不可能一蹴而就，必须花很多时间来学习和敲代码。这里分享两个不错的爬虫项目1、zhihu_img，抓取指定知乎用户 followee 的头像地址：ipreacher/tricks 由@ipreacher 创作这是爬取轮子哥关注人的前3页的头像，个性域名...

发表了文章 • 2017-04-01 20:09 • 0 条评论

3

推荐

1756

阅读

昨天看球时，球迷都说了啥——弹幕抓取与分析

推荐去我的博客阅读：昨天看球时，球迷都说了啥——弹幕抓取与分析数据来源：龙珠直播中国之队官方直播间直播间-龙珠直播,游戏直播平台本次弹幕记录（开始时间: 2017-03-23-19:43:34，结束21:29:33)，共记录20788条数据。使用OBS弹幕助手记录OBS弹幕助手 - OBS插件 - 小葫芦1、分析文件中含有时间记录，观众ID和送礼记录，...

发表了文章 • 2017-03-24 21:00 • 1 条评论

3

推荐

2014

阅读

如何优雅的“轮带逛”初级篇——获取单张图片

更多图片欣赏：如何优雅的“轮带逛”初级篇——获取单张图片首先上收藏夹轮子哥带我逛知乎 - 收藏夹 - 知乎由@vega13创建，内容挺多的。例如，等等，看的老夫脸都红了写了一个简单爬取图片的程序。记录下过程。手动 @轮子哥1、分析网页收藏夹只收藏了问题的一个答案，初步想法是获取当前页面的图片因为上一次原因，直...

发表了文章 • 2017-03-20 21:01 • 3 条评论