nicebiebie

菜鸟学数据分析

1
推荐
1868
阅读

excel预处理爬虫数据

今天来对上一次爬取的数据进行处理,看看这乱糟糟的数据,什么鬼 1、地址处理address是这样的,太详细了,哪一弄都标明了,我们主要获取大概的区信息即可; 2、评论数获取对应的评论条数即可3、户型户型包含户型和建筑面积,需要拆分成两个字段4、价格价格的信息太任性,抓取了三列信息,p...

发表了文章 • 2018-04-22 18:07 • 0 条评论

1
推荐
1447
阅读

用 BeautifulSoup 爬取安居客数据

虽然从17年开始各地政府对房价进行了管控,二套房首付提高,利率上升,租售同权等政策,但是上海的房价居高不下,买不起,我看看还不行嘛,这次就来爬爬某网上上海的楼盘,练习一下如何用BeautifulSoup爬取数据。一、页面信息查看打开首页,按F12,点击左边这个图标,点击楼盘信息,出现对应的标签,所有信息在class="ite...

发表了文章 • 2018-04-21 21:52 • 0 条评论

1
推荐
3540
阅读

朴素贝叶斯分类及朴素贝叶斯法的参数估计

大家可以参考这篇博客对朴素贝叶斯的介绍,在这里主要将朴素贝叶斯分类和朴素贝叶斯的参数估计进行介绍,大家注意,朴素贝叶斯不等同于贝叶斯估计;一开始我们不知道某一目标事件发生的真实状态,我们只能够估计出某一事件发生的先验概率,随着得到的信息特征或证据越来越多,我们可以通过给定的信息来判断某一事件发生...

发表了文章 • 2017-05-12 22:31 • 0 条评论

1
推荐
1850
阅读

11-6——自动获取下一页爬取腾讯视频评论(韦玮python数据挖掘课程)

结果:

发表了文章 • 2016-11-12 21:33 • 0 条评论

2
推荐
1898
阅读

11-02作业——爬取千图网(http://www.58pic.com/)某个频道的图片(高清版)

爬取千图网星空频道的图片import urllib.requestimport urllib.errorimport re#浏览器伪装headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:49.0) Gecko/20100101 Firefox/49.0")opener=urllib.request.build_opener()opener.addheaders=[headers]#opener设置为全局urllib.request.install_opener(o...

发表了文章 • 2016-11-07 16:43 • 2 条评论

2
推荐
1573
阅读

10.30课后作业——爬取CSDN博客http://blog.csdn.net/首页显示的所有文章(python数据挖掘课程)

1、方法一:for循环里添加报头伪装成浏览器爬取import urllib.requestimport reimport urllib.errorurl="http://blog.csdn.net/"#设置报头,chrome浏览器伪装headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36\(KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36")#添加报头opener=u...

发表了文章 • 2016-11-07 16:02 • 1 条评论

1
推荐
1100
阅读

序列

序列包括:字符串、列表及元组

发表了文章 • 2016-10-29 11:08 • 0 条评论

0
推荐
1319
阅读

python基础知识一

1、注释 #注释,三引号'''表示多行注释2、标识符 首字母是字母或下划线  其他字母是字母、下划线或数字3、变量 a=5 a+=1 即(a=a+1)4、数据类型 数、字符串、列表(list)、元组(tuple)、集合(set)、字典(dictionary)(1)列表 abc=["my","you"] >>> abc ['my', 'you'] 取值 abc[0] 'my' 替换 abc[...

发表了文章 • 2016-10-23 20:01 • 0 条评论

3
推荐
1146
阅读

10-19python作业-倒序乘法口诀表

#倒叙乘法口诀表#方法一for a in range(9,0,-1):    for b in range(1,a+1):        print(str(a)+"*"+str(b)+"="+str(a*b)+"  ",end="")#end=""表示不换行    print()#方法二a=9while(a>0):    for b in range(1,a+1):        print(st...

发表了文章 • 2016-10-21 12:25 • 2 条评论