0
推荐
1059
阅读

Python数据分析之简书粉丝敌我差距

最近粉丝涨的飞快,已突破3500大关,虽然比起大咖来说,是微乎其微,但看过我简书风云榜的都知道,3500粉丝也能排上前200名(虽然只爬取了20多万的数据)。但随着粉丝的增长,也担心粉丝的质量问题,我发现许多粉丝都是没有发表任何文字的,我把这些用户定义为非活跃用户(这样太过偏激),今天就已作者本人的粉丝和向右...

发表了文章 • 2017-10-12 14:56 • 0 条评论

0
推荐
1377
阅读

python数据分析之基情的择天记

人一生都可能无法逆天改命,但你却是要去奋斗一把本文章主要通过最简单的共线性关系,利用gephi工具绘制择天记的人物关系图。准备工作在网上下载《择天记》小说以及创建小说人物的txt。jieba库需要下载gephi软件注意:安装路径不能有中文字;需要安装java环境,不然无法使用gephi。定义数据结构import jieba names = {} ...

发表了文章 • 2017-10-12 14:56 • 0 条评论

0
推荐
1315
阅读

京东文胸爬虫及数据分析

许久不来写文章了,最近夏令营搞的确实没时间。这次把上次直播讲的东西写成文字,带大家开波车。爬虫代码import requests from lxml import etree import time import json import re import csv headers = { 'Cookie':'ipLoc-djd=1-72-2799-0; unpl=V2_ZzNtbRZXF0dwChEEfxtbV2IKFQ4RUBcSdg1PVSgZCVAyCkBVclRCFXMUR...

发表了文章 • 2017-10-12 14:55 • 0 条评论

1
推荐
1083
阅读

Numpy库(一)

又回到起点学numpy库,最近看了下机器学习的书,用到很多numpy的知识,我是一脸懵逼的。如果是做python数据分析的话,通过pandas库入门更有趣,但要更深入去学习python机器学习,建议numpy必须学好。什么是numpy一个强大的N维数组对象 ndarray广播功能函数整合C/C++/Fortran代码的工具线性代数、傅里叶变换、随机数生成...

发表了文章 • 2017-10-12 14:53 • 0 条评论

0
推荐
909
阅读

美美的matplotlib

总是感觉matplotlib画的图不是很好看,以前用highcharts画图很清新,而且自动调色,但今天在网上看到别人用matplotlib画的图,简直小清新,也发现自己菜菜的。import numpy as np import matplotlib.pyplot as plt n = 12 X = np.arange(n) Y1 = (1-X/float(n)) * np.random.uniform(0.5,1.0,n) Y2 = (1-X/float(n)) * ...

发表了文章 • 2017-10-12 14:53 • 0 条评论

0
推荐
1026
阅读

Python数据分析之糗事百科第二弹

上回说到糗事百科段子的分析,今天对另外一张表,也就是用户信息表的分析。数据预处理导入数据import pandas as pd import pymongo import jieba.analyse import numpy as np import matplotlib.pyplot as plt %matplotlib inline client = pymongo.MongoClient('localhost',port = 27017) qiushi = client['qiushi'] qi...

发表了文章 • 2017-10-12 14:52 • 0 条评论

0
推荐
1199
阅读

Python数据分析之糗事百科

最近一直忙着写材料,没给大家写作业的案例,第二期同学很厉害,都是抢着要作业做,哈哈,今天我就给大家写点爬虫的扩展和数据分析,让厉害的同学学起来。代码这次除了爬取老师的作业布置的字段外,还爬取了用户的一些信息,如图所示。之前的作业亮同学已经详细讲解了,我今天就贴下我的代码:import requests from lxml...

发表了文章 • 2017-10-12 14:52 • 0 条评论

0
推荐
938
阅读

Python数据分析之matplotlib(二)

今天主要讲下一些参数的使用:import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline X=np.linspace(-np.pi,np.pi,256,endpoint=True) C,S = np.cos(X),np.sin(X) plt.figure(figsize=(8,6),dpi=80) plt.plot(X,C,color='blue',linewidth=3,linestyle='--') plt.plot(X,S,color='...

发表了文章 • 2017-10-12 14:51 • 0 条评论

0
推荐
999
阅读

Python数据分析之matplotlib(一)

mport numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline years = [2010,2011,2012,2013,2014,2015,2016,2017] GDPs = [256,289,302,356,389,400,402,436] plt.plot(years,GDPs,color='green',marker='o',linestyle='solid') plt.title('小试牛刀') plt.ylabel('gdp')plt.bar(years,...

发表了文章 • 2017-10-12 14:51 • 0 条评论

0
推荐
985
阅读

Python数据分析之merge使用

在现实生活中,都会存在不同的表,但表之间有相互关系,我们需要进行整理,进行连接,这种过程类似于数据库的连接。我们先构造用户和订单的dataframe:import pandas as pd import numpy as np import datetime customers = { 'CustomerID':[10,11], 'Name':['xiaomin','zhansan'], 'Address':['csuft','cha...

发表了文章 • 2017-10-12 14:49 • 0 条评论

0
推荐
1286
阅读

Python数据分析之数据清洗

good data decides good analyse数据清洗,是数据分析中不可缺少的一个环节,其处理的好坏在很大程度上影响着数据分析的结果。而且以前听老师说过数据清洗占整个的数据分析的一半时间以上(汗。。。数据清洗也是一个大学问啊)。查看空缺值首先读入文件:import pandas as pd test = pd.read_excel('C:/Users/luopan/Des...

发表了文章 • 2017-10-12 14:48 • 0 条评论

0
推荐
1383
阅读

Python数据分析之pandas数据可视化

Python数据可视化常用的是matplotlib库,matplotlib是底层库,今天学了pandas的数据可视化,相对于matplotlib库来说,简单许多。折线图%matplotlib inline import numpy as np import pandas as pd x1 = pd.Series(np.random.normal(size=10)) x1.plot()我们也可以加入grid参数添加格网:x1.plot(grid=True)条形图依旧以...

发表了文章 • 2017-10-12 14:47 • 0 条评论

0
推荐
1356
阅读

Python数据分析之groupby语法糖

对于dataframe的groupby聚合函数来说,我们适当了解下语法糖,会对数据分析起到事半功倍的效果。对分组进行迭代首先看下各字段的类型import numpy as np import pandas as pd import pymysql conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='test', port=3306, charset='utf8') jianshu = ...

发表了文章 • 2017-10-12 14:46 • 0 条评论

0
推荐
1016
阅读

Python数据分析之dataframe的groupby

大家都知道数据库有groupby函数,今天给大家讲讲dataframe的groupby函数。groupby函数还是以上文的数据为例子,进行讲解,首先读入数据,通过groupby聚合数据。(该数据为简书it互联网一段时间的文章收录信息)import pandas as pd import pymysql conn = pymysql.connect(host='localhost', user='root', passwd='12345...

发表了文章 • 2017-10-12 14:45 • 0 条评论

0
推荐
1359
阅读

Python数据分析之dataframe索引会这个就行啦

今天给大家讲讲pandas库dataframe数据结构的索引问题,今天就讲讲ix的用法。选择行依旧读入昨天的文件import pandas as pd import pymysql conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='test', port=3306, charset='utf8') jianshu = pd.read_sql('select * from jianshu1',conn) jians...

发表了文章 • 2017-10-12 14:42 • 0 条评论