0
推荐
1059
阅读
Python数据分析之简书粉丝敌我差距
最近粉丝涨的飞快,已突破3500大关,虽然比起大咖来说,是微乎其微,但看过我简书风云榜的都知道,3500粉丝也能排上前200名(虽然只爬取了20多万的数据)。但随着粉丝的增长,也担心粉丝的质量问题,我发现许多粉丝都是没有发表任何文字的,我把这些用户定义为非活跃用户(这样太过偏激),今天就已作者本人的粉丝和向右...
0
推荐
1377
阅读
python数据分析之基情的择天记
人一生都可能无法逆天改命,但你却是要去奋斗一把本文章主要通过最简单的共线性关系,利用gephi工具绘制择天记的人物关系图。准备工作在网上下载《择天记》小说以及创建小说人物的txt。jieba库需要下载gephi软件注意:安装路径不能有中文字;需要安装java环境,不然无法使用gephi。定义数据结构import jieba
names = {}
...
0
推荐
1315
阅读
京东文胸爬虫及数据分析
许久不来写文章了,最近夏令营搞的确实没时间。这次把上次直播讲的东西写成文字,带大家开波车。爬虫代码import requests
from lxml import etree
import time
import json
import re
import csv
headers = {
'Cookie':'ipLoc-djd=1-72-2799-0; unpl=V2_ZzNtbRZXF0dwChEEfxtbV2IKFQ4RUBcSdg1PVSgZCVAyCkBVclRCFXMUR...
1
推荐
1083
阅读
Numpy库(一)
又回到起点学numpy库,最近看了下机器学习的书,用到很多numpy的知识,我是一脸懵逼的。如果是做python数据分析的话,通过pandas库入门更有趣,但要更深入去学习python机器学习,建议numpy必须学好。什么是numpy一个强大的N维数组对象 ndarray广播功能函数整合C/C++/Fortran代码的工具线性代数、傅里叶变换、随机数生成...
0
推荐
909
阅读
美美的matplotlib
总是感觉matplotlib画的图不是很好看,以前用highcharts画图很清新,而且自动调色,但今天在网上看到别人用matplotlib画的图,简直小清新,也发现自己菜菜的。import numpy as np
import matplotlib.pyplot as plt
n = 12
X = np.arange(n)
Y1 = (1-X/float(n)) * np.random.uniform(0.5,1.0,n)
Y2 = (1-X/float(n)) * ...
0
推荐
1026
阅读
Python数据分析之糗事百科第二弹
上回说到糗事百科段子的分析,今天对另外一张表,也就是用户信息表的分析。数据预处理导入数据import pandas as pd
import pymongo
import jieba.analyse
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
client = pymongo.MongoClient('localhost',port = 27017)
qiushi = client['qiushi']
qi...
0
推荐
1199
阅读
Python数据分析之糗事百科
最近一直忙着写材料,没给大家写作业的案例,第二期同学很厉害,都是抢着要作业做,哈哈,今天我就给大家写点爬虫的扩展和数据分析,让厉害的同学学起来。代码这次除了爬取老师的作业布置的字段外,还爬取了用户的一些信息,如图所示。之前的作业亮同学已经详细讲解了,我今天就贴下我的代码:import requests
from lxml...
0
推荐
938
阅读
Python数据分析之matplotlib(二)
今天主要讲下一些参数的使用:import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
X=np.linspace(-np.pi,np.pi,256,endpoint=True)
C,S = np.cos(X),np.sin(X)
plt.figure(figsize=(8,6),dpi=80)
plt.plot(X,C,color='blue',linewidth=3,linestyle='--')
plt.plot(X,S,color='...
0
推荐
999
阅读
Python数据分析之matplotlib(一)
mport numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
years = [2010,2011,2012,2013,2014,2015,2016,2017]
GDPs = [256,289,302,356,389,400,402,436]
plt.plot(years,GDPs,color='green',marker='o',linestyle='solid')
plt.title('小试牛刀')
plt.ylabel('gdp')plt.bar(years,...
0
推荐
985
阅读
Python数据分析之merge使用
在现实生活中,都会存在不同的表,但表之间有相互关系,我们需要进行整理,进行连接,这种过程类似于数据库的连接。我们先构造用户和订单的dataframe:import pandas as pd
import numpy as np
import datetime
customers = {
'CustomerID':[10,11],
'Name':['xiaomin','zhansan'],
'Address':['csuft','cha...
0
推荐
1286
阅读
Python数据分析之数据清洗
good data decides good analyse数据清洗,是数据分析中不可缺少的一个环节,其处理的好坏在很大程度上影响着数据分析的结果。而且以前听老师说过数据清洗占整个的数据分析的一半时间以上(汗。。。数据清洗也是一个大学问啊)。查看空缺值首先读入文件:import pandas as pd
test = pd.read_excel('C:/Users/luopan/Des...
0
推荐
1383
阅读
Python数据分析之pandas数据可视化
Python数据可视化常用的是matplotlib库,matplotlib是底层库,今天学了pandas的数据可视化,相对于matplotlib库来说,简单许多。折线图%matplotlib inline
import numpy as np
import pandas as pd
x1 = pd.Series(np.random.normal(size=10))
x1.plot()我们也可以加入grid参数添加格网:x1.plot(grid=True)条形图依旧以...
0
推荐
1356
阅读
Python数据分析之groupby语法糖
对于dataframe的groupby聚合函数来说,我们适当了解下语法糖,会对数据分析起到事半功倍的效果。对分组进行迭代首先看下各字段的类型import numpy as np
import pandas as pd
import pymysql
conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='test', port=3306, charset='utf8')
jianshu = ...
0
推荐
1016
阅读
Python数据分析之dataframe的groupby
大家都知道数据库有groupby函数,今天给大家讲讲dataframe的groupby函数。groupby函数还是以上文的数据为例子,进行讲解,首先读入数据,通过groupby聚合数据。(该数据为简书it互联网一段时间的文章收录信息)import pandas as pd
import pymysql
conn = pymysql.connect(host='localhost', user='root', passwd='12345...
0
推荐
1359
阅读
Python数据分析之dataframe索引会这个就行啦
今天给大家讲讲pandas库dataframe数据结构的索引问题,今天就讲讲ix的用法。选择行依旧读入昨天的文件import pandas as pd
import pymysql
conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='test', port=3306, charset='utf8')
jianshu = pd.read_sql('select * from jianshu1',conn)
jians...