0
推荐
1519
阅读
pandas札记13——全美婴儿案例分析
知识点在全美婴儿名字案例中,使用到的方法有:按照sex分组按照births属性求和:groupby("sex").births.sum()concat()用法:第一个参数以列表形式添加pivot_table透视表制作image.png直接添加某列属性diff:group['diff']=group['M] - group['F']apply()用法查看DF数据信息:info()不同方式绘制可视图:image.pngimage.p...
0
推荐
1010
阅读
pandas札记12_数据聚合和分组运算
Pandas中提供了灵活的分组功能,通过groupby实现,对数据进行切片、切块、合并等操作计算分组摘要:计数、平均值、标准差,用户自定义函数组内变换或者其他运算,规格化、线性回归、排名或选取子集等计算透视表、交叉表等执行分位数和其他统计分组分析groupby机制分组运算术语:拆分---应用---合并拆分:根据提供的键进...
0
推荐
1059
阅读
pandas札记11_数据规整
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
层次化索引hierarchical indexing数据分散在不同的文件或者数据库中层次化索引在⼀个轴上拥有多个(两个以上)索引级别低维度形式处理高维度数据# 创建S:索引是一个数组组成的列表
data = pd.Series(np.random.randn(9),
ind...
0
推荐
1424
阅读
pandas札记10_数据清洗工作
数据处理之前需要对数据进行清理工作,包含:缺失值的去除drop缺失值的填充fillna删除重复数据duplicated()和drop_duplicates()数据转换索引重命名数据离散化或面元化缺失值的去除pandas处理缺失值pandas默认的处理对象不包括缺失值NaN表示缺失数据;None值也可以作为NAisnull()函数查看哪些数据是缺失值dropna更实用,...
0
推荐
1337
阅读
pandas札记9_读取数据及数据库连接
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
读取文件将表格型数据读取为DF对象的函数read_csv:默认分隔符是逗号read_table:默认分隔符是制表符('\t')read_excel:读取Excel文件read_sql:读取SQL数据文件image.png# 查看文件内容window用type
# linuxz中cat命令
...
0
推荐
1153
阅读
pandas札记8_索引对象、重新排序索引和行列索引
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
Index索引对象负责管理轴标签和元数据构建S和DF 的时候,数组和其他序列的标签会被转换成IndexIndex对象是不可变的,用户不能修改允许有重复的标签image.pngframe3.index.name = 'year' # 索引name
frame3.columns.name = 'state' # 列属性na...
0
推荐
1291
阅读
pandas札记7_协方差、相关系数
import numpy as np
import pandas as pd
import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker)
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}
price = pd.DataFrame({ticker: data['Adj Close']
for ticker, data in all_data.items()})
volume...
0
推荐
1183
阅读
pandas札记6_数据读取、存储
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
读取文件将表格型数据读取为DF对象的函数read_csv:默认分隔符是逗号read_table:默认分隔符是制表符('\t')read_excel:读取Excel文件read_sql:读取SQL数据文件image.png# 查看文件内容window用type
# linuxz中cat命令
...
0
推荐
1673
阅读
Pandas札记5_协方差、相关系数
导入模块import numpy as np
import pandas as pd
import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker)
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}
price = pd.DataFrame({ticker: data['Adj Close']
for ticker, data in all_data.items()}...
0
推荐
858
阅读
0
推荐
882
阅读
0
推荐
909
阅读
Pandas札记2_pandas基础
写于本篇札记结束之后:今天晚上在图书馆写这篇札记的时候,心情很乱,很浮躁,因为工作的原因。最近真的很迷茫!希望快点结束这种状态!Pandas的主要特点Pandas是一个高性能的数据操作和分析工具快速高效的DataFrame对象,具有默认和自定义的索引。将数据从不同文件格式加载到内存中的数据对象的工具。丢失数据的数据对...
0
推荐
954
阅读
Pandas札记1_NBA数据处理
数据列属性'球员姓名','赛季','胜负','对手球队名称','对手球队总得分','己方球队总得分','己方球队名称','首发','上场时间','投篮命中率','投篮命中数','投篮出手数','三分命中率','三分命中数','三分出手数','罚球命中率','罚球命中数','罚球次数','总篮板数','前场篮板数','后场篮板数','助攻数','抢断数','盖帽数','...