pandas札记文章分类尤尔小屋 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

1519

阅读

pandas札记13——全美婴儿案例分析

知识点在全美婴儿名字案例中，使用到的方法有：按照sex分组按照births属性求和：groupby("sex").births.sum()concat()用法：第一个参数以列表形式添加pivot_table透视表制作image.png直接添加某列属性diff：group['diff']=group['M] - group['F']apply()用法查看DF数据信息：info()不同方式绘制可视图：image.pngimage.p...

发表了文章 • 2019-08-19 23:35 • 0 条评论

0

推荐

1010

阅读

pandas札记12_数据聚合和分组运算

Pandas中提供了灵活的分组功能，通过groupby实现，对数据进行切片、切块、合并等操作计算分组摘要：计数、平均值、标准差，用户自定义函数组内变换或者其他运算，规格化、线性回归、排名或选取子集等计算透视表、交叉表等执行分位数和其他统计分组分析groupby机制分组运算术语：拆分---应用---合并拆分：根据提供的键进...

发表了文章 • 2019-08-08 11:54 • 0 条评论

0

推荐

1059

阅读

pandas札记11_数据规整

import numpy as np import pandas as pd import matplotlib.pyplot as plt 层次化索引hierarchical indexing数据分散在不同的文件或者数据库中层次化索引在⼀个轴上拥有多个（两个以上）索引级别低维度形式处理高维度数据# 创建S:索引是一个数组组成的列表 data = pd.Series(np.random.randn(9), ind...

发表了文章 • 2019-08-06 10:38 • 0 条评论

0

推荐

1424

阅读

pandas札记10_数据清洗工作

数据处理之前需要对数据进行清理工作，包含：缺失值的去除drop缺失值的填充fillna删除重复数据duplicated()和drop_duplicates()数据转换索引重命名数据离散化或面元化缺失值的去除pandas处理缺失值pandas默认的处理对象不包括缺失值NaN表示缺失数据；None值也可以作为NAisnull()函数查看哪些数据是缺失值dropna更实用，...

发表了文章 • 2019-08-02 14:55 • 0 条评论

0

推荐

1337

阅读

pandas札记9_读取数据及数据库连接

import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline 读取文件将表格型数据读取为DF对象的函数read_csv：默认分隔符是逗号read_table：默认分隔符是制表符（'\t'）read_excel：读取Excel文件read_sql：读取SQL数据文件image.png# 查看文件内容window用type # linuxz中cat命令 ...

发表了文章 • 2019-08-02 14:54 • 0 条评论

0

推荐

1153

阅读

pandas札记8_索引对象、重新排序索引和行列索引

import numpy as np import pandas as pd import matplotlib.pyplot as plt Index索引对象负责管理轴标签和元数据构建S和DF 的时候，数组和其他序列的标签会被转换成IndexIndex对象是不可变的，用户不能修改允许有重复的标签image.pngframe3.index.name = 'year' # 索引name frame3.columns.name = 'state' # 列属性na...

发表了文章 • 2019-07-30 12:52 • 0 条评论

0

推荐

1291

阅读

pandas札记7_协方差、相关系数

import numpy as np import pandas as pd import pandas_datareader.data as web all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']} price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()}) volume...

发表了文章 • 2019-07-30 12:48 • 0 条评论

0

推荐

1183

阅读

pandas札记6_数据读取、存储

import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline 读取文件将表格型数据读取为DF对象的函数read_csv：默认分隔符是逗号read_table：默认分隔符是制表符（'\t'）read_excel：读取Excel文件read_sql：读取SQL数据文件image.png# 查看文件内容window用type # linuxz中cat命令 ...

发表了文章 • 2019-07-30 12:45 • 0 条评论

0

推荐

1673

阅读

Pandas札记5_协方差、相关系数

导入模块import numpy as np import pandas as pd import pandas_datareader.data as web all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']} price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()}...

发表了文章 • 2019-07-28 23:32 • 0 条评论

0

推荐

858

阅读

pandas札记4_《利用Python进行数据分析》_第三章知识点

发表了文章 • 2019-07-28 16:07 • 0 条评论

0

推荐

882

阅读

pandas札记3_《利用Python进行数据分析》第二章知识点

发表了文章 • 2019-07-28 16:03 • 0 条评论

0

推荐

909

阅读

Pandas札记2_pandas基础

写于本篇札记结束之后：今天晚上在图书馆写这篇札记的时候，心情很乱，很浮躁，因为工作的原因。最近真的很迷茫！希望快点结束这种状态！Pandas的主要特点Pandas是一个高性能的数据操作和分析工具快速高效的DataFrame对象，具有默认和自定义的索引。将数据从不同文件格式加载到内存中的数据对象的工具。丢失数据的数据对...

发表了文章 • 2019-07-24 22:11 • 0 条评论

0

推荐

954

阅读

Pandas札记1_NBA数据处理

数据列属性'球员姓名','赛季','胜负','对手球队名称','对手球队总得分','己方球队总得分','己方球队名称','首发','上场时间','投篮命中率','投篮命中数','投篮出手数','三分命中率','三分命中数','三分出手数','罚球命中率','罚球命中数','罚球次数','总篮板数','前场篮板数','后场篮板数','助攻数','抢断数','盖帽数','...

发表了文章 • 2019-07-24 19:22 • 0 条评论