pandas是python做数据处理与分析的常用包,基于NumPy数组构建的,使得python做数据预处理、清洗、分析工作变得更加快捷。
pandas有两个主要数据结构:Series和DataFrame,分别对应一维数据表、二维数据表。(当然还有三维数据表-Pannel,使用场景不多)
今天先讲解一下Series:
Series的创建方式及四个参数的含义如下:
接下来实际编写一下:
导入pandas
创建一个名为series1的Series,其数据为包含五个数字的一维数组,并用a-e来作为索引,创建完成后并输出一下series1的类型:
输出series1,查看其数据:
再创建两个Series,其中series2不输入参数index,会发现Series的默认索引是数字0-n;
再使用K-V的形式创建series3:
接下来,我们用两种方式来对series3中的数据进行筛选操作:
第一种用默认的数字形式的索引,选取前三个数值:
第二种用series3创建时传入的英文字母索引,选取index=C的数值:
最后我们分别产看一下series的values、index、dtype: