最近比较贪玩了一点,上周基本没有更新笔记o(* ̄︶ ̄*)o,不过本人相信适当的放松能让学习更高效~先来放松一下吧~
言归正传~吧上周的笔记补上(估计我是7周成不了师了~这个Python的课程就够我听几周的~这钱是真没白花啊~回来一看~更新一堆课程~哈哈哈~)
Python的特点是语法比较简单,并且有很多可以共享的第三方包其中今天提到的Numpy和Pandas这两个包常用语统计分析,这两个包会帮助我们保证速度的处理上千条数据。
【Numpy包进行加载和使用】
可用type查看数据类型
利用a变量对数组进行赋值
一样可以接受与数组一样的切片,简单运算
能够进行多维数据结构
注意数据类型的区别“int32“
【Pandas包】性价比会相对较高一些(因为是基于Numpy开发的)--操作方面更加习惯,数据框的形式。
进行加载并重命名为pd:import pandas as pd
其主要有两个数据结构:
1.Series,一维的,在tab搜索时首字母S要大写
从0开始到4结束,索引
有一些比较高的属性shift+tab调出查看里面支持哪些参数
结果区别
索引查找
索引也可以进行多个值索引,索引是列表表示,所以需要有方括号。
最外面的方括号代表索引方式
里面的方括号,代表索引的内容一个列表
比较智能的可以自动补缺
特性:原始的数值类型的内容增加一个字符串,则整体都会变成字符串,数据类型会保证统一。
基础是一维的近似于数组的结构。
2.dataframe 二维的,视觉上比较接近表格
相当于无数的一维叠加起来,支持多形式输入
通过字典来输入数据框:
会发现顺序改变,是因为字典本身就是无需的
进行一维输入:会发现,两者不等价,数据结构是不一样的
对数据框进行切片,数据类型进行变换
等价代码df.age,与别的一起写有可能会报错,建议用方括号的切片形式
基于行的切片
同时可切多个值
以上主要是些标准的查找
单独搜索某一值
字符串的更改
针对的是某个行和某个列
某一个特定值的筛选“年龄为18岁的”
方法1:逻辑判断
外面的df是提取出来,里面的df代表的是逻辑判断。
提取结构就是TRUE的结果内容
多条件的筛选查找
同时满足这两个条件的,“|”为并集
方法2:逻辑判断
iloc和loc查找(可同时满足两个参数进行切片的)
iloc所在行的数字进行索引,是针对第几行的
loc是针对标签进行切片的
(可同时满足两个参数进行切片的)
df.ix是可以行和标签一起使用,但是还是会报错,不建议使用。
【读入.csv文件:read.csv】
首先把文件放在相同的目录下面
本身默认读取就是utf所以读取会很顺畅
如果改成读取gbk则会报错,如果读取gbk需要进行设置解析编码
查看前几行:
查看尾行:df.tail()
查看数据类型依然用:df.info()
还可以继续追加筛选过滤条件