本书讲的是利用python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。
书中的“数据”主要指的是 结构化数据(structured data),例如
- 多维数据(矩阵)
- 表格型数据,其中各列可能是不同的类型(字符串、数值、日期等)
- 通过关键列(对于SQL来说就是主键和外键)相互联系的多个表
- 间隔平均或不平均的时间序列
重要的python库
numpy
numpy(numberical python),是python的科学计算基础包。提供的功能(不限于此):
- 快速高效的多维数组对象ndarray
- 读写硬盘上基于数组的数据集的工具
- 线性代数运算、傅里叶变换、以及随机数的生产
pandas
pandas这个名字源于panel data(面板数据)以及python data analysis(python数据分析)
pandas提供了能够快速便捷的处理结构化数据的大量数据结构和函数。
matplotlib
matplotlib是流行的数据图表的python库。
Ipython
一个增强的python shell,目的是体改编写、测试、调试python代码的速度。主要用于交互式数据 的处理和利用matplotlib对数据进行可视化处理。
scipy
scipy是一组专门解决科学计算中各种标准问题域的集合,主要包括:
- scipy.integrate 数值积分例程和微分方程求解器
- scipy.linalg 扩展了由scipy.linalg提供的线性代数例程和矩阵分解功能
安装和设置
这里我们下载Anaconda2-4.3.0.1安装包。如果你之前安装过python的解释器,需要手动将其删除。
(注:Anaconda一个开源的 Python 发行版本)
此时,打开命令提示符。输入python。与之对应的安装消息是:
此时查看环境变量:
先删除之前与python有关的所有环境变量。
添加在path环境中应该如下:
H:\python;H:\python\Scripts
(其中安装Anaconda2-4.3.0.1包时候,上面的环境变量会自动添加)
Anaconda(注:Anaconda一个开源的 Python 发行版本,里面已经内置了numpy、pandas、matplotlib等200多个包)
我们来引入pandas,绘制一个简单的matplotlib图形
生成这样一个图形
我们再检查IPython HTML notebook是否安装成功:
集成开发环境(IDE)
标准开发环境?Ipython外加一个文本编辑器(pycharm)
行话
数据规整:指的是将非结构化或散乱数据处理为结构化或整洁形式的整个过程。
伪码:算法或过程的“代码式”描述,而这些代码本身并不是实际有效的源代码。
语法糖:这是一种编程语法,并不会带来新的特性,但是能使代码更易读、更易写。