利用python进行数据分析之准备(一)

浏览: 1176

                  Clipboard Image.png

本书讲的是利用python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。

书中的“数据”主要指的是 结构化数据(structured data),例如

  • 多维数据(矩阵)
  • 表格型数据,其中各列可能是不同的类型(字符串、数值、日期等)
  • 通过关键列(对于SQL来说就是主键和外键)相互联系的多个表
  • 间隔平均或不平均的时间序列

重要的python库

numpy

numpy(numberical python),是python的科学计算基础包。提供的功能(不限于此):

  • 快速高效的多维数组对象ndarray
  • 读写硬盘上基于数组的数据集的工具
  • 线性代数运算、傅里叶变换、以及随机数的生产

pandas

pandas这个名字源于panel data(面板数据)以及python data analysis(python数据分析)

pandas提供了能够快速便捷的处理结构化数据的大量数据结构和函数。

matplotlib

matplotlib是流行的数据图表的python库。

Ipython 

一个增强的python shell,目的是体改编写、测试、调试python代码的速度。主要用于交互式数据 的处理和利用matplotlib对数据进行可视化处理。

scipy

scipy是一组专门解决科学计算中各种标准问题域的集合,主要包括:

  • scipy.integrate 数值积分例程和微分方程求解器
  • scipy.linalg 扩展了由scipy.linalg提供的线性代数例程和矩阵分解功能

安装和设置

这里我们下载Anaconda2-4.3.0.1安装包。如果你之前安装过python的解释器,需要手动将其删除。

(注:Anaconda一个开源的 Python 发行版本)

此时,打开命令提示符。输入python。与之对应的安装消息是:

Clipboard Image.png

此时查看环境变量:

先删除之前与python有关的所有环境变量。

添加在path环境中应该如下:

H:\python;H:\python\Scripts

(其中安装Anaconda2-4.3.0.1包时候,上面的环境变量会自动添加)

Anaconda(注:Anaconda一个开源的 Python 发行版本,里面已经内置了numpy、pandas、matplotlib等200多个包)

我们来引入pandas,绘制一个简单的matplotlib图形

Clipboard Image.png

生成这样一个图形


                                       Clipboard Image.png


我们再检查IPython HTML notebook是否安装成功:

Clipboard Image.png

集成开发环境(IDE)

标准开发环境?Ipython外加一个文本编辑器(pycharm)

行话

数据规整:指的是将非结构化或散乱数据处理为结构化或整洁形式的整个过程。

伪码:算法或过程的“代码式”描述,而这些代码本身并不是实际有效的源代码。

语法糖:这是一种编程语法,并不会带来新的特性,但是能使代码更易读、更易写。

推荐 1
本文由 lingan 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册