超高性能数据处理包data.table

发表: 2016-07-01 浏览: 1430

菜鸟数据数据分析

作者简介

张丹，前况客创始人兼CTO、作家10年IT编程背景，多项SUN及IBM技术认证，精通多种开发语言，具有十分丰富的大数据处理经验，同时熟悉金融二级市场、交易规则和投研体系，著有《R的极客理想-工具篇》、《R的极客理想-高级开发篇》。前言在R语言中，我们最常用的数据类型是data.frame，绝大多数的数据处理的操作都是围绕着data.frame结构来做的。用data.frame可以很方便的进行数据存储和数据查询，配合apply族函数对数据循环计算，也可也用plyr, reshape2, melt等包对数据实现切分、分组、聚合等的操作。在数据量不太大的时候，使用起来很方便。但是，用data.frame结构处理数据时并不是很高效，特别是在稍大一点数据规模的时候，就会明显变慢。

data.table其实提供了套和data.frame类似的功能，特别增加了索引的设置，让数据操作非常高效，可能会提升1-2数量级。本章就将data.table包的使用方法。

目录1. data.table包介绍2. data.table包的使用3. data.table包性能对比

1. data.table包介绍

data.table包是一个data.frame的扩展工具集，可以通过自定义keys来设置索引，实现高效的数据索引查询、快速分组、快速连接、快速赋值等数据操作。data.table主要通过二元检索法大大提高数据操作的效率，它也兼容适用于data.frame的向量检索法。同时，data.table对于大数据的快速聚合也有很好的效果，官方介绍说对于 100GB规模内存数据处理，运行效率还是很好的。那么，就让我们试验一下吧。

data.table项目地址：https://cran.r-project.org/web/packages/data.table/

本文所使用的系统环境

· Win10 64bit

· R: 3.2.3 x86_64-w64-mingw32/x64 b4bit

data.table包是在CRAN发布的标准库，安装起来非常简单，2条命令就可以了。

2. data.table包的使用

接下来，开始用data.table包，并熟悉一下data.table包的基本操作。

2.1 用data.table创建数据集

通常情况，我们用data.frame创建一个数据集时，可以使用下面的语法。

对于data.table来说，创建一个数据集是和data.frame同样语法。

检查df, dt两个对象的类型，可以看到data.table是对data.frame的扩展类型。

如果data.table仅仅是对data.frame的做了S3的扩展类型，那么data.table是不可能做到对data.frame从效率有极大的改进的。通过检查data.table代码的结构定义，我们发现，

data.table的代码定义中并没有使用data.frame结构的依赖的代码，我们可以确认data.table和data.frame的底层结果是不一样的。

那么为什么从刚刚用class函数检查data.table对象时，会看到data.table和data.frame的扩展关系呢？这里就要了解R语言中对于S3面向对象系统的结构设计了，关于S3的面向对象设计，请参考文章R语言基于S3的面向对象编程(http://blog.fens.me/r-class-s3/)。

2.2 data.table和data.frame相互转换

如果想把data.frame对象和data.table对象进行转换，转换的代码是非常容易的，直接转换就可以了。

从一个data.frame对象转型到data.table对象。

从一个data.table对象转型到data.frame对象。

2.3 用data.table进行查询

由于data.table对用户使用上是希望和data.frame的操作尽量相似，所以适用于data.frame的查询方法基本都适用于data.table，同时data.table自己具有的一些特性，提供了自定义keys来进行高效的查询。

下面先看一下，data.table基本的数据查义方法。

按行或按列查询

上面的操作，不管是用索引值，== 和 $ 都是data.frame操作一样的。下面我们取data.table特殊设计的keys来查询。

按照自定义的索引进行查询。

从上面的代码测试中我们可以看出，在定义了keys后，我们要查询的时候就不用再指定列了，默认会把方括号中的第一位置留给keys，作为索引匹配的查询条件。从代码的角度，又节省了一个变量定义的代码。同时，可以用mult参数，对数据集增加过滤条件，让代码本身也变得更高效。如果查询的值，不是索引列包括的值，则返回NA。