深入理解SAS之数据指针和PDV流程

浏览: 2167
SAS

近期由于助研工作的需要,不可避免地要使用到SAS编程。其实我一开始是拒绝的,因为如果使用R,我的效率将大大提升。但是由于老师的强烈要求,不得不重新捡起已落下一年多的SAS。


理解DATA步的数据指针和PDV流程至关重要。它能帮助我们摸清DATA步中的所有执行语句是如何在缓存区,内存以及I/O系统之间转换的。或许这就是所谓的『大局观』?^_^


基本概念——数据指针和PDV

理解SAS的编译过程,需要先了解两个概念。

  • 数据指针:可以理解成在当前的内存缓存区,输入数据所存储的位置;

  • PDV(Program Data Vector):在DATA步中,所有涉及的变量当前值存储在该向量(PDV)中。

SAS程序的编译过程如下图所示:



下面,以一个简单的SAS程序为例,解释具体编译过程。

一个简单的SAS程序

data test;

input x y z;

cards;

1 2 3
4 5 6
;

run;

编译过程

  1. 编译程序,开辟一块内存空间给x,y,z三个变量。

  2. 初始化变量为缺失值。用INPUT语句输入的这三个变量在DATA步执行之前被置为缺失值,若是RETAIN语句创建的变量,则被保留。

  3. 执行INPUT语句。读入第一行观测,并把读入的数据放在PDV。

  4. 执行RUN语句。将PDV中的数据输出至DATA步创建的test数据集中。

  5. SAS返回到DATA语句之后的第一个语句,并初始化PDV中非RETAIN语句创建的变量为缺失值。继续读入下一行观测数据至PDV。

  6. 如此循环,直至观测最后一行。结束DATA步,释放内存空间。

数据指针和PDV情况汇总

Clipboard Image.png

自动变量

Clipboard Image.png


参考文献

  • 『SAS编程与数据挖掘商业案例』
推荐 0
本文由 黄耀鹏 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册