R语言将大型Excel文件转为dta格式

浏览: 1513

作者:Economicoder

微信公众号:数据学徒


本文以2000年度我国工业企业数据库为例,该文件后缀名为xlsx,包含约16万条记录,文件有88M这么大。直接使用Excel打开都费劲:等待时间久,电脑风扇呼呼呼作响。如果尝试用Stata打开该xlsx文件,则会出现提示报错。

报错原因在于,Stata无法读取超过40M的Excel文件

这就好比瓜迪奥拉的传控足球固然美丽,但是面对摆大巴的球队无能为力。

图片

破大巴需要攻城锤,这把锤子的名字就是R语言。万事开头难啊,正憧憬着数据清洗和花式选取变量建模呢,可不能连数据们长啥模样都没见着啊。R语言适时挺身而出,帮助Stata叩开大型Excel文件之门。

在RStudio中运行如下代码,过程较为浅显,首先引入两个R包,然后输入xlsx后缀名文件,最后便可输出dta后缀名文件。等待2分钟,谁让文件那么庞大呢,接下来便是见证奇迹的时刻。

library(openxlsx)
library(foreign)

x = read.xlsx('2000.xlsx',1)    # 读取 Excel 的 Sheet1
# View(x)
write.dta(x, '2000.dta')        # 输出为 Stata 能读取的格式

在Stata中打开该文件,屏幕会显示这份文件是在R中转化而来。

图片

也许你有更好的转化方法,欢迎赐教。


图片

图片

推荐 0
本文由 Economicoder 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册