精选|2018年6月R新包推荐

浏览: 2116

作者:Joseph Rickert

翻译:黄小伟,先后从事游戏、社交及金融数据研究及应用,目前就职网易杭州


6月份,144个R新包收录于CRAN。其中31个是专门针对特定学科或分析的R语言包,这也从侧面说明相关领域的科学家正积极使用R语言。以下是选摘的40个R包,包括以下几个类别:计算方法、数据、数据科学、经济学、科学、统计学、时间序列、工具和可视化。其中几个数据包,如rtrek 和 opensensmapr,都提供了多个极具趣味性的数据供大家探索、应用。(管理及查询R包推荐使用cranly包)

一. 计算方法

1. nnTensor: 提供n阶负矩阵分解的计算方法.

2. RcppEigenAD: 提供使用Rcpp、Eigen和CppAD编译C ++代码,以及生成一阶和二阶偏导数的函数,并提供Faa'di Bruno公式的实现.

3. rcrane: 提供优化算法来估计模型中的系数,比如线性回归和神经网络,包括批量梯度下降、随机梯度下降、小批量梯度下降等方法.

二. 数据

1. bjscrapeR: 支持从国家犯罪受害调查( NCVS )中搜集犯罪数据,该调查用于追踪美国的个人和家庭犯罪情况.

2. genesysr: 提供API接口,支持从Genesys上发表的世界各地的基因库获取植物遗传资源数据.

3. opensensmapr: 允许用户从OpenSenseMap API下载实时环境测量和传感器站元数据.

4. readabs: 支持将来自澳大利亚统计局的Excel文件读入为整洁数据集.

5. rppo: 提供从全球植物生物气候学数据门户网站获取数据的接口.

6. rtrek: 提供与星际迷航虚构世界相关的数据集、数据处理以及基于电视剧和其他相关许可媒体制作的真实世界数据集的访问接口.

7. skynet: 基于美国运输统计局(BTS)的公开数据,支持进行航空运输数据统计及其它分析.

三. 数据科学

1. AdaSampling: 实现了自适应采样过程,支持进行正向无标记学习和类标签噪声学习.

2. AROC: 提供函数用于估计调整协变量的接收器工作特性曲线(AROC)和合并的ROC曲线( 无调整 ) .

3. cloudml: 提供接口,支持在R环境中使用谷歌云机器学习平台.

4. reclin: 提供执行概率记录链接和重复数据删除的功能,包括生成对、比较记录、EM算法、强制一对一匹配等. 

5. vip: 根据Greenwell等人(2018)所描述的使用部分依赖图和个别条件期望曲线的方法,提供了从各种类型的机器学习模型中构造变量重要性图的一般框架.

6. wevid: 提供通过证据权重量化二元分类器性能的函数.

四. 经济学

1. trade: 提供处理贸易模型的工具,包括校准不同消费者需求系统和模拟不同竞争制度下关税和配额的影响的能力.

五. 科学

1. linpk: 提供函数和shiny应用程序,支持从线性药代动力学(PK)系统生成浓度 - 时间曲线,可以指定单剂量或多剂量.

2. ratematrix: 提供使用马尔可夫链蒙特卡罗(MCMC)估算进化速率矩阵的函数,详见Caetano和Harmon(2017)中所述.

3. spectralAnalysis: 提供光谱分析工具包,支持进行预处理、可视化和过程分析.

六. 统计学

1. betaboost: 使用与betareg Cribari-Neto和Zeileis(2010)相同的参数化方法,对潜在的高维数据Mayr等(2018)进行增强beta回归.

2. bfw: 提供使用马尔可夫链蒙特卡罗与JAGS采样器进行贝叶斯分析的框架.

3. CaseBasedReasoning: 根据一系列问题及其各自的解决方案,通过引用与新问题“最相似”的解决方案来解决新问题.

4. coxed: 提供了在Cox比例危险模型中生成、模拟和可视化预期持续时间和边际变化的函数.

5. GLMMadaptive: 利用自适应高斯求积规则,给出了在最大似然条件下拟合单个分组因子的广义线性混合模型的函数.

6. glmmfields: 实现具有鲁棒随机场的广义线性混合模型,应用于时空建模.

7. kendallRandomWalks: 提供模拟Kendall随机游动的函数,以及由Kendall广义卷积生成的连续空间马氏链.

8. netSEM: 提供结构方程建模的方法.

9. umap: 如McInnes和Healy(2018)所述,实现了用于降维的均匀流形近似和投影技术.

10. vimp: 提供函数,用于计算高维和低维非参数变量重要性度量的点估计和有效置信区间.

11. vsgoftest: 支持对包括均匀分布、高斯分布、指数分布等分布族实施Vasicek和Song拟合优度检验(基于Kullbach-Leibler散度).

七. 时间序列

1. anomaly: 实现了CAPA (Collective And Point Anomaly)算法,用于检测时间序列中的异常值,该算法详见Fisch, Eckley and Fearnhead (2018).

2. exuber: 使用Phillips等(2015)提出的递归单位根检验,提供函数以进行爆炸动力学在时间序列中的测试和年代测定.

八. 工具

1. BiocManager: 提供了一个工具,用于更新和安装Bioconductor包.

2. IntervalSurgeon: 提供操作整数限制区间的功能,包括查找重叠、合并等.

3. pkgbuild: 提供用于R包开发的函数,支持在各种平台上构建R包开发所需的编译器,并确保正确配置路径.

4. rqdatatable: 使用data.table实现rquery管道查询代数.

5. ssh: 提供通过SSH连接到远程服务器,并通过SCP传输文件,设置安全隧道或在主机上运行命令或脚本,同时将stdout和stderr直接传输到客户端的功能.

九. 可视化

1.mgcViz: mgcv包的扩展,为广义加性模型(GAM)提供可视化工具。同时利用GAM的加性结构,扩展到大型数据集.

2. tiler: 提供从地理空间地图文件和简单的非地理地图图像中,创建地理地图的功能.

说明:限于个人水平,错误之处难免,烦请批评指正,共同交流~

公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战  
回复 Python       1小时破冰入门

回复 数据挖掘     R语言入门及数据挖掘
回复 人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习      机器学习的商业应用
回复 数据科学      数据科学实战
回复 常用算法      常用数据挖掘算法

推荐 1
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册