SPSS Modeler 18.0新功能权威解读(文末试用指南)

浏览: 2966

在今年,IBM SPSS Modeler发布了新版本18.0,那么在这次新版本的更新中,我们可以看到更新的幅度还是比较大的,接下来,浩彬老撕将给大家介绍18.0版本中一些新的功能,同时也将为大家详细介绍如果获得SPSS最新版本的试用方法!

Clipboard Image.png

这次Modeler 18.0版本的更新我们可以简单总结为如下三个方面:

Clipboard Image.png

(1)   支持的平台更加广泛

(2)   性能更加强大的大数据算法

(3)   在开源技术上更多的扩展和更强大的支持

 

总而言之,就是很好很强大!

 Clipboard Image.png

 

1.    支持的平台更加广泛(MAC / Windows 10)

相比于Modeler的兄弟产品,SPSS Statistics早在3年前的21.0版本已经开始支持Mac操作系统,而Modeler一直只能支持Windows操作系统,可谓愁死了广大的果粉了。很多果粉小伙伴为了能够在Mac上用上Modeler可谓是费苦心啊。

但是现在,Modeler的18.0版本也正式发布了Mac版本,从此与虚拟机“Say Byebye”,咱们终于也能够在Mac上直接使用了。

 Clipboard Image.png

当然除了支持Mac系统,也增加了对Windows 10的支持;

 

2.    性能/功能更加强大的大数据算法

2.1 所有算法都支持本地运行而不需要连接Analytics Server

在Modeler之前的版本中,为更好满足客户的需求,特意设计了部分支持分布式计算的算法,而这些算法的实现是需要Analytics Server(简称AS,大家可以把AS理解为SPSS Modeler与Hadoop的连接器)这一模块才能运行的,而现在这些新的算法都支持在本地client端运行。这些新算法包括:

 Clipboard Image.png


2.2 所有新算法都支持基于内存的分布式计算

毫无疑问,对于大规模数据集来说,使用多线程计算将能更好地利用我们的硬件资源,更重要的是能够节省我们的建模时间。在旧版本的SPSS Modeler版本中,只有部分的算法(CHAID,C&RT树,QUEST,线性模型,神经网络)能够支持多线程,并且只有在连接上Modeler Server中的时候,才能启用这项功能。

Clipboard Image.png

(以神经网络节点为例)


而在刚刚2.1提到的所有算法当中,现在都能支持多线程计算,并且直接在Modeler client端中即可启用多线程,而无需连接至服务器端。

 Clipboard Image.png


2.3 算法优化

(1)    线性SVM以及广义线性模型(AS算法)提供了正则化功能

我们知道过拟合是我们机器学习过程中常常面临的问题,为了避免模型过于复杂带来的问题,我们可以通过正则化对模型添加先验,使得模型的复杂度得到控制,从而减少噪声的扰动。因此在Modeler的18版本中,GLE以及LSVM都提供了正则化的功能:

Clipboard Image.png

 

(2) 树模型和LSVM模型提供了专门的数据准备功能

为了增强Tree-AS以及LSVM的能力,在Modeler的18版本当中,特意结合了数据准备功能在这两个节点中,具体能力包括:连续字段分箱处理,分类字段进行类别合并,时间戳进行字段转换,把缺失值自动视为新的类别(Tree-AS)等等

Clipboard Image.png


(3) 随机树节点新增功能选项

随机树节点,大家可以理解为随机森林,但因为随机森林最早被Leo Breiman和Adele Cutler提出后,就被注册成了商标,因此这里称之为随机树模型。该模型新增了两个功能选项:

Clipboard Image.png

(a)指定要用于拆分的最小预测变量数:如果是构建拆分模型,请设置要用于构建每个拆分的最小预测变量数。这防止拆分创建过小的子组。

(b)当准确性无法再提高时停止构建 要:改进模型构建时间,请选择此选项,以在结果的准确性无法提高时停止模型构建过程。

 

(4)   时间序列算法的增强

时间序列算法主要增强在两方面,一个是支持了多线程计算,二是增加了同时计算多个时间序列模型功能。

例如在旧版本中,当我们的原始数据是6个销售门店从2015年1月到2016年6月的销售额,那么我们只能通过编程或分别使用多个时间序列节点才能完成对6个销售门店时间序列的预测,但是在新版本中,我们则可以一次性构建多个模型,大大简化了建模的步骤。

 Clipboard Image.png

 


3. 在开源技术上更多的扩展和更强大的支持

3.1在开源工具上更好的扩展和支持

机器学习是一个充满生命力的技术领域,开源技术每天都会有长足的进步,为了能够保证能够在SPSS Modeler平台上使用到新的数据技术,Modeler在开源技术上一直有很好的支持。从15版本开始集成R语言,16版本开始集成Python,17版本集成Spark。而来到我们的18版本,SPSS Modeler在集成上再更进一步,以往在集成Python以及Spark上需要AS组件的支持,但是现在我们能够直接在Modeler的客户端上直接集成Python的能力,并且我们能够把相关的R语言代码/Python代码直接集成成为一个建模节点。

 Clipboard Image.png


3.2 全新的扩展中心

除了通过上述的方法,通过在Modeler中嵌入相关的R/Python代码定制相关节点外,IBM也开发了更多的功能在Github上,而现在我们可以直接在Modeler上下载应用相关的功能节点。

Clipboard Image.png

这些新的扩展空能包括了天气数据获取,GIS集成,地理空间应用等等,具体的数量已经从3月份24个功能到现在的35个功能。

 

在扩展中心获取这些功能后,会自动在Modeler的节点区域位置新增相应的功能节点,例如浩彬老撕之前安装了天气数据节点,那么就可以直接运用了。

Clipboard Image.png

关于如何在Modeler中使用天气数据的详细教程,可以参考如下文章:

https://ask.hellobi.com/blog/wetalkdata/3939

 

这些扩展功能的具体介绍,可以参考如下IBM DevelopWorks Centers网站:

http://ibmpredictiveanalytics.github.io

 Clipboard Image.png

 

最后,SPSS最近开通了专门的社区,所有的SPSS用户(包括Statistics,Modeler用户)都可以在上面查找资料,资料包括各种技术文档,应用扩展功能,SPSS+R的集成,SPSS+Python的集成。当然上面也非常欢迎大家进行各种的技术交流。


SPSS论坛:

https://developer.ibm.com/predictiveanalytics/forums/

Clipboard Image.png


IBM SPSS Predictive analytics 社区

https://developer.ibm.com/predictiveanalytics/

Clipboard Image.png


另外大家也可以直接在SPSS Modeler 18.0中直接点击帮助跳转到对应的论坛:

 Clipboard Image.png




SPSS最新版本的试用完整教程:

 Clipboard Image.png

 

首先登陆IBM官方网站:

http://www.ibm.com/analytics/us/en/technology/spss/spss-trials.html

 Clipboard Image.png


在网页上找到对应的SPSS产品, SPSS Modeler, SPSS Statistics… …

例如我们需要SPSS Modeler

 Clipboard Image.png


在提交页面,同意协议,选择提交

 Clipboard Image.png


选择对应的操作系统点击下载

Clipboard Image.png

下载完成后就可以开始安装了,是不是很简单!

 Clipboard Image.png


 

二维码4缩小.jpg

作者简介:浩彬老撕

好玩的IBM数据工程师,

立志做数据科学界的段子手,

致力知识分享,每月至少一次送书活动

推荐 4
本文由 浩彬老撕 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

3 个评论

好全,后续开 SPSS专区
赞!
分享了,谢谢,浩彬每一篇文章都好用心

要回复文章请先登录注册