【Friday BI Fly】2016年08月12日 IBM SPSS Modeler最强工具书文字版记录

浏览: 3282

公告

周五BI飞起来,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴,锁定在每周五晚20:30,不见不散!

未来几期的微信直播活动分享主题将包括谈谈BI在生产企业的应用、数据科学家应用 、数据挖掘经典案例赏析、人工智能、机器学习等,具体日期安排请关注天善智能问答社区活动版块https://www.hellobi.com/events

本期分享内容:

1、IBM SPSS Modeler最强工具书—Modeler基本介绍 

2、IBM SPSS Modeler最强工具书—数据挖掘方法论体系 

3、IBM SPSS Modeler最强工具书—Modeler实用小技巧

本期嘉宾介绍

浩彬老撕  

IBM认知计算事业部数据挖掘工程师,公众号:wetalkdata;

博客专栏 https://ask.hellobi.com/blog/wetalkdata

数据挖掘的SPSS之路(视频教程免费更新中)

https://edu.hellobi.com/course/86

主持人:大家都知道,一般数据分析师的职位要求中都会提到 熟练使用常见统计分析软件或语言,如spss、sas、R、python等,大家会哪几样呢,今晚就由IBM的浩彬老师,来带大家一起来学习下spss,IBM SPSS Modeler最强工具手由“浩彬老撕”出品,有请老师。

IBM SPSS Modeler最强工具书

大家好,我是浩彬老撕,是个我立志要做IBM最好玩的工程师,数据科学界的段子手的男人。

                                              

很高兴今天晚上跟大家分享一下SPSS Modeler的应用知识,这次分享主要是希望帮助大家构建一个利用SPSS Modeler进行数据挖掘的基本知识框架,涵盖的内容包括:(1)Modeler的基本使用介绍,(2)如何开展一个数据挖掘项目(数据挖掘应用方法论),(3)Modeler使用小技巧,并且结合场景也会谈谈个人的一些经验看法,欢迎大家后续多多交流。

实际上,数据科学这个命题是非常的大,说实话,咱们做项目也好或者只是学习一个技能,远大目标是要有,但是有一个切入点更为重要。虽说条条大道通罗马,但是要知道啊,大道也是有分普通模式和地狱模式啊。

所以接下来这点非常重要:

选择切入点的时候,我比较关注的是能不能尽可能地在早期降低学习门槛,激发起学习者的兴趣而且能够帮助大家快一点的找到手感,我认为是非常重要的。这有点类似于是心理学中,缩短学习反馈周期的原理,有兴趣的朋友可以自行了解一下。

实际上,很多时候,我们不能确定这是不是一个最好的开局,但是对普遍的学习者来看(尤其是跨界),从spss谈起,这肯定是一个不错开局,因为SPSS Modele确实是业界中既具备专业性,也具备易用性的强大工具。

易用性,是SPSS Modeler的最大优势,图形化操作界面,参数的友好封装,详尽的应用手册,这对于部分入门者来说是确实一个非常的大福音。

1SPSS Modeler 介绍

首先为大家简单概述一下SPSS Modeler:实际上SPSS的历史非常的久远,它是在1968年被创立的,是世界上最早的统计分析软件。来到2016年的话,IBM已经发布了统计分析模块的IBM SPSS Statistics 24.0版本以及数据挖掘模块的IBM SPSS Modeler 18.0版本。

据浩彬老撕在开发实验室的同事透露,2016年和2017年的更新是比较强悍的。在已知的18版本当中,比较大的更新已经有:

(1)支持了Mac操作系统;

(2)模型上更加广泛地支持分布式架构;

(3)时间序列算法和随机森林算法得到更好的支持;

(4)集成了与IBM Bluemix(IBM Paas)的集成,用户可以通过SPSS调用上百个应用服务;

(5)… …


其中第四点让SPSS的功能一下子变得异常的丰满,有兴趣的朋友可以多尝试,浩彬老撕和同事就试过里面集成了天气的服务和地图位置服务进行辅助分析了。所以浩彬老撕还蛮期待下一个版本出来之后SPSS的新面目。

关于在SPSS中集成天气数据,大家可以参考浩彬老撕天善博客的下面这篇文章:https://ask.hellobi.com/blog/wetalkdata/3939

如果大家希望下载最新版本的SPSS试用,可以通过如下的官网链接下载:

http://www.ibm.com/analytics/us/en/technology/spss/spss-trials.html

下载安装的步骤非常的简单,基本只需要点击下一步下一步即可,接下来,我们介绍一下SPSS的基本界面:


上面就是IBM SPSS Modeler的主界面,非常简洁的图形化操作界面。事实上,SPSS Modeler一直是希望能够尽可能屏蔽数据挖掘挖掘算法的复杂性以及操作的繁琐,希望让使用者尽可能地聚焦于如何选择数据挖掘技术去解决当前的商业问题。

如上图,我们可以看到整个假面可以分为4个区域:(1)数据流构建区(2)数据流、结果和模型管理区(3)数据挖掘项目管理区(4)节点区


数据流构建区是分析人员的主要工作区域,如上图展示了一个简单的工作流,我们通过构建一个个工作流帮助我们完成数据探索,数据清洗以及数据建模等工作。工作流在Modeler中,我们称之为stream,因此我们也可以看到moderl保存的文件也是以.str结尾的。从上面的工作流中,我们可以看到有5个节点,以及节点之间的连接构成。

这些工作节点可以由下方节点区拖拽到数据流区。实际上,我们可以看到一次数据挖掘过程(或者说构建一个工作流),就是由分析人员通过拖动一个一个节点,完成的一系列过程。



如果说上面的数据流构建区是咱们分析师的工作室,那么节点区就是为我们构建数据流的弹药室了。我们知道数据流是由一系列节点连接而成,而所有这些节点都来源于下方的这个节点区。


(1)源节点:属于起始节点。源节点包含了各类型数据源接入的方式,例如数据库节点可以帮助我们直接读取数据库里面的数据文件,Excel节点则可以帮助我们读取excel文件等;

(2)记录选项:属于中中间节点。该节节点提供了对数据宽表进行记录层面(即对数据从行的角度)的处理,例如我们拥有包含100个男女学生成绩记录的数据,选择节点可以帮助我们从100个包含记录当中选择当中的男性记录;

(3)字段选择:属于中中间节点。该节节点提供了对数据宽表进行字段(也称变量,属性)层面(即对数据从列的角度)的处理,例如我们拥有包含100个男女学生成绩记录的数据,过滤节点可以帮助我们过滤掉语文成绩以及英语成绩,只保留数学成绩;


(4)建模节点:建模节点属于终端节点。各位可能觉得奇怪,建模并不是数据挖掘的结束,为什么属于终端节点?实际上,Modeler的建模节点为我们提供数据挖掘模型的参数调整,待该节点运行后会生成一个金黄色的“模型节点”,而该节点就属于中间节点,可以供我们后续调用了。Modeler建模节点分为4个部分分类节点;关联节点;细分(即聚类);自动;

值得注意的是自动节点能够批量选择算法自动运行,例如选择自动分类器,我们就可以一次选多个分类算法(如一次性运行knn,C5.0,神经网络),并各自设置参数,运行后,该节点将自动选择报告最优模型,非常的方便。


(5)图形节点:属于终端节点。图形选项卡下为我们提供了多种的图形功能,让我们可以很简单地通过图形展示的方式进行数据探索,结果展示乃至于结果评估;

(6)输出节点:属于终端节点。输出选项卡下为我们提供了多种的数据以及结果的展示能力,如表格,矩阵,交叉表,统计结果等,可以帮助我借助统计分析来进行适当的数据探索以及结果评估;

(7)导出节点:属于终端节点。提供与源节点帮助我们读取数据相反的能力,帮助我们把数据结果导出到各种格式的文件进行保存,如写回数据库,如导出为excel文件;值得注意的是,输出节点用不同方式在modeler上展示结果,而导出节点则是导出数据结果为文件进行保存。

(8)Statistics节点:属于终端节点。正如咱们所有,作为spss曾经的两大支柱产品之一的Statistics,我们可以在modeler的statistics选项下的各种节点很方便地调用statistics的功能了。

另外,细心的读者可能也发现了在节点区我们还有一个收藏夹选项卡,该选项卡下,咱们可以把常用的功能节点放进去,方便日常使用。


在主界面的右上方有一个对建模过程的管理区,该管理区下分为3个选项卡:

(1)流:流管理区,有些情况下,我们通常会同时构建/编辑多个模型流,这样的情况下,在流管理区中,我们就可以非常轻松地对多个流进行切换;

(2)输出:在上文我们知道节点区有一个输出选项卡以及图形选项卡,通过输出/图形选项卡我们可以输出多种结果。因此在一次建模过程当中,我们可能会产生多种结果,那么通过输出选项卡,我们可以对每个选择结果进行编辑命名,随意切换,甚至把特定的结果保存为文件供下次查看;

(3)模型:在该选项卡下,modeler所建立的所有模型都将出现在这里,我们可以通过该选项卡随时查看生产的模型,甚至把模型结果单独保存。


在主界面的右下方就是我们的数据挖掘项目管理区,实际上我们说,“数据挖掘会是一个持续性的项目过程,尤其是在商业数据挖掘当中。”

下面这张图是我对Modeler产品特性的总结,供大家参考。值得一提的是,易用性以及强大的帮助功能,是我认为Modeler最突出的优势。


好,接下来,我们呼应一下第一节的项目管理区的内容,我们说“数据挖掘会是一个持续性的项目过程,尤其是在商业数据挖掘当中。”

2SPSS Modeler的数据挖掘方法论体系

所以我们一个数据挖掘项目是可以划分为多个阶段的,而在SPSS Modeler当中,它所采用的是CRISP-DM方法论体系,(CRoss IndustryStandard Process- for Data Mining,跨行业数据挖掘标准流程),其中一共分为6个步骤:商业理解,数据理解,数据准备,建模,评估,发布。

这里面的阶段设置就是按照CRISP-DM方法论进行划分的,因此可能在商业理解过程中我们特意构建一个数据流,在数据准备过程中,我们可能构建了两个数据流。而通过这个项目管理区,我们就可以很方便把相应的内容(无论是str文件,结果,模型乃至于word文档都可以归纳进来)对号入座,在每次开展或者继续项目的时候就可以很容易进行查看操作,非常方便我们分析人员进行管理。

好了,第一部分介绍完毕,咱们接下来承接上面的项目管理区,详细谈谈刚刚聊到CRISP-DM方法论。


一个典型数据挖掘项目不但周期长,常常会跨数据源,甚至跨部协助进行,稍不留神就会陷入复杂的数据迷宫当中,因此在为了能够在整个项目阶段能够保持研究重点,能够持续跟踪,一个有效的数据挖掘方法论(明确的流程模型)是非常有必要的。

这不仅仅体现在商业项目当中,浩彬老撕当年在写论文的时候,由于没有明确的路线图(整个过程当中牵涉到反复的数据处理以及模型优化),导致浪费了大量的时间在问题定义、阶段进展、优化方向上,真是一个血的教训。


为了使得整个数据挖掘过程更加标准化,也就催生出很多指数数据挖掘过程的方法论,其中比较经典的是CRISP-DMCRoss IndustryStandard Process- for Data Mining,跨行业数据挖掘标准流程),其中一共分为6个步骤:商业理解,数据理解,数据准备,建模,评估,发布。 

补充一点,利用指导方法论,我们是为了尽可能地让流程标准化,同时可以基于各个步骤划分不同工作小组的内容,便于更好的合作,但不是为了造成过分的约束,实际上,在我经历的项目中,由于项目的要求和人员投入的约束,具体分工会有一定的出入,但是一套标准的流程是非常有必要的。

接下来,我举一个电信行业应用的例子也会穿插一些其他行业的介绍:


1.商业理解


这可能是整个数据挖掘过程的最重要阶段,例如在研究电信客户流失的案例中,我们首先就需要理解:预测哪些客户会发生流失?更进一步我们可能需要知道,哪些是影响客户流失的重要因素?

同时,我们需要把商业问题转化为技术问题:如何定义流失?是销户为标志还是选择多个月欠费为标志?另外是否需要定义濒临流失阶段(如多个月没有发生通话/只维持基本套餐费用)?

进一步地在资源(人力,物力,时间)限制的情况下,我们需要进一步界定:哪些高价值的客户在流失?如果对流失的客户(或部分客户)进行挽留,投入是多少?收益是多少?

在第一阶段一定要多问多想“为什么”?

最后必须强调,一个在参与项目或者项目汇报经常忽略的问题,模型的结果并不是我们项目的最终结果,我们要先把商业问题转化为数学问题,但是最后我们得把数学结果转变为商业结果,这才是在商业数据挖掘应用中的重中之重。

再举个最近遇到的例子,咱们有时候会做一些零售的项目,零售企业会告诉我们他们要做商品的关联分析。但是客户要的真的是关联分析的支持度和置信度吗?

远远不止,简单地说,他可能需要我们进一步回答,在关联商品当中,哪些是同品类的关联(超市的盐和糖,一般咱们直觉都能猜到,这其实不太重要),哪些是同楼层跨品类关联(例如我们发现汽水和干货,因为该超市楼上是电影院),跨品类关联(黄金和茶叶,送礼人群),最后,利用这些关联,它可以怎么指导业务?捆绑促销?货架摆放建议?招商谈判等等

2.数据理解

数据提供了数据挖掘的原材料。该阶段需要理解您的数据资源是什么,以及这些资源有何特征。

首先我们需要与业务部门以及数据管理员确定:(1)哪些数据可以用来预测客户流失?(2)哪些数据是已经在咱们的系统当中?(3)是否有一些重要的影响因素还没记录或者需要一定代价才能获取?

在确定好分析的数据源后,我们还需要确定这些数据当中每个指标的业务含义是?例如“高峰时期电话数”这个指标,设置这个指标的业务根据是?高峰时期的定义是?这个指标是按天统计,按周统计还是按月统计?

最后,我们还需要对数据进行一定的探索性分析,简单的如指标极值,中位数,数据的图形分布情况,缺失值情况等等;

同时也可以辅助做一些统计分析,如相关系数,t检验,卡方检验。并且把这些探索结果并与业务部门确认是否与业务一致。

另外值得注意的是,当数据分布与业务认知存在一定冲突的时候,也不一定是数据质量存在问题,相反应该细心求证出现偏差的原因,这些不一致的情况往往代表了一个好的切入点

例如我们在一个客户的项目当中也曾遇到过下面某地市门店他们存在大量深夜交易(晚上11点,最后我们就发现,这是因为店长习惯晚上下班后一次性对交易进行录入);也遇到过会员系统当中存在会员积分比起平均积分要高几十倍的会员(最后发现是店员把非会员的购买都算到自己偷开的会员卡中)。;另外我们也遇到了一些购买数量特别高的人群,最后我们单独把这类人群单独拿出来分析;

3.数据准备


在对数据进行充分理解的基础上,我们就要生成能够满足数据挖掘需要的数据宽表。

在此阶段,我们需要集中精力在数据准备上,往往一个项目超过60%的时间都放在数据理解和数据清洗上面。

我经常和项目成员说,一个项目里面60%时间都是用于数据准备上面,你以为剩下的40%是建模分析?其实10%才是建模分析,剩下的30%都是用来吐槽数据质量问题的。

值得注意的是这是一个需要不断调整优化的过程,举个例子有可能原始的变量个数有50个;通过我们对变量的转换和衍生,生成了100个变量;最后通过对业务的理解,模型的测试,从100个变量当中选择新的50个变量进行分析;

接下来介绍一些咱们常用数据转换方式:

1、单变量自身转换:



(1)连续变量转为为连续变量:如出于计量和比较进行转换,如转换单位:通话小时数->通话分钟数的;出于对数据分布修订的转换,如:对数据对数转换;为了使不同量纲或者不同数量级的数据能够很好地进行对比,对数据标准化(原始值-平均值)/标准差,一般在聚类的时候,对数据先进行标准化也是一种必要手段;

(2)连续变量转换为离散变量:一般这种转换会损失一定的信息,但是出于业务更好理解的考虑或者算法的需要,采取的措施一般是利用分箱处理,一般可以选择等距离分箱或者等数量分箱,也有利用分布进行分箱的;

(3)离散变量转换为连续变量:这种方式我比较少用,一般只是一些有序的分类变量转换为1,2,3,4;

(4)离散变量转换为离散变量:一般用于一个变量当中包含有多个类别,我们对变量采取合并,例如运营商信息的省份字段,我们可以把省份归纳为东部,西部,南部等,也可以按照经济水平进行区分。

2、变量之间的衍生


(1)汇总型指标:这个大家比较常见,例如我们统计一个客户在过去一年当中的消费/通话行为,例如计算一年内通话时长的总和,平均值,最大值,最小值,1/4分位数,3/4分位数,标准差,通过这些指标,我们希望整体判断通话状况;值得注意的是,这里面的指标我们一般只会选择少量假如模型,因为这些指标间本身也有比较强的相关关系;

(2)强度相对指标:简单的如平均通话时长,就是用总的通话时间/通话次数所得,我们希望用这个指标侧面了解每个客户的通话习惯;

(3)比例相对指标:就是直接反映总体总各部分的比例关系,这在客户行为研究用得特别的多,例如我们分析一个客户在闲时的通话时长占总体的比例,在周末通话时长占总体的比例等等,一般这种指标用于区分客户群体比较有用;

(4)时间对比指标:一般如果我们的原始数据包含几年的数据记录,我们就可以同比(16年5月通话时长/15年5月通话时长)或者环比(16年5月对于16年4月),这种指标在专门的时序分析中用得比较多,相对而言在其他方面比较少,一般我们更喜欢用趋势型指标代替时间对比指标;

(5)趋势型指标:在客户研究当中,尤其是研究客户价值/客户生命周期这两个主题当中,趋势类指标特别重要,例如我们希望了解每个客户的通话时长/交易金额从历史到现在,是一个向上的趋势,还是一个向下的趋势。

这种指标非常有助于我们判断客户的生命周期价值实在提升还是存在潜在的流失可能,因为会借助回归分析方法(月份为自变量,每月通话时长/话费为因变量),最后得回归系数作为该指标。

当然,这样的回归分析很有可能违反回归的前提条件,但是我们发觉这种指标在实际应用层面有很大的帮助。

(6)波动指标:另外除了研究变化趋势,我们也可以研究数据的波动情况,一般我们可以用标准差或变异系数来反映;

4.建立模型


回到刚刚的电信客户流失分析中。在模型的选择上,我们一般可以从业务思路,模型准确性以及应用方式考虑。

(1)    业务思路:针对客户流失例子一个直观的想法:因为我们的目标变量是否流失属于分类字段,因此我们可以通过分类算法把流失客户以及留存客户进行划分;进一步地,我们还希望了解客户的流失特征或者流失路径,我们也就选择了分类算法中的决策树C5.0进行建模。

当然,咱们也可以尝试通过聚类算法将整体客户群组进行市场细分(例如k-means),尝试能否得出具有高流失可能性的群组,不过该方法一般我们都用作补充研究。

(2)    模型准确性:针对同样的问题甚至同类型的场景,现在往往有多种算法都能够实现。具体到不同的应用场景,不同模型结果的准确性往往存在较大差异,因此我们应该结合数据特征,算法优势,针对性地选择合适的建模技术,一个数据挖掘项目往往需要通过多次尝试,才能选择出适合的算法;

例如有人喜欢SVM,因为有着稳定的准确率,而且也有着优美的公式。有人喜欢Logistic,因为它的关系的刻画特别的清楚;有人喜欢决策树,模型能够非常简洁,容易解释并且往往准确率也不错;

当然我也很喜欢随机森林,有句话怎么说,你还真的很难建立一个非常糟糕的随机森林模型;

(3)    应用方式:正如前文所说,数据挖掘任务一般分为预测任务和控制任务。在有的时候,我们可能希望用神经网络模型,尽管它更像一个黑盒子,预测结构难以解释,但是预测效果一般比较精确;而在有的时候,我们可能希望使用决策树模型,因为它它以规则的方式来展现结果,非常易于分析人员进行解读。

这里再谈一点体会,在我们帮助一些企业做项目的时候,尽管他们会强调自己的想要做预测,但实际上他们对“可理解性“的要求是非常的高,这在一些非科技互联网类的企业中尤其明显,他们希望深入理解关系式背后的业务逻辑,同时希望能够借助数据关系帮助他们进一步优化改善业务体系,例如在传统的信用风险评估当中,Logistic就应用得非常的广泛。

还有一点是,尽管在大部分实验室/大数据项目测试中,黑箱子模型的准确率普遍更高,实际商业项目当中的结果可能也是如此,但是结果普遍不会差得十分的明显。

5.模型评价


通过一系列的数据挖掘工作,咱们现在已经得到一个精确率较高并且有一定业务解释能力的模型(一个决策树C5.0模型)

从技术上,我们可以通过一系列的模型评估手段,如:指标法(测试集模型精确率,命中率,查全率等)以及图形法(增益图、提升图)进行技术评估;

进一步地从业务上,我们可以导出规则特征以及流失名单与业务人员进行分析探讨,验证模型可靠性;

另外,在此阶段,我们也应该重新回顾整个数据挖掘过程,确保中途没有出现技术偏差;


6.结果部署



先回到例子中,谈基本的问题:经过前面一系列的努力,我们已经得到一个经过初步验证认为有效的数据挖掘模型,我们要开始设计策略进行模型应用及预演,可能包括的手段会有:

1.生成客户流失名单,并结合市场细分以及业务经验,选择重点关注客户;

2.选择并识别当中的流失比例最高的规则以及高价值客户的流失规则,针对该规则设计针对性的改善措施以及营销措施;

3.根据分析结果以及挽留成本设计具体计划,并计算预期收益;

4.设计监测和模型维护计划,用于后续模型优化。

实际项目中,虽说咱们这是最后一步,但其实对于企业来说,只是完成了一半,而结果部署将是剩下来的另外一半。

首先把最后的分析结果与业务人员(或其他主导部门)进行沟通并取得一致将是第一个难点,所以在前面模型选择那部分,很多时候咱们选择可解释性强模型的原因。

更进一步,取得一致后,怎么落实商业策略并监控是需要投入人力和财力成本的,所以往往一个好的分析项目也常常需要配套好的业务策略,实际上,很多项目往往会在这方面出现问题。

举个例子:例如某快消企业的分析部门通过研究测试,发现该公司旗下某个系列产品的定位存在一定的偏差,建议从研发和广告投入上需要重新定位,并且出了一份详细的调研及分析报告并附上建议。但是很多情况下,这些建议最终只会被业务部门采纳10%,甚至不到。

在实际当中,分析团队与业务部门保持良好的沟通和充分的信任,是非常非常重要的一件事情。

在真正的数据挖掘应用中,我们还会遇到很多的问题,例如数据不平衡,例如变量选择等等,由于时间的关系,这里不能一一而足。如果要我谈其中的核心,我会说的是,我们需要尽可能站在更高的角度,更有体系化的考虑问题。

3SPSS Modeler应用技巧 


以上只是简单对SPSS CRISP-DM方法论的一个应用描述,最后我们还是回到SPSS当中,对于正准备开始利用SPSS Modeler进行分析的读者提供一些应用技巧,主要包括:

(1)    告别混乱,使用超节点优化布局

(2)    告别懵逼,使用注释方便共享

(3)    和重复劳动say“Goobdbye”,使用缓存提升效率

(4)    性能才是王道,提升Modeler的使用内存

(5)    无数次拯救水深火热之中,神一般的备份功能

(1)告别混乱,使用超节点优化布局



一个数据流中往往包含有很多的节点,上图展示的就是一个流失分析数据挖掘项目当中的“数据处理流”,这时候我们可以看到大量的节点分布在整个版面上显得比较凌乱,而且大量的节点也不容易让我们能够很快分辨出每个节点的用途。

这个时候,我们就可以使用超节点帮助我们简化。



经过超节点的封装,这个数据流变得更加简洁清晰了。一般来说,我们会把实现功能大概一致的节点进行封装,如我们使用10个导出节点针对10个变量进行新的字段计算。

(2)     告别懵逼,使用注释方便共享



即使使用超节点将整个数据流变得更加直观与清晰,但是太多的的节点承担大量不同的工作,往往事后,即使建模工程师也需要大量时间才能回顾整个建模逻辑。


(3)     和重复劳动say“Goobdbye”,使用缓存提升效率(重要技能点!)



在构建一个数据流的时候,由于需要加入很多的节点,并且需要不断地进行测试验证重复运行。在有的时候,可能我们只是简单修改一个变量的名字,但是整个模型又要从开始的数据源节点开始运行的话将会耗费大量的时间。


在但是当我们在某节点启用缓存后,Modeler会把到该节点为止的结果保留在内存中,那以后再执行数据流后将直接从该节点之后开始执行,大大提升效率!


值得注意的是,当位于缓存节点之前的节点发生改变或者关闭Modeler后,缓存也会消失。如果你想在关闭以后继续使用,可以在右键菜单中选择“缓存”-“保存缓存”,Modeler会生成文件保存在指定位置上,那么你下次使用的时候,只需要在同样的节点中,右键菜单,选择“缓存”-“加载缓存”即可以继续使用。

(4)     性能才是王道,提升Modeler的使用内存




(5)     无数次拯救水深火热之中,神一般的备份功能(重要技能点!)



由于数据建模的工作需要不断的迭代,很多时候我们往往顺手就把模型给改了,但是过了一段时间发现新模型竟然比旧版本的模型要差,恰好这个时候我们竟然又发现旧版本没有保存。这一次又得重新回忆,重新构建了,又是一个“事故”。

但如果你是使用SPSS的话,可能就命不该绝了~使用IBM SPSS Modeler的同学可能疑惑,对已有的数据流进行保存后,在同样的目录路径会生成一个名称一样,但是后缀名是.srt-的文件,这个文件是干什么的呢?

其实这个文件是我们Modeler帮我们自动备份的文件。


重新修改.str-的后缀名,更改为.str即可使用上一个版本的文件了。


好了,本次分享主要就是这些。浩彬老撕最近在把一些数据挖掘算法知识以及SPSS Modeler的使用说明这些内容进行重新整理撰写,到时候会在我的新书里和大家见面。

有任何问题,欢迎大家给我留言:

天善博客地址:https://ask.hellobi.com/people/blogs/浩彬老撕

数据科学公众号:wetalkdata


主持人:好的,感谢浩彬老撕给大家带来的精彩分享,老师今晚给大家分享的内容很多,从工具的安装,到案例讲解数据挖掘的流程、体系、方法论,以及IBM SPSS Modeler在使用过程中的一些小技巧,现在就要进入自由提问时间了,对今晚分享内容有疑问或日常工作中遇到的问题,都可以把问题抛出来了,让浩彬老撕来帮助你!


自由讨论


问题1:来自社区的提问 1、请教老师用SPSS对MR=exp(-kt)进行模型验证,如何确定K值 ?

浩彬:不太确认问题的意思。是指:MR是因变量,t是自变量,并确认了形式是MR=exp(-kt),然后怎么确认k?如果是上述理解的话,你可以把MR取对数,然后对ln(MR)以及t建立回归方程,确认系数后,再反过来求k即可。

问题2:来自27群的提问 :如何利用spss modeler进行累加操作? 例如某列数据为1-2-3-4-5-6,如何借助spss modeler操作变为1-3-6-10-15-21?

浩彬:可以使用导出节点的计数功能,具体操作见下图


问题3:弱弱的问下,我不懂SPSS,但是想问,开发模型的时候,有没有版本控制工具?

浩彬:@郑大鹏 如果只是Modeler的客户端的话,没有专门的版本控制工具。如果是企业级部署,SPSS有一个准们的管理工具,SPSS C&DS,这个工具有版本控制,权限管理,模型管理,批量操作,自动化运行等功能。

问题4:重新修改.str-的后缀名,更改为.str即可使用上一个版本的文件了。怎么理解?26群提问

高阔:本来是.str后缀

浩彬:@高阔 直接重命名文件,例如某个备份文件:原本是流失分析.str-,改成流失分析.str

问题5:新版SPSS会自动帮忙选择算法?

浩彬:@Irish Coffee 有自动节点。自动聚类,自动分类,自动数值。在自动节点里,勾选需要比较的算法,可以帮助我们自动选择最优

Irish Coffee:勾选的算法,需要自己输入参数吗,比如选择了kmeans,k会自动确定吗

浩彬:@Irish Coffee 参数可以自己指定,并且支持指定多种不能的参数组合,就是说一个算法,可能制定了10个不同的参数组合也是可以的。不指定的话,单个都按默认参数执行。

Irish Coffee:明白了,就是输入一个范围值,比如k指定3-9,模型就会自动选择最佳k值,对吧?

浩彬:@Irish Coffee 是的。

Irish Coffee:谢谢老师

问题6:老师,这个里面的读取数据,这些功能怎么用起来呢? 来自12群提问

柠檬味的香草:

浩彬:@柠檬味的香草 这其实是Modeler在读取数据时候对缺失值的处理。当识别为缺失值的时候,我们采取的措施分别有:无,定义为无效值,把该值丢弃,等等

柠檬味的香草:缺失值,摸索半天不会用,这几个功能不太会用


数据质量分析,我理解应该是“数据审核”节点做的事情。

浩彬:@柠檬味的香草 数据审核节点直接显示的话,更多是回答我们数据质量问题。如果要有进一步操作的话,可以在菜单栏找到对应的导出节点进行批量操作。

浩彬 :@柠檬味的香草 数据质量分析应该说很大一部分我们通过了数据审核节点达到了,但是还有一些操作,我们是通过图形节点探索出来的。

柠檬味的香草:是说这个地方吗?


浩彬:@柠檬味的香草 是的。另外我们也可以在数据源节点和类型节点直接进行对缺失值的识别和处理。

柠檬味的香草:能否简单举个栗子,通过“数据审核”我发现了极值,缺失值,我想填充,或者剔除。

浩彬:IBM SPSS Modeler最强工具书(5)——一键生成数据探索报告 : https://ask.hellobi.com/blog/wetalkdata/4072,这个问题比较难一句话解决,我之前总结了一下,可以去看下这篇文章。

问题7:这个 spss modeler就是平时所说的spss么?经常听别人说会spss。

浩彬:@明日世界 SPSS几大产品,(1)SPSS Statistics,用于统计分析,统计类,社科类,经济学类聊起来spss,大部分指的是这个;(2)SPSS Modeler,用于数据挖掘,计算机类,机器学习的大部分用的是这个;(3)SMA 社交媒体分析;(4)C&DS 开发管理工具。


问题8:另外关于异常值和缺失值的处理,新版SPSS有哪些惊喜改变吗?

浩彬 21:44
@Irish Coffee 18版本我看到,暂时这方面更新比较少。18,我个人感觉人更集中在算法上,以及集成性上。

问题9:以前我也用过这个软件,但是感觉现在用这个的比较少,请问这个在企业的应用前景怎么样?

浩彬:@明日世界 其实就像我开篇说的,工具不重要。就我个人来说~我看到的大部分公司(数据方面应用比较多的),下面的挖掘人员使SPSS,SAS,R,Python都是有使用,倒是最后上生产的时候会有专门的部署。spss最大优势在于保持专业性的同时兼顾了易用性,不过坦白说,缺点是缺乏了一定的灵活,所以我一般是SPSS+R。 


主持人:感谢老师耐心细致的回答,由于时间关系,咱们今天的活动要接近尾声了,大家还有疑问的,直接提问到https://ask.hellobi.com/question,老师会在社区上面给予回答。

除了今晚的分享内容,老师还为大家准备了免费的课程:数据挖掘的SPSS之路(视频教程免费更新中)https://edu.hellobi.com/course/86大家都可以来学习。

下期预告:

2016年08月12日晚8点半微信直播IBM SPSS Modeler最强工具书第28场https://www.hellobi.com/event/74



今天的微信直播活动到这里就结束了,喜欢天善智能的朋友们请继续关注我们,每周五晚8:30,我们不见不散哦!


每周 Friday BI Fly 微信直播参加方式,加个人微信:fridaybifly,并发送微信:公司+行业+姓名,即可参加天善智能微信直播活动。

点击左下角“阅读原文”有更多干货分享!

天善智能 www.hellobi.com 是一个专注于商业智能BI、数据分析、数据挖掘和大数据技术的垂直社区平台。


问答社区和在线学院是国内最大的商业智能BI 和大数据领域的技术社区和在线学习平台,技术版块与在线课程已经覆盖 商业智能、数据分析、数据挖掘、大数据、数据仓库、Microsoft BI、Oracle BIEE、IBM Cognos、SAP BO、Kettle、Informatica、DataStage、Halo BI、QlikView、Tableau、Hadoop 等国外主流产品和技术。


线上活动:Friday BI Fly 每周五晚 20:30,技术和行业交流,30余个微信直播群互动交流。


线下活动:Saturday BI Fly 在全国各大城市巡回举办200人-500人规模的大数据沙龙交流活动,每月1-2次。


天善智能积极地推动国产商业智能 BI 和大数据产品与技术在国内的普及与发展



推荐 3
本文由 天善智能 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

感谢每个周五都有的分享,谢谢

要回复文章请先登录注册