八大直播作业 - 第五讲作业

浏览: 1078

1. 基础知识问答:

1)做了一次营销活动,营销了1000人。事后统计结果,120人购买,其余人没有购买。请分别用矩估计法、极大拟然估计发计算这个随机事件分布的参数 (提示:该随机事件服从伯努利分布)

2)推导线性回归参数估计的最小二乘、矩估计、极大拟然估计,推导逻辑回归的极大拟然估计公式。线性回归和逻辑回归的极大拟然法哪个可以得到显性的公式解,哪个需要使用迭代法求解?解释极大拟然法求解过程中用到的牛顿迭代法、随机梯度法的做法。

3)解释统计学习算法中超参的概念,请问目前统计方法中学习的线性回归、逻辑回归中涉及超参了吗?岭回归和Laso算法中超参分别是什么?超参的作用是什么?统计学算法中如何确定最优超参的取值?

4)比较统计分析法和统计学习(即机器学习)得到最优模型的思路。

5)二分类模型中 (比如逻辑回归)的评估模型优劣的决策类和排序类评估指标分别包括哪些指标?

2. 练习题:

电信公司希望针对客户的信息预测其流失可能性,数据存放在“telecom_churn.csv”中


1)两变量分析:检验该用户通话时长是否呈现出上升态势(posTrend)对流失(churn) 是否有预测价值

2)首先将原始数据拆分为训练和测试数据集,使用训练数据集建立在网时长对流失的逻辑回归,使用测试数据集制作混淆矩阵(阈值为0.5),提供准

确性、召回率指标,提供ROC曲线和AUC。

3)使用向前逐步法从其它备选变量中选择变量,构建基于AIC的最优模型,绘制ROC曲线,同时检验模型的膨胀系数。

4)使用岭回归和Laso算法重建第三步中的模型,使用交叉验证法确定惩罚参数(C值)。并比较步骤四中Laso算法得到的模型和第三步得到的模型的差异


第三步得到:

模型中用到自变量:duration+AGE+peakMinAv+peakMinDiff+incomeCode+nrProm+call_10086+C(trend)+C(curPlan)+C(avgplan)+C(_planChange)

其中trend和_planChange为衍生变量,trend来自于posTrend和negTrend; _planChange来自于posPlanChange和negPlanChange

岭回归和Laso算法重建模型还未做, 等老师公布答案

推荐 0
本文由 oceanji 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册