八大直播作业 - 第五讲作业

发表: 2018-06-16 浏览: 1078

八大直播作业

1. 基础知识问答：

1）做了一次营销活动，营销了1000人。事后统计结果，120人购买，其余人没有购买。请分别用矩估计法、极大拟然估计发计算这个随机事件分布的参数 (提示：该随机事件服从伯努利分布）

2）推导线性回归参数估计的最小二乘、矩估计、极大拟然估计，推导逻辑回归的极大拟然估计公式。线性回归和逻辑回归的极大拟然法哪个可以得到显性的公式解，哪个需要使用迭代法求解？解释极大拟然法求解过程中用到的牛顿迭代法、随机梯度法的做法。

3）解释统计学习算法中超参的概念，请问目前统计方法中学习的线性回归、逻辑回归中涉及超参了吗？岭回归和Laso算法中超参分别是什么？超参的作用是什么？统计学算法中如何确定最优超参的取值？

4）比较统计分析法和统计学习（即机器学习）得到最优模型的思路。

5）二分类模型中 (比如逻辑回归)的评估模型优劣的决策类和排序类评估指标分别包括哪些指标？

2. 练习题：

电信公司希望针对客户的信息预测其流失可能性，数据存放在“telecom_churn.csv”中

1）两变量分析：检验该用户通话时长是否呈现出上升态势(posTrend)对流失(churn) 是否有预测价值

2）首先将原始数据拆分为训练和测试数据集，使用训练数据集建立在网时长对流失的逻辑回归，使用测试数据集制作混淆矩阵（阈值为0.5），提供准

确性、召回率指标，提供ROC曲线和AUC。

3）使用向前逐步法从其它备选变量中选择变量，构建基于AIC的最优模型，绘制ROC曲线，同时检验模型的膨胀系数。

4）使用岭回归和Laso算法重建第三步中的模型，使用交叉验证法确定惩罚参数(C值)。并比较步骤四中Laso算法得到的模型和第三步得到的模型的差异

第三步得到：

模型中用到自变量：duration+AGE+peakMinAv+peakMinDiff+incomeCode+nrProm+call_10086+C(trend)+C(curPlan)+C(avgplan)+C(_planChange)

其中trend和_planChange为衍生变量，trend来自于posTrend和negTrend; _planChange来自于posPlanChange和negPlanChange

岭回归和Laso算法重建模型还未做，等老师公布答案

0 个评论

要回复文章请先登录或注册