1. 基础知识问答:
1)做了一次营销活动,营销了1000人。事后统计结果,120人购买,其余人没有购买。请分别用矩估计法、极大拟然估计发计算这个随机事件分布的参数 (提示:该随机事件服从伯努利分布)
2)推导线性回归参数估计的最小二乘、矩估计、极大拟然估计,推导逻辑回归的极大拟然估计公式。线性回归和逻辑回归的极大拟然法哪个可以得到显性的公式解,哪个需要使用迭代法求解?解释极大拟然法求解过程中用到的牛顿迭代法、随机梯度法的做法。
3)解释统计学习算法中超参的概念,请问目前统计方法中学习的线性回归、逻辑回归中涉及超参了吗?岭回归和Laso算法中超参分别是什么?超参的作用是什么?统计学算法中如何确定最优超参的取值?
4)比较统计分析法和统计学习(即机器学习)得到最优模型的思路。
5)二分类模型中 (比如逻辑回归)的评估模型优劣的决策类和排序类评估指标分别包括哪些指标?
2. 练习题:
电信公司希望针对客户的信息预测其流失可能性,数据存放在“telecom_churn.csv”中
1)两变量分析:检验该用户通话时长是否呈现出上升态势(posTrend)对流失(churn) 是否有预测价值
2)首先将原始数据拆分为训练和测试数据集,使用训练数据集建立在网时长对流失的逻辑回归,使用测试数据集制作混淆矩阵(阈值为0.5),提供准
确性、召回率指标,提供ROC曲线和AUC。
3)使用向前逐步法从其它备选变量中选择变量,构建基于AIC的最优模型,绘制ROC曲线,同时检验模型的膨胀系数。
4)使用岭回归和Laso算法重建第三步中的模型,使用交叉验证法确定惩罚参数(C值)。并比较步骤四中Laso算法得到的模型和第三步得到的模型的差异
第三步得到:
模型中用到自变量:duration+AGE+peakMinAv+peakMinDiff+incomeCode+nrProm+call_10086+C(trend)+C(curPlan)+C(avgplan)+C(_planChange)
其中trend和_planChange为衍生变量,trend来自于posTrend和negTrend; _planChange来自于posPlanChange和negPlanChange
岭回归和Laso算法重建模型还未做, 等老师公布答案