作业内容: 一家婚恋网站公司希望根据已注册用户的历史相亲数据,建立新用户相亲成功可能性的预测模型,数据存放在“date_data2.csv”中
解答步骤:
1)使用决策树、神经网络建立相亲成功预测模型并通过调节超参数进行模型调优,比较两个模型的优劣。
2)对income,attractive,assets进行分箱(5分箱)处理,用分箱后的数据建模,并比较与1)步骤中模型的表现是否有差异
作业结果:似乎不分箱模型更好点
训练集和测试集按7:3分
1)
决策树所得模型AUC=0.9737 (criterion='gini', max_depth=3, min_samples_split=2),
神经网络AUC=0.9665 (hidden_layer_sizes=(5,5), activation='tanh', alpha=0.001),
决策树模型优于神经网络
2)分箱后:
决策树所得模型AUC=0.9067 (criterion='gini', max_depth=3, min_samples_split=2),
神经网络AUC=0.9402 (hidden_layer_sizes=(10,), activation='relu', alpha=0.001),
神经网络模型优于决策树