房价和什么因素有关系?
我们收集到13个特征和目标房价PRICE,具体如下:
CRIM:城镇人均犯罪率
ZN:城镇超过25000平方英尺的住宅区域的占地比例
INDUS:城镇非零售用地占地比例
CHAS:是否靠近河边,1为靠近,0为远离
NOX:一氧化氮浓度
RM:每套房产的平均房间个数
AGE:在1940年之前就盖好,且业主自主的房子的比例
DIS:与波士顿市中心的距离
RAD:周边高速公路的便利性指数
TAX:每10000美元的财产税率
PTRATIO:小学老师的比例
B:城镇黑人的比例
LSTAT:社会地位较低的人口比例
PRICE:房价
作业要求:
1. 请在你写出的每行代码后给出你的注释,确保你真的搞懂了
2. 打开查看数据前五行和后五行,对数据有个初步认知
3. 探索数据的各字段类型(info)和各字段数据的描述性统计(describe)
4. 作出房价金额(PRICE)分布的直方图
5. 作出周边高速公路的便利性指数(RAD)的饼图
6. 作出一氧化氮浓度(NOX)的箱线图
7. 对类别变量虚拟变量化(dummy)并删除多余特征
8. 采用多元线性回归预测,给出最小二乘法的结果summary
9. 采用特征选择方法(特征选择部分的方法),选择部分特征作出新的预测
10. 采用AIC选择出合适的特征(前3名)
注意:可视化力求美观和图片元素完整(title/xlabel等)
作业结果写成博客,发布在天善智能博客中:
注册登录后打开页面:https://ask.hellobi.com/publish/article/
可以参考学习老师博客文章:https://www.hellobi.com/u/wangdawei/articles
另外前5名提交作业的送常国珍老师的签名书籍 《Python数据科学技术详解与商业实践》。