作业内容:
研究二手房价的影响因素,建立房价预测模型,数据存放在“sndHsPr.csv”中。
分析思路:
在对房价的影响因素进行模型研究之前,首先对各变量进行描述性分析,以初步判断房价的影响因素,进而建立房价预测模型
步骤如下:
(一) 因变量分析:单位面积房价分析
(二) 自变量分析:
2.1 自变量自身分布分析
2.2 自变量对因变量影响分析
(三)建立房价预测模型
3.1 线性回归模型
3.2 对因变量取对数的线性模型
3.3 考虑交互项的对数线性
(四)预测: 假设有一家三口,父母为了能让孩子在东城区上学,想买一套邻近地铁的两居室,面积是70平方米,中层楼层,那么房价大约是多少呢?
作业心得:
1. 从眼睛看的对因变量和自变量做分析:
price本身基本符合正太分布
从盒须图看出自变量dist, school, subway和price是相关的, 而roomnum, halls, floor和price的关系不明显
从散点图看出AREA和price好像也没有什么关系
2. 用方差分析对变量关系做分析, 好像也是dist, subway, school对price的影响比较明显:
df sum_sq mean_sq F PR(>F)
C(dist) 5.0 4.215655e+12 8.431310e+11 4149.243787 0.000000e+00
C(roomnum) 4.0 4.471444e+08 1.117861e+08 0.550125 6.989399e-01
C(halls) 3.0 1.259804e+10 4.199348e+09 20.665970 2.329122e-13
C(floor) 2.0 9.790202e+09 4.895101e+09 24.089931 3.576096e-11
C(subway) 1.0 1.420728e+11 1.420728e+11 699.173212 7.095006e-151
C(school) 1.0 3.847740e+11 3.847740e+11 1893.562343 0.000000e+00
Residual 16193.0 3.290436e+12 2.032011e+08 NaN NaN
3. 用课件中的forward_select() 方法来决定price的相关变量, 发现在变量集中加上‘AREA’和不加‘AREA'的结果不同:
在没有“AREA'的情况下,相关变量是dist, school, subway, floor, halls; R-squared=0.364
在有“AREA'的情况下,相关变量是dist, school, subway, floor, halls, roomnum, AREA (所有的变量); R-squared=0.365
根据R-squared越大越好的原则,用所有的变量做预估, 结果是:
The price of 2 halls and 2 rooms is predicted to be 76793.62985623845
The price of 1 halls and 2 rooms is predicted to be 75290.21904616225
东城区靠近学校又靠地铁,70平的两居室, 一厅的单价大概是75290, 两厅的单价大概是76794