八大直播作业 - 第四讲作业

浏览: 1170

作业内容:

研究二手房价的影响因素,建立房价预测模型,数据存放在“sndHsPr.csv”中。

分析思路:

在对房价的影响因素进行模型研究之前,首先对各变量进行描述性分析,以初步判断房价的影响因素,进而建立房价预测模型

步骤如下:

(一) 因变量分析:单位面积房价分析

(二) 自变量分析:

   2.1 自变量自身分布分析

   2.2 自变量对因变量影响分析

(三)建立房价预测模型

   3.1 线性回归模型

   3.2  对因变量取对数的线性模型

   3.3  考虑交互项的对数线性

(四)预测: 假设有一家三口,父母为了能让孩子在东城区上学,想买一套邻近地铁的两居室,面积是70平方米,中层楼层,那么房价大约是多少呢?


作业心得:

1. 从眼睛看的对因变量和自变量做分析:

price本身基本符合正太分布

从盒须图看出自变量dist, school, subway和price是相关的, 而roomnum, halls, floor和price的关系不明显

从散点图看出AREA和price好像也没有什么关系

2. 用方差分析对变量关系做分析, 好像也是dist, subway, school对price的影响比较明显:

                 df        sum_sq       mean_sq            F         PR(>F)

C(dist)         5.0  4.215655e+12  8.431310e+11  4149.243787   0.000000e+00

C(roomnum)      4.0  4.471444e+08  1.117861e+08     0.550125   6.989399e-01

C(halls)        3.0  1.259804e+10  4.199348e+09    20.665970   2.329122e-13

C(floor)        2.0  9.790202e+09  4.895101e+09    24.089931   3.576096e-11

C(subway)       1.0  1.420728e+11  1.420728e+11   699.173212  7.095006e-151

C(school)       1.0  3.847740e+11  3.847740e+11  1893.562343   0.000000e+00

Residual    16193.0  3.290436e+12  2.032011e+08          NaN            NaN

3. 用课件中的forward_select() 方法来决定price的相关变量, 发现在变量集中加上‘AREA’和不加‘AREA'的结果不同:

在没有“AREA'的情况下,相关变量是dist, school, subway, floor, halls;  R-squared=0.364

在有“AREA'的情况下,相关变量是dist, school, subway, floor, halls, roomnum, AREA (所有的变量); R-squared=0.365

根据R-squared越大越好的原则,用所有的变量做预估, 结果是:

The price of 2 halls and 2 rooms is predicted to be 76793.62985623845

The price of 1 halls and 2 rooms is predicted to be 75290.21904616225


东城区靠近学校又靠地铁,70平的两居室, 一厅的单价大概是75290, 两厅的单价大概是76794

推荐 0
本文由 oceanji 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册