前言
最近一直分享些偏理论的东西,诚然理论的东西必不可少,工具的实现也相对较容易实现,但总觉得还是缺少了些干活,来指导实际应用。数据科学家假如只会些空洞的理论,亦或只是自己舞刀弄枪的“花架子”比划,不免心生疑惑,毕竟只有学以致用,才是王道。因此从这期开始,分几期以数据科学项目流程的角度,尝试分析分析当下最现实的买房问题。也是在自我尝试和突破吧,手头没数据,没模型,只是通过业务时间的瞎捣鼓,来构思下看看我所在的天津,哪些区域的房价性价比最优。当然事先得说明,全部思路仅个人观点,欢迎大家提出优秀见解,一起讨论分享。
数据科学项目流程
需求定义
天津地区房价现况如何?哪些区域性价比最优?这个定义可能比较宽泛,现况好说,主要是统计描述上的事情,而“性价比”这个事情就有点“主观”了,因此我考虑到用成本效益指标来衡量,成本当然是在买房上的花费,而效益则比较宽泛,有点见仁见智了。但我想一些普遍的因素应该还是可以考虑和衡量的,比如交通的便利性,距离购物等设施的距离,医疗资源,教育资源的可获得性以及环境因素等。
数据获取
我们一般的数据获取主要有3种途径:现有数据库,API调用及网络爬虫抓取数据。而就当前这个问题,就我当前的理解,需要获取的数据大概包括以下几个方面:
房屋基本信息;
主要应该包括房屋地址或位置(经纬度)、面积、价格;房屋买卖信息,最好还能获取价格的时间趋势信息等。这方面的信息获取可通过在链家或相关中介网址上直接抓取。至于如何抓取,可选择python的爬虫系统或者R的Rcul包通过XML及正则表达设计爬虫。当然也有神奇“Hawk”,详情可关注沙漠之鹰微信号,本人是收益匪浅的,再次对开源作者的无私表示感谢。
交通信息;
交通信息我想着主要以“距最近站点的距离”为指标。这部分数据的获取或许通过百度地图API的路线规划调用获得。尝试通过百度的Direction API.Web服务API调用获取公交或驾车的最短路径和时间。当然点对点的调用肯定不好实现,也许会选择所售楼盘或房屋的交通信息。只是设想,后期的实现还得靠实践的检验。
商圈信息;
商圈信息的获取应该主要靠网络爬虫的抓取,通过抓取大众点评或美团的商户信息,确定城市主要商圈的面积及商户的总体规模,并对规模设置权重。主要衡量指标应该是房屋距最近商圈的距离,当然也有个叫商圈吸引力模型的东东,个人感觉主要用于商圈研究,对房屋选址好像还不太适用。
医疗教育信息;
医疗教育数据的获取也主要通过网络爬虫获取,通过抓取“好大夫”及“学校大全”网站,抓取医院、学校的地址及医师教师数量,来简单衡量医疗教育资源的配置。当然像不同类型的学校排名,可以作为权重值,提高房屋的“价值”。这里不会去分析行政划分的学区房情况,仅以距医疗教育资源的距离作为衡量指标。
环境信息;
环境信息的客观衡量指标个人觉得比较难获得,比如绿化水平等信息,应该是不好获得的,而且就一个城市来说想量化也比较困难。个人知道的资料来源或许可以从Environmental Performance Index官网上获得自然地理信息,包括PM2.5等。这部分有待尝试,毕竟一个城市的环境水平差异不会很大,当然郊区除外。
数据治理
这部分是数据的ETL过程(Extract Transform Loading),需要在获取完数据后再详细为大家说明。
数据分析
数据分析部分,当然是习惯用R来实现啦。主要考虑的还是“成本效益模型”,主要是这几大因素的权重如何分配问题,可能还需要尝试和思考,数据分析部分会在后续补充。
数据可视化
最后的数据可视化可以运用JS被R封装的包,如echarts,rcharts,plotly等实现交互性展示,这当然也是R的强项啦。