数据科学项目流程实战（一）

发表: 2017-03-27 浏览: 1058

数据分析

前言

    最近一直分享些偏理论的东西，诚然理论的东西必不可少，工具的实现也相对较容易实现，但总觉得还是缺少了些干活，来指导实际应用。数据科学家假如只会些空洞的理论，亦或只是自己舞刀弄枪的“花架子”比划，不免心生疑惑，毕竟只有学以致用，才是王道。因此从这期开始，分几期以数据科学项目流程的角度，尝试分析分析当下最现实的买房问题。也是在自我尝试和突破吧，手头没数据，没模型，只是通过业务时间的瞎捣鼓，来构思下看看我所在的天津，哪些区域的房价性价比最优。当然事先得说明，全部思路仅个人观点，欢迎大家提出优秀见解，一起讨论分享。

数据科学项目流程

需求定义
天津地区房价现况如何？哪些区域性价比最优？这个定义可能比较宽泛，现况好说，主要是统计描述上的事情，而“性价比”这个事情就有点“主观”了，因此我考虑到用成本效益指标来衡量，成本当然是在买房上的花费，而效益则比较宽泛，有点见仁见智了。但我想一些普遍的因素应该还是可以考虑和衡量的，比如交通的便利性，距离购物等设施的距离，医疗资源，教育资源的可获得性以及环境因素等。
数据获取
我们一般的数据获取主要有3种途径：现有数据库，API调用及网络爬虫抓取数据。而就当前这个问题，就我当前的理解，需要获取的数据大概包括以下几个方面：

房屋基本信息；
主要应该包括房屋地址或位置（经纬度）、面积、价格；房屋买卖信息，最好还能获取价格的时间趋势信息等。这方面的信息获取可通过在链家或相关中介网址上直接抓取。至于如何抓取，可选择python的爬虫系统或者R的Rcul包通过XML及正则表达设计爬虫。当然也有神奇“Hawk”，详情可关注沙漠之鹰微信号，本人是收益匪浅的，再次对开源作者的无私表示感谢。
交通信息；
交通信息我想着主要以“距最近站点的距离”为指标。这部分数据的获取或许通过百度地图API的路线规划调用获得。尝试通过百度的Direction API.Web服务API调用获取公交或驾车的最短路径和时间。当然点对点的调用肯定不好实现，也许会选择所售楼盘或房屋的交通信息。只是设想，后期的实现还得靠实践的检验。
商圈信息；
商圈信息的获取应该主要靠网络爬虫的抓取，通过抓取大众点评或美团的商户信息，确定城市主要商圈的面积及商户的总体规模，并对规模设置权重。主要衡量指标应该是房屋距最近商圈的距离，当然也有个叫商圈吸引力模型的东东，个人感觉主要用于商圈研究，对房屋选址好像还不太适用。
医疗教育信息；
医疗教育数据的获取也主要通过网络爬虫获取，通过抓取“好大夫”及“学校大全”网站，抓取医院、学校的地址及医师教师数量，来简单衡量医疗教育资源的配置。当然像不同类型的学校排名，可以作为权重值，提高房屋的“价值”。这里不会去分析行政划分的学区房情况，仅以距医疗教育资源的距离作为衡量指标。
环境信息；
环境信息的客观衡量指标个人觉得比较难获得，比如绿化水平等信息，应该是不好获得的，而且就一个城市来说想量化也比较困难。个人知道的资料来源或许可以从Environmental Performance Index官网上获得自然地理信息，包括PM2.5等。这部分有待尝试，毕竟一个城市的环境水平差异不会很大，当然郊区除外。

数据治理
这部分是数据的ETL过程（Extract Transform Loading）,需要在获取完数据后再详细为大家说明。
数据分析
数据分析部分，当然是习惯用R来实现啦。主要考虑的还是“成本效益模型”，主要是这几大因素的权重如何分配问题，可能还需要尝试和思考，数据分析部分会在后续补充。
数据可视化
最后的数据可视化可以运用JS被R封装的包，如echarts，rcharts，plotly等实现交互性展示，这当然也是R的强项啦。

0 个评论

要回复文章请先登录或注册