数据科学项目流程实战(一)

浏览: 1058


前言

    最近一直分享些偏理论的东西,诚然理论的东西必不可少,工具的实现也相对较容易实现,但总觉得还是缺少了些干活,来指导实际应用。数据科学家假如只会些空洞的理论,亦或只是自己舞刀弄枪的“花架子”比划,不免心生疑惑,毕竟只有学以致用,才是王道。因此从这期开始,分几期以数据科学项目流程的角度,尝试分析分析当下最现实的买房问题。也是在自我尝试和突破吧,手头没数据,没模型,只是通过业务时间的瞎捣鼓,来构思下看看我所在的天津,哪些区域的房价性价比最优。当然事先得说明,全部思路仅个人观点,欢迎大家提出优秀见解,一起讨论分享。

数据科学项目流程

  1. 需求定义

    天津地区房价现况如何?哪些区域性价比最优?这个定义可能比较宽泛,现况好说,主要是统计描述上的事情,而“性价比”这个事情就有点“主观”了,因此我考虑到用成本效益指标来衡量,成本当然是在买房上的花费,而效益则比较宽泛,有点见仁见智了。但我想一些普遍的因素应该还是可以考虑和衡量的,比如交通的便利性,距离购物等设施的距离,医疗资源,教育资源的可获得性以及环境因素等。

  2. 数据获取

    我们一般的数据获取主要有3种途径:现有数据库,API调用及网络爬虫抓取数据。而就当前这个问题,就我当前的理解,需要获取的数据大概包括以下几个方面:

  • 房屋基本信息;

    主要应该包括房屋地址或位置(经纬度)、面积、价格;房屋买卖信息,最好还能获取价格的时间趋势信息等。这方面的信息获取可通过在链家或相关中介网址上直接抓取。至于如何抓取,可选择python的爬虫系统或者R的Rcul包通过XML及正则表达设计爬虫。当然也有神奇“Hawk”,详情可关注沙漠之鹰微信号,本人是收益匪浅的,再次对开源作者的无私表示感谢。

  • 交通信息;

    交通信息我想着主要以“距最近站点的距离”为指标。这部分数据的获取或许通过百度地图API的路线规划调用获得。尝试通过百度的Direction API.Web服务API调用获取公交或驾车的最短路径和时间。当然点对点的调用肯定不好实现,也许会选择所售楼盘或房屋的交通信息。只是设想,后期的实现还得靠实践的检验。

  • 商圈信息;

    商圈信息的获取应该主要靠网络爬虫的抓取,通过抓取大众点评或美团的商户信息,确定城市主要商圈的面积及商户的总体规模,并对规模设置权重。主要衡量指标应该是房屋距最近商圈的距离,当然也有个叫商圈吸引力模型的东东,个人感觉主要用于商圈研究,对房屋选址好像还不太适用。

  • 医疗教育信息;

    医疗教育数据的获取也主要通过网络爬虫获取,通过抓取“好大夫”及“学校大全”网站,抓取医院、学校的地址及医师教师数量,来简单衡量医疗教育资源的配置。当然像不同类型的学校排名,可以作为权重值,提高房屋的“价值”。这里不会去分析行政划分的学区房情况,仅以距医疗教育资源的距离作为衡量指标。

  • 环境信息;

    环境信息的客观衡量指标个人觉得比较难获得,比如绿化水平等信息,应该是不好获得的,而且就一个城市来说想量化也比较困难。个人知道的资料来源或许可以从Environmental Performance Index官网上获得自然地理信息,包括PM2.5等。这部分有待尝试,毕竟一个城市的环境水平差异不会很大,当然郊区除外。

  1. 数据治理

    这部分是数据的ETL过程(Extract Transform Loading),需要在获取完数据后再详细为大家说明。

  2. 数据分析

    数据分析部分,当然是习惯用R来实现啦。主要考虑的还是“成本效益模型”,主要是这几大因素的权重如何分配问题,可能还需要尝试和思考,数据分析部分会在后续补充。

  3. 数据可视化

    最后的数据可视化可以运用JS被R封装的包,如echarts,rcharts,plotly等实现交互性展示,这当然也是R的强项啦。

推荐 0
本文由 余文华 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册