数据分析侠

上海南京数据分析联盟创始人,杭州创业谈TMT联合创始人,阿里支付宝资深数据分析,我爱数据分析网创始人,5年大数据行业数据分析和产品从业经验,长期从事和专注于国内大型互联网公司零售电商、金融保险等业务分析与决策支持,在数据存储、数据处理、数据可视化、商业智能、网站分析和数据挖掘方面均有丰富的项目经历。目前主要负责阿里数据产品研发和数据化运营以及市场第三方数据分析需求、数据平台搭建等。 经历:从南京到北京再到上海,再到杭州,一直在从事数据方面产品、算法、平台开发。

2
推荐
2680
阅读

Python(1)爬取链家网数据:新房楼盘价格分析

本文将详细讲解利用python爬虫收集了链家网800多条公开数据并作简单分析。数据真实性有待考查,本文仅作为数据分析入门者参考。安装环境Window 10Python 2.7爬虫用到的包安装:从系统”开始”菜单运行“cmd”进入命令行环境,依次输入并运行以下代码:pip install urllib2 pip install beautifulsoup4 这里需要注意的是beaut...

发表了文章 • 2017-05-19 14:27 • 0 条评论

0
推荐
2734
阅读

数据挖掘系列篇(25):基于地理位置的数据挖掘

一般我们在做数据挖掘过程中地理位置算是一个特别重要的特征,广泛应用于O2O的很多场景。但做的事情都相对来说比较简单,LBS的网格位置推相应的内容。原来我们基于地理位置拿了不少数据,也做了一些模型,主要是一些医院位置、商场位置、公交地铁位置等来给附近的人推服务。不同定位比较:在当前众多的无线定位技术中,G...

发表了文章 • 2017-05-19 13:54 • 0 条评论

0
推荐
2126
阅读

金融大数据(6):聊一聊股市

最近倒腾房子的应该比较糟心,因为国家出了一系列的限购、提高首付比例政策,让很多炒房客蛋疼。而房价过高更是让企业租金成本变高,人民幸福感指数直线下跌。现在聊的最多的就是房地产。限购的出台的确让房价的增长有所放缓,但是小编觉得这还是治标不治本的措施。说到底,如果真的房价大跌,那也天下大乱了。至于对那...

发表了文章 • 2017-05-19 13:17 • 0 条评论

0
推荐
1811
阅读

数据挖掘系列篇(24):BTS分享

有段时间不来了,最近忙了不少事情,投了几家实体火锅店铺,感慨现在杭州的房价真的比股票、黄金还快,动不动都是遍地3W一平的,实在无心写coding了。BTS(bucket test system)分桶测试在我们日常的搜索优化上应用的比较多,所以就花点时间来整理下吧,希望对一些人能有用。像我们在做算法上线过程中,哪些策略好,哪些...

发表了文章 • 2017-05-19 12:45 • 0 条评论

0
推荐
1959
阅读

数据挖掘系列篇(22):一淘的个性化搜索技术

最近一姐们说拿到了offer,听到这消息还是比较开心。最近一年hc都很有限,能进都属不易。不管是什么“月饼门”事件,还是百度内部“反腐”,干技术的自己无愧于心就行了。现在在折腾搜索这块的个性化,query改写、分词处理、suggest、doc排序、上下文、相似度、同类人群等等还在学习。这块一淘在做淘宝的商品搜索还是有不少...

发表了文章 • 2017-05-19 12:41 • 0 条评论

0
推荐
2635
阅读

深度学习Deep learning系列篇(2):雅虎yahoo分布式深度学习CaffeOnSpark

1.背景介绍Caffe 是一个高效的神经网络计算框架,可以充分利用系统的GPU资源进行并行计算,是一个强大的工具,在图像识别、语音识别、行为分类等不同领域都得到了广泛应用。有关Caffe的更多内容请参考项目主页:http://caffe.berkeleyvision.org/不过Caffe的常用部署方式是单机的,这就意味着它的水平扩展能力受到了限制...

发表了文章 • 2017-05-19 11:56 • 0 条评论

0
推荐
4917
阅读

深度学习(Deep Learning)系列篇(1):深度学习在腾讯的平台化和应用实践(全)

今年陆陆续续的也够在搞deep learning的项目,各种特征之间的“搞基”(俗称高级特征)。业务的应用也有不少,模型也天天在训练。有时间把看的不错的paper都分享出来。后面还有不少CNN、DNN、RNN、DBN的一些推导和应用。偶然发现腾讯在官网上也有些分享,供大家参考,请勿商用,转载请联系。引言:深度学习是近年机器学习...

发表了文章 • 2017-05-19 11:28 • 0 条评论

0
推荐
1870
阅读

数据挖掘系列篇(21):1号店的个性化推荐平台

https://yunpan.cn/c6s7mVVtsWwtT (提取码:e52f)

发表了文章 • 2017-05-19 10:45 • 0 条评论

0
推荐
1817
阅读

数据挖掘系列篇(20):社交网络SNS的好友推荐算法

花了几天看了些做社交的好友推荐,现在很多App都有社交场景,本身就是做用户的场景,所以以后肯定要在这块有一些应用。像早期的论坛类的更偏重资讯类的信息,后来像优酷土豆这又是做视频类,网易云音乐做音乐类。豆瓣相对来说还比较全一些,有包含资讯、音乐电台等这些。也用了一些其他做社交场景的App,包括像脉脉、钉...

发表了文章 • 2017-05-19 10:26 • 0 条评论

0
推荐
3645
阅读

金融大数据(2):征信个人消费评分最权威FICO Score评分模型

在美国生活,每个人都会听到信用分数,也叫FICO Credit Score。 那这个信用分数是怎么得来的呢?(一)FICO Score影响因素信用分数是利用数学模型依据个人的信用报告评估银行风险大小的一个数值,一般来说数值越高风险越小。信用分数的数学模型有许多种,在银行届运用最广泛的就是FICO分数(300~850分之间),这是由FIC...

发表了文章 • 2017-05-19 10:16 • 0 条评论

0
推荐
2591
阅读

金融大数据(1):大数据在金融行业的应用

早之前聊过不少大数据在金融行业的应用,回顾下就是几个方面:1)征信2)风控反作弊欺诈3)贷款授信4)保险定价5)云计算6)量化投资相对来说,讲的还是比较粗糙,后面陆续会重点把这几块掰开来介绍。

发表了文章 • 2017-05-19 10:01 • 0 条评论

0
推荐
1525
阅读

数据挖掘系列篇(19):视频网站个性化推荐Hulu&土豆

最近事情实在是比较多,要给几家公司做一下数据化运营的培训,另外还有不少金融投资领域的研究报告要交。有合作的需求可以发邮件到784414374@qq.com邮箱。和BOSS直聘的总监聊了下,了解到现在的BOSS很多对数据部门或者数据岗位的定位都不太清楚,准备策划一期围绕数据化运营的线下活动。现在有家创业公司想做类似视频头...

发表了文章 • 2017-05-19 09:47 • 0 条评论

0
推荐
2589
阅读

数据开发系列篇(3):spark实战高手之路(一):如何搭建spark集群 面包君

从零起步,构建Spark集群经典四部曲:第一步:搭建Hadoop单机和伪分布式环境;第二步:构造分布式Hadoop集群;第三步:构造分布式的Spark集群;第四步:测试Spark集群;本文内容为构建Spark集群经典四部曲,从零起步构建Hadoop单机版本和伪分布式的开发环境,涉及:开发Hadoop需要的基本软件;安装每个软件;配置Hadoop...

发表了文章 • 2017-05-19 09:36 • 0 条评论

0
推荐
2428
阅读

数据开发系列篇(2):大数据处理和编程实践Hadoop(二)

下面是岑文初师兄总结的Hadoop入门的实践放翁(文初)的一亩三分地,基本上可以作为入门了解去看下,太细节的可以自己去找本书看看。其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天。Hadoop可以...

发表了文章 • 2017-05-19 09:07 • 0 条评论

0
推荐
1917
阅读

数据分析系列篇(14):最全的市场行业分析报告该怎么做?

最近是事情一堆接一堆的来,要做很多模型算法平台,还有一批出版社的稿子要出。另外关于去年整理的数据分析资料,也是有不少小伙伴预定了,所以要给大家邮寄!(需要的加最下面的支付宝)看到不少同学留言了很多问题,我也会尽量在有空的时间来回答的。建议把自己要问的问题都描述清楚,写完整。别问在不在等这种问题了...

发表了文章 • 2017-05-19 08:50 • 0 条评论