数据分析的练习数据去那找呢

0
已邀请:
0

天善小编 - 微信直播问题收集 2016-04-21 回答

Napoleon:现在缺数据啊

Shadow 杨:@Napoleon 有很多网站你可以下载到数据,或者你可以自己建一个网站,或者博客,架一套免费的数据分析工具,收集数据

Shadow 杨:@Napoleon 或者是爬一些,如果不会爬虫的话,可以考虑八爪鱼和搜集客,如果是大型数据可能真的相对是比较难的

Napoleon:嗯,知道了

Xiaolan:每年会有一些比赛,大家可以关注,比如kdd,数据量大,还有kaggle网站

Napoleon:我要的都比较大

Shadow 杨:[偷笑],大型数据的处理也是我最近比较关注的。

梁勇@天善智能:关注爬虫的,社区的seng对 天善的用户关系图做了深入的爬虫案例 《Python网络数据采集》读后总结 --第3章及天善用户关系分析实例
http://www.flybi.net/blog/seng/3599,使用Echarts呈现天善用户的关系图
http://www.flybi.net/blog/seng/3645,大家有空都去看看

Napoleon:数据挖掘,样本小了没有意义

赵创@谛听@人工智能生态:@梁勇@天善智能 [强]

Shadow 杨:@Napoleon 还是个思维问题吧,数据挖掘的目的是洞察,找到新的突破,那么数据样本就并非是一个必要的条件,只能说大型的数据处理更考验分析师的功底。

Napoleon:用数据驱动呗,机器学习,大样本程序才能发现其中的关联。

Shadow 杨:但并不代表大型数据就一定能挖掘出比小型数据更有价值的东西,举个例子,现在的数据量很大,数据纬度很全,那么就意味着,无论你持有怎样的观点,都可以找到数据来支撑,所以在未来的时候,数据分析师面临的问题不单纯是数据量不够的问题,很有可能是数据量太多,如果取舍的问题,什么数据是扰乱性数据,什么数据是无价值数据,怎么判断?靠什么判断?

Napoleon:哦,理解你的意思了。

要回复问题请先登录注册