7
推荐
3410
阅读

大数据或者数据分析师常见的10道面试题解答

看到问答里面有人问这个问题:正好之前有收藏的资料。原来的地址记不得了。抱歉1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小...

发表了文章 • 2015-11-03 09:48 • 6 条评论

2
推荐
4658
阅读

常用推荐算法的介绍与说明

一、基于内容推荐    定义:       基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机 器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内...

发表了文章 • 2015-10-13 09:30 • 1 条评论

2
推荐
2655
阅读

大数据时代 传统统计学依然是数据分析的灵魂

        来源:《 人民日报 》( 2015年07月20日 12 版)经笔者稍加整理                在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用...

发表了文章 • 2015-10-07 18:09 • 0 条评论