1
推荐
1725
阅读

PeopleRank从社交网络中发现个体价值

前言如果说Google改变了互联网,那么社交网络就改变人们的生活方式。通过社交网络,我们每个个体,都是成为了网络的中心。我们的生活半径,被无限放大,通过6个朋友关系,就可以认识世界上任何一个人。未来的互联网将是属于我们每一个人。目录PeopleRank和PageRank需求分析:从社交网络中发现个体价值算法模型:PeopleRa...

发表了文章 • 2017-04-13 09:14 • 0 条评论

1
推荐
1942
阅读

Mahout构建图书推荐系统

前言本文是Mahout实现推荐系统的又一案例,用Mahout构建图书推荐系统。与之前的两篇文章,思路上面类似,侧重点在于图书的属性如何利用。本文的数据在自于Amazon网站,由爬虫抓取获得。目录项目背景需求分析数据说明算法模型程序开发1. 项目背景Amazon是最早的电子商务网站之一,以网上图书起家,最后发展成为音像,电子...

发表了文章 • 2017-04-13 09:12 • 0 条评论

5
推荐
1918
阅读

用Mahout构建职位推荐引擎

前言随着大数据思想实施的落地,推荐系统也开始倍受关注。不光是电商,各种互联网应用都开始应用推荐系统,像搜索,社交网络,音乐,餐饮,地图服务等等。在以前,我们没有使用推荐算法的时候,我们是通过设置各种约束条件,匹配数据的自然属性呈现给用户,这种就是基于规则的系统。比如,用户购买了一个商品,我们会推...

发表了文章 • 2017-04-12 09:39 • 0 条评论

2
推荐
2431
阅读

用Hadoop构建电影推荐系统

前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发了各种网站“推荐”热,个性时代已经到来。目录推荐系统概述需求分析:推荐系统指标设计算法模型:Hadoop并行算法架构设计:推荐系统架构程序开发:MapReduce程序...

发表了文章 • 2017-04-12 09:35 • 0 条评论

1
推荐
2371
阅读

海量Web日志分析 用Hadoop提取KPI统计指标

前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。对于日志的这种规模的数据,用Hadoop进行日志分析,是最适合不过的了。目录W...

发表了文章 • 2017-04-12 09:29 • 0 条评论

4
推荐
1775
阅读

Mahout分步式程序开发 聚类Kmeans

前言Mahout是基于Hadoop用于机器学习的程序开发框架,Mahout封装了3大类的机器学习算法,其中包括聚类算法。kmeans是我们经常会提到用到的聚类算法之一,特别处理未知数据集的时,都会先聚类一下,看看数据集会有一些什么样的规则。本文主要讲解,基于Mahout程序开发,实现分步式的kmeans算法。目录聚类算法kmeansMahout...

发表了文章 • 2017-04-11 09:03 • 0 条评论

1
推荐
1774
阅读

Mahout分步式程序开发 基于物品的协同过滤ItemCF

前言Mahout是Hadoop家族一员,从血缘就继承了Hadoop程序的特点,支持HDFS访问和MapReduce分步式算法。随着Mahout的发展,从0.7版本开始,Mahout做了重大的升级。移除了部分算法的单机内存计算,只支持基于Hadoop的MapReduce平行计算。从这点上,我们能看出Mahout走向大数据,坚持并行化的决心!相信在Hadoop的大框架下,...

发表了文章 • 2017-04-11 08:54 • 0 条评论

5
推荐
1724
阅读

从源代码剖析Mahout推荐引擎

前言Mahout框架中cf.taste包实现了推荐算法引擎,它提供了一套完整的推荐算法工具集,同时规范了数据结构,并标准化了程序开发过程。应用推荐算法时,代码也就7-8行,简单地有点像R了。为了使用简单的目标,Mahout推荐引擎必然要做到精巧的程序设计。本文将介绍Mahout推荐引擎的程序设计。目录Mahout推荐引擎概况标准化...

发表了文章 • 2017-04-07 09:34 • 1 条评论

5
推荐
2016
阅读

用MapReduce实现矩阵乘法

前言MapReduce打开了并行计算的大门,让我们个人开发者有了处理大数据的能力。但想用好MapReduce,把原来单机算法并行化,也不是一件容易事情。很多的时候,我们需要从单机算法能否矩阵化去思考,所以矩阵操作就变成了算法并行化的基础。像推荐系统的协同过滤算法,就是基于矩阵思想实现MapReduce并行化。目录矩阵介绍矩...

发表了文章 • 2017-04-07 09:20 • 0 条评论

3
推荐
2286
阅读

Mahout推荐算法API详解

前言用Mahout来构建推荐系统,是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法,并实现了并行化,提供非常简单的API接口;困难是因为我们不了解算法细节,很难去根据业务的场景进行算法配置和调优。本文将深入算法API去解释Mahout推荐算法底层的一些事。目录Mahout推荐算法介绍算法评判标准:召...

发表了文章 • 2017-04-07 09:11 • 0 条评论

1
推荐
1961
阅读

用Maven构建Mahout项目

前言基于Hadoop的项目,不管是MapReduce开发,还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题,是困扰着每个程序员的噩梦。Java程序员,不仅要会写Java程序,还要会调linux,会配hadoop,启动hadoop,还要会自己运维。所以,新手想玩起Hadoop真不是件简单的事。不过,我们可以尽可能的简化环境问题,...

发表了文章 • 2017-04-06 16:07 • 0 条评论

1
推荐
1946
阅读

在Ubuntu中安装HBase

前言HBase是Hadoop家族中的一个分布式数据库产品,HBase支持高并发读写,列式数据存储,高效的索引,自动分片,自动Region迁移等许多优点,已经越来越多的被界业认可并实施。目录在Ubuntu中环境准备HBase安装Thrift安装1 在Ubuntu中环境准备HBase是基于Java开发的运行Hadoop平台上分布式NoSQL数据库软件,HBase没有提供W...

发表了文章 • 2017-04-06 15:37 • 0 条评论

2
推荐
2090
阅读

Hadoop编程调用HDFS

前言HDFS 全称Hadoop分步文件系统(Hadoop Distributed File System),是Hadoop的核心部分之一。要实现MapReduce的分步式算法时,数据必需提前放在HDFS上。因此,对于HDFS的操作就变得非常重要。Hadoop的命令行,提供了一套完整命令接口,就像Linux命令一样方便使用。不过,有时候我们还需要在程序中直接访问HDFS,我们可...

发表了文章 • 2017-04-06 15:26 • 0 条评论

1
推荐
2115
阅读

用Maven构建Hadoop项目

前言Hadoop的MapReduce环境是一个复杂的编程环境,所以我们要尽可能地简化构建MapReduce项目的过程。Maven是一个很不错的自动化项目构建工具,通过Maven来帮助我们从复杂的环境配置中解脱出来,从而标准化开发过程。所以,写MapReduce之前,让我们先花点时间把刀磨快!!当然,除了Maven还有其他的选择Gradle(推荐), Ivy...

发表了文章 • 2017-04-06 09:21 • 1 条评论

1
推荐
2133
阅读

Hadoop历史版本安装

前言介绍Hadoop安装的文章,已经写过2篇了,老生常谈的话题又被拿出来了。这次要重新安装Hadoop-1.1.2的历史版本,来满足Mahout-0.8版本的依赖要求。本来只想简单说几句,不过遇到了几个小问题,因此写篇文章总结一下吧。Hadoop安装的其他文章:RHadoop实践系列之一 Hadoop环境搭建创建Hadoop母体虚拟机目录找到Hadoop历...

发表了文章 • 2017-04-06 09:11 • 0 条评论