GeorgeYao Blog

BI & BigData学习交流。

10
推荐
1626
阅读

回首过去(2015年),再接再励(2016年) From GeorgeYao

承蒙天善智能的厚爱、关怀和信任(梁总、吕总;还有天善智能的小伙伴们);就此呢,述说下自己的2015年和2016年吧。首先,很高兴收到天善智能送到的春节礼物;甚是高兴!回首过去,2015年的点点滴滴跳了两次槽(从外企跳到民企;然后从民企跳到国企;总之来说呢,都是坑;也许是太过于挑剔和抱怨吧,人生的路呢还是需要...

发表了文章 • 2016-02-01 11:59 • 5 条评论

1
推荐
1901
阅读

机器学习和数据挖掘的推荐书单(转载)

有了这些书,再也不愁下了班没妹纸该咋办了。慢慢来,认真学,揭开机器学习和数据挖掘这一神秘的面纱吧!《机器学习实战》:本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的...

发表了文章 • 2016-01-14 15:06 • 0 条评论

1
推荐
3635
阅读

10 种机器学习算法的要点(附 Python 和 R 代码)(转载)

前言谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。也许我们生活在人类历史上最关键的时期:从使用大型计算机,到个人电脑,再到现在的云计算。关键的不是过去发生了什么,而是将来会有什么发生。工具和技术的...

发表了文章 • 2016-01-14 15:02 • 0 条评论

0
推荐
2018
阅读

分布式消息系统:Kafka

Kafka 是分布式发布-订阅消息系统。它最初由 LinkedIn 公司开发,之后成为 Apache 项目的一部分。Kafka 是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。        在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数...

发表了文章 • 2015-11-06 15:57 • 0 条评论

1
推荐
2449
阅读

重要的事情要反复强调:如何用敏捷可视化工具搞定用户画像

摘文出处:敏捷商业智能伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。用户画像越来越被企业所重视。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足...

发表了文章 • 2015-11-04 09:29 • 0 条评论

1
推荐
5449
阅读

投资回报率(ROI)分析五步走

有些管理者只要一谈到ROI分析这个话题,就会又恨又怕。如果你打算投资某个项目或采购某种设备,在做决定之前,好好地做一下ROI分析是很有必要的。但是,很少有人真正懂得如何使用这个工具,或者是到哪儿去找“正确”的数据。ROI分析能给我们带来许多好处,可惜其中有不少是无法用钱来衡量的。而且,要达到公司定下的回报率...

发表了文章 • 2015-10-10 16:57 • 0 条评论

1
推荐
2874
阅读

使用Spark计算PV、UV

摘文出处:使用Spark计算PV、UV日志字段格式:id,ip,url,ref,cookie,time_stamp把日志文件放到HDFS。仅取了1000行。hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input 直接在Scala Shell中读取文件并计算PV。scala> val textFile = sc.textFile("hdfs://localhost:9000/user/root/input/1000_log") sc...

发表了文章 • 2015-10-10 14:23 • 0 条评论

1
推荐
2623
阅读

网站流量统计中的IP、PV和UV知识全攻略

熟悉网站流量统计工具的SEO公司的站长们应该都对三个词不陌生。是的,他们就是IP、PV和UV。但是对很多初涉SEO行业的童鞋们来说,他们对IP、PV和UV的概念以及这些概念背后隐藏的深层含义,以及这些数据给网站的提供的信息等等问题还是不能够有比较全面的了解的。今天呢,上海SEO公司的小编就会大家说一说IP、PV和UV这些事...

发表了文章 • 2015-10-10 14:11 • 0 条评论

0
推荐
2725
阅读

互联网金融时代下机器学习与大数据风控系统

摘文处: 点融黑帮导语:互联网金融时代,如何借助互联网思维利用机器学习方法建立高效安全的大数据风控系统?随着互联网的发展,互联网金融已成为当前最热门的话题,包括支付、理财、众筹、消费等功能在内的各类互联网金融产品和平台如雨后春笋般涌现。互联网金融是传统金融行业与互联网精神相结合的新兴领域,是对传统...

发表了文章 • 2015-10-08 17:30 • 0 条评论

0
推荐
3386
阅读

Spark强有力竞争者Apache Flink

摘文出处:Hadoop卢亿雷,AdMaster技术副总裁,资深大数据技术专家。关注高可靠、高可用、高扩展、高性能系统服务,关注Hadoop/HBase/Storm/Spark/Flink/ElasticSearch等离线、流式及实时分布式计算技术。彭远波,AdMaster研发工程师,关注Hadoop/HBase/Spark/Flink等技术。Apache Flink,apache顶级项目,是一个高效、...

发表了文章 • 2015-09-25 14:06 • 1 条评论

1
推荐
3020
阅读

云技术、大数据(hadoop)入门常见问题回答

问题导读:当我们学习一门新技术的时候,我们总是产生各种各样的问题,这些问题整理出来,包括该1.如何学习hadoop?2.hadoop常见问题?3.还有hbase、hive安装使用等?你知道搭建hadoop平台需要些什么软件?简单来讲就有多台电脑没有多台电脑你就麻烦了:需要懂虚拟机,懂网络配置,会编译hadoop。具体可以看下面内容零基...

发表了文章 • 2015-09-23 13:42 • 0 条评论

0
推荐
2400
阅读

面试宝典分享

Hello Coding

发表了文章 • 2015-09-17 14:22 • 0 条评论

1
推荐
3274
阅读

七大数据降维算法

近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。于此同时,这也推动了数据降维处理的应用。实际上,数据量有时过犹不及。有时在数据分析应用中大量的数据反而会产生更坏的性能。最新的一个例子是采用 2009 KDD Challenge 大数据集来预测客户流失量。 该数据集维度达到 15000 维。 ...

发表了文章 • 2015-09-17 12:08 • 0 条评论

2
推荐
2640
阅读

Intel研究院院长吴甘沙:大数据分析师的卓越之道(珍藏版)

演讲人:吴甘沙 英特尔中国研究院院长兼首席工程师素材来自:经管之家(bbs.pinggu.org) 组织“中国数据分析师行业峰会”。亲爱的各位同仁,各位同学,早上好。大数据时代数据分析师应该做什么改变?我今天的标题是大数据分析师的卓越之道。这个演讲信息量比较大,我讲的不一定对,即使对的我也不一定真懂了,所以请大家以...

发表了文章 • 2015-09-17 11:55 • 0 条评论

0
推荐
2234
阅读

这七种最常见的Hadoop和Spark项目,你见过几种?

如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它...

发表了文章 • 2015-09-17 11:44 • 0 条评论