0
推荐
1627
阅读
大数据挖掘算法篇之K-Means实例
18220.0 0.0 1.0 0.0 0.0 1.0 2.0 1.0 1.0 2.0 2.0 2.0 2.0 0.0 0.0 2.0 7.0 6.0 7.0 7.0 7.0 8.0 8.0 6.0 8.0 7.0 8.0 8.0 8.0 9.0 9.0 7.0 9.0 8.0 9.0 9.0 二、欧几里得距离:欧几里得距离定义: 欧几里得距离( Euclide...
1
推荐
1936
阅读
大数据应用之Windows平台Hbase客户端Eclipse环境搭建-Java版
引子: 大数据的场景下,NoSql型数据库的优势不言而喻,但是涉及NoSQL数据库的实际动手开发的东西多是Linux平台,大多语焉不详,至于Windows平台介绍的东西就更少了,而且大多无法运行。本文就Windows平台基于Eclipse搭建Hbase环境客户端开发环境做一个介绍。另外基于Thrift实现的Windows版本Hbase客户端库也做了封装...
1
推荐
2271
阅读
HBase与Zookeeper数据结构查询
一、前言 最近一年了吧,总是忙于特定项目的业务分析和顶层设计,很少花时间和精力放到具体的技术细节,感觉除了架构理念和分析能力的提升,在具体技术层次却并没有多大的进步。因为一些原因,总被人问及一些技术细节,很多细节都模糊了,花点时间,温习一下吧。技术部分将作为下一个阶段的工作重点。 二、操作...
0
推荐
1471
阅读
Hadoop2.2.0 eclipse插件编译及Ecliipse配置说明(图文版)
一、引言: 最近在做一个城商行项目的POC测试it版本,涉及到编译Linux64bti的源码和开发插件使用,作为笔记分享给大家。二、插件编译 Hadoop2x版本的Eclipse插件已经单独抽取成独立的开源项目,区别于之前版本直接集成到Hadoop1.x版本的模式,需要单独下载,下载网址: https://github.com/winghc/hadoop2x-ecl...
0
推荐
1794
阅读
断篇-金融大数据最佳实践总结篇
一、数据挖掘的价值体现 任何数据分析或者挖掘的项目都不会直接产生经济价值和意义,分析出的数据结果既不能给企业直接带来一个客户,也不能帮助企业卖出一件产品。数据分析的价值体现在于业务部门根据分析结果制定相关的经营策略并贯彻执行。二、大数据之困-通道 大数据之困-如何打通底层数据存储到上层数据服务...
1
推荐
1835
阅读
大数据应用(九)-金融行业-互联网金融对传统银行业的冲击,狼真的来了
一、背景资料 2013年6月13日,余额宝面世,截止3季度末,余额宝已经吸纳资金556.53亿元,实际用户1367.88万户,11月11日当天即时收益率4.8250%。10月28日,“百度金融中心——理财“平台支持的华夏基金上线,由于网民对其高年化收益的期待,不到4小时内即抢购10亿元。10月31日,百度理财平台支持的第二款产品“百赚”持续火...
0
推荐
2226
阅读
大数据应用(八)-HBase数据插入性能优化之多线程并行插入测试案例
一、引言 上篇文章提起关于HBase插入性能优化设计到的五个参数,从参数配置的角度给大家提供了一个性能测试环境的实验代码。根据网友的反馈,基于单线程的模式实现的数据插入毕竟有限。通过个人实测,在我的虚拟机环境下,单线程插入数据的值约为4w/s。集群指标是:CPU双核1.83,虚拟机512M内存,集群部署单点模式。...
0
推荐
2206
阅读
大数据应用(七)-HBase数据插入性能优化实测教程
引言: 大家在使用HBase的过程中,总是面临性能优化的问题,本文从HBase客户端参数设置的角度,研究HBase客户端数据批量插入性能优化的问题。事实胜于雄辩,数据比理论更有说服力,基于此,作者设计了这么一个HBase数据插入性能优化实测实验,希望大家用自己的服务器跑出的结果,给自己一个值得信服的结论。一、客户...
1
推荐
2184
阅读
大数据应用(六)-MongoDB从入门到精通你不得不知的21个为什么?
一、引言: 互联网的发展和电子商务平台的崛起,催生了大数据时代的来临,作为大数据典型开发框架的MongoDB成为了No-sql数据库的典型代表。MongoDB从入门到精通你不得不知的21个为什么专为大数据时代,大数据应用系统系统分析、架构设计和平台开发人员而准备。希望能够为大家起到提纲挈领,指明大家学习目标和方向的...
0
推荐
1602
阅读
大数据应用日志采集(二)-Scribe演示实例完全解析
引子: Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。当中央存储系统的网络或者机器出现故障...
0
推荐
1926
阅读
大数据应用日志采集(一)-Scribe 安装配置指南
1.概述Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能从各种日志源收集日志,存储到一个中央存储系统上,便于进行集中统计分析处理。它为日志的”分布式收集,统一处理”提供了一个可扩展的,高容错的方案。scribe代码很简单,但是安装配置却很复杂,本文记录了作者实际的一次安装的过程,...
1
推荐
1616
阅读
大数据应用(四)-Windows平台Hbase客户端Eclipse环境搭建-Java版
引子 大数据的场景下,NoSql型数据库的优势不言而喻,但是涉及NoSQL数据库的实际动手开发的东西多是Linux平台,大多语焉不详,至于Windows平台介绍的东西就更少了,而且大多无法运行。本文就Windows平台基于Eclipse搭建Hbase环境客户端开发环境做一个介绍。另外基于Thrift实现的Windows版本Hbase客户端库也做了封装,...
0
推荐
1663
阅读
大数据应用(三)-双色球算奖平台总体设计历史数据存储篇
1.1 引子:文件OR数据库 历史期次的双色球选注数据的存储,采用什么样的格式比较好呢?这需要重点从三个方面考虑,一、文件访问方便吗?二、文件服务器空间够用吗?三、软硬件故障环境下,如何保障数据的可用性。基于这几个方面的考虑,到底是采用文件存储还是采用数据库存储呢?本文,从传统和前沿技术两个角度给出...
1
推荐
1957
阅读
大数据应用(二)-双色球算奖平台总体设计数据规模估算篇
引子:什么才算大数据? 自从写了上一篇大数据应用(一)-双色球算奖平台总体设计大纲篇,受到许多小伙伴们的关注和指导,在此表示感谢,尤其是其中一个小伙伴给出的一个评论,让我深思,原文如下“双色球算奖这么简单的活,也称大数据。先生:不是数据多,叫大数据。双色球算奖,用Oracle数据库的索引,1分钟内就算完...
0
推荐
1565
阅读
大数据应用(一)-双色球算奖平台总体设计大纲篇
引子:双色球延期开奖,你Hold住了吗 福利彩票走进百姓生活,每期的500w大奖吸引了千万彩民的眼球和关注,备受争议的双色球延期开奖也成了争议的焦点,成为继12306之后,又一个站在风口浪尖的悲催儿。黑幕说,红会说,各种说甚嚣尘上。IT人只做技术事,至于类似美美卡里究竟几个零,一套内衣值几多银子的问题,还是交...