Hadoop

Hadoop

0
推荐
54
浏览

【老贝伏枥】 数据库窗口函数-windows function

几乎常用的数据库都具备了SQL常用的窗口函数,比如比较常见的row_number() over()。尤其在hive数据库,灵活使用窗口函数能快速实现代码逻辑并提高执行效率。下面就依次分析几个常用函数的用途。1、排序:ROW_NUMB...

贝克汉姆 发表了文章 • 2018-09-30 22:02

0
推荐
78
浏览

【hive常用函数一】日期函数

使用hive进行数据处理的过程种,遇到不少问题,总结之前的一些开发经验,把之前的一些处理技巧mark一下:使用通用的哑表dual作为测试表用。1、时间戳转换日期格式转换时间戳只能精确到秒(即长度只有10位,而不是...

brucelu 发表了文章 • 2018-09-27 22:18

0
推荐
84
浏览

hive 调度

这个方法适用于存在多个hql脚本,想要统一调度,或者多个hql存在依赖关系的场景逻辑简述:四类文件 1、pkg.sh文件(1个pkg.sh文件),用来调度rpt.sh文件,在linux crontab -e 调度中添加这个文件,用...

liliwu 发表了文章 • 2018-09-11 21:11

0
推荐
85
浏览

CDH安装系统环境准备——系统版本和安装包下载地址指南

由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。接下来的日子里,小编将带大家一起学习搭建CDH。...

dcpeng 发表了文章 • 2018-09-11 13:03

7
推荐
392
浏览

实现Hive查询操作HBase中的数据

今天主要给大家讲解一下,如何使用Hive来查询及操作HBase里面的数据,也就是实现二者的数据互通互导,相互操作。首先不了解HBase的亲可以看一下我之前写过的一片博文:《白话解说:SQL与NoSQL》https://ask.hello...

马修 发表了文章 • 2018-08-27 19:54

6
推荐
279
浏览

大数据环境-快速安装使用

安装大数据环境的技术博文、甚至视频课在网上有太多太多啦。还是有很多小伙伴很头疼环境安装配置,怎么安装怎么配置,总有出错的地方,都其中最头疼的莫过于Linux系统的操作。认识一个做数据的朋友,他习惯于wind...

马修 发表了文章 • 2018-08-21 14:54

0
投票
0
回答
219
浏览

HBASE 启动报错 Stop it first.

思恩 发起了问题 • 2018-08-06 22:32
推荐
浏览


ujlfo4 发表了文章 •

推荐
浏览


k3ho8p 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


acuv5r 发表了文章 •

条新动态, 点击查看
牟瑞

牟瑞 回答了问题 • 2015-12-08 13:00 • 3 个回复 不感兴趣

关于Sqoop1.99.6的性能问题!

赞同来自:

不好意思。兄弟,你这个oracle是真没有遇到过。我个人的建议如下:
1.降低sqoop1.99.6版本到sqoop 1.99.3版本试一下。
2.运行sqoop的时候监控下系统的资源情况。
3.换一种思路或者方案,sqoop毕竟只是一个工具,不一定能解决所有... 显示全部 »
不好意思。兄弟,你这个oracle是真没有遇到过。我个人的建议如下:
1.降低sqoop1.99.6版本到sqoop 1.99.3版本试一下。
2.运行sqoop的时候监控下系统的资源情况。
3.换一种思路或者方案,sqoop毕竟只是一个工具,不一定能解决所有的问题,看看能否通过导出的方式,先导出,然后再上传到HDFS上
 
以上,有问题欢迎随时沟通。
多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
Bob

Bob 回答了问题 • 2017-03-14 13:29 • 2 个回复 不感兴趣

hive的启动问题。

赞同来自:

检查${HIVE_HOME}/conf/hive-site.xml中的以下四个属性对应的值:
<name>javax.jdo.option.ConnectionURL</name>
<name>javax.jdo.optio... 显示全部 »
检查${HIVE_HOME}/conf/hive-site.xml中的以下四个属性对应的值:
<name>javax.jdo.option.ConnectionURL</name>
<name>javax.jdo.option.ConnectionDriverName</name>
<name>javax.jdo.option.ConnectionUserName</name>
<name>javax.jdo.option.ConnectionPassword</name>

另外再检查metastore.uris 这个参数的配置
看你要做什么,如果只是刻画用户的画像,做一些简单的统计并不需要用到mllib,但让做离线大数据处理用mapreduce计算模型推荐首选spark做计算引擎,原因是速度比hadoop快。
如果要 涉及到对用户 行为的一些预测,对 用户关系网络 进行分析需要 用到... 显示全部 »
看你要做什么,如果只是刻画用户的画像,做一些简单的统计并不需要用到mllib,但让做离线大数据处理用mapreduce计算模型推荐首选spark做计算引擎,原因是速度比hadoop快。
如果要 涉及到对用户 行为的一些预测,对 用户关系网络 进行分析需要 用到图计算, 要根据用户的历史浏览数据,喜好,评论,做 聚类、推荐 当然是要 用到MLlib
 
regan

regan 回答了问题 • 2017-03-23 15:14 • 1 个回复 不感兴趣

请问谁可以提供Hadoop练习数据集?

赞同来自:

http://archive.ics.uci.edu/ml/
这上面有300来个开放的数据集
http://archive.ics.uci.edu/ml/
这上面有300来个开放的数据集
1.能不能达到领导的目标和期望
2.从技术、人力等方面的投入产出是否符合现状
3.整套体系运行起来后的维护人力、时间方面是否是可承受范围
4.对现有的运营效率是否有提升
5.大数据应用有没有扩大到当前系统研发、数据分析和挖掘等方方面面
1.能不能达到领导的目标和期望
2.从技术、人力等方面的投入产出是否符合现状
3.整套体系运行起来后的维护人力、时间方面是否是可承受范围
4.对现有的运营效率是否有提升
5.大数据应用有没有扩大到当前系统研发、数据分析和挖掘等方方面面
Microsoft R Server 收费
Microsoft R Server 收费
regan

regan 回答了问题 • 2017-04-18 10:49 • 1 个回复 不感兴趣

Hadoop2.7.0可以用hadoop2.6.0-eclipse-plugin吗?

赞同来自:

我觉的行,不过没有尝试过使用hadoop2.6.0-eclipse-pluging.
 只要大的 版本号一样就 没什么问题,试试即可, 不行再换2.7
我觉的行,不过没有尝试过使用hadoop2.6.0-eclipse-pluging.
 只要大的 版本号一样就 没什么问题,试试即可, 不行再换2.7
GFS实际上是一个分布式存储系统,hadoop为你提供了分布式计算(mapreduce)、分布式存储(hdfs)、任务调度(yarn)的功能,在hadoop之上搭建东西,就像在操作系统上安装软件一样,在现在的大数据生态圈,很多的开源项目都是基于hadoop来搭... 显示全部 »
GFS实际上是一个分布式存储系统,hadoop为你提供了分布式计算(mapreduce)、分布式存储(hdfs)、任务调度(yarn)的功能,在hadoop之上搭建东西,就像在操作系统上安装软件一样,在现在的大数据生态圈,很多的开源项目都是基于hadoop来搭建的,例如sql on hadoop的实现hive,数据分析引擎pig,nosql数据库hbase等。说白点就是在hadoop之上进行项目需求的开发或环境的搭建。不知道这样说你明白吗
拆中的办法就是:加内存罢了;或者调整虚拟机内存。其实 这种也是没有办法的办法。
伪分布式 说白了,就是一个节点。
机器性能问题,就是看你怎么用了?你应用到什么环境?
拆中的办法就是:加内存罢了;或者调整虚拟机内存。其实 这种也是没有办法的办法。
伪分布式 说白了,就是一个节点。
机器性能问题,就是看你怎么用了?你应用到什么环境?
liutangwow

liutangwow 回答了问题 • 2017-07-30 18:31 • 2 个回复 不感兴趣

cdh parcel

赞同来自:

上次装的时候,也有问题,是不是虚拟机配置太低了,内存搞大点儿,cpu多分几个
上次装的时候,也有问题,是不是虚拟机配置太低了,内存搞大点儿,cpu多分几个
程序本地写,测试时候发到你的服务器上去跑。
程序本地写,测试时候发到你的服务器上去跑。
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家... 显示全部 »
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家自主学习使用,这个估计要看具体情况;
    公司有没有闲置的机器,都可以利用起来
2. 个人
    个人电脑安装VirtualBox之类的虚拟机,开3个虚拟机玩儿就够了,电脑的话配置也就内存8G以上应该足够了,CPU差不多就行了,直接装Linux就行了;
    可以使用Docker,可以简单的把他看成虚拟机,找些资料看看,简单使用应该没问题,使用Docker开实例很方便,不像虚拟机那样耗费很多资源
    要不开通个阿里云之类的,在云平台上面玩儿,这个价钱不清楚,可以去官网看看
a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。 b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。 ... 显示全部 »
a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。 b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。 c. 从a和b两点,我们可以看出,hadoop重点是全量数据分析,而R语言重点是样本数据分析。 两种技术放在一起,刚好是最长补短! d. 模拟场景:对1PB的新闻网站访问日志做分析,预测未来流量变化 d1:用R语言,通过分析少量数据,对业务目标建回归建模,并定义指标d2:用Hadoop从海量日志数据中,提取指标数据d3:用R语言模型,对指标数据进行测试和调优d4:用Hadoop分步式算法,重写R语言的模型,部署上线这个场景中,R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路,所有有事情都用Hadoop去做,没有数据建模和证明,”预测的结果”一定是有问题的。以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。所以让二者结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间
 
左右

左右 回答了问题 • 2018-06-28 07:44 • 1 个回复 不感兴趣

cognos连cloudera impala 期待回复

赞同来自:

你要看你的cognos版本和impala版本 完全匹配才可以
我这边就照着配的 没啥问题暂时看来
 

55859
 
你要看你的cognos版本和impala版本 完全匹配才可以
我这边就照着配的 没啥问题暂时看来
 

55859
 
3
推荐
1295
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

0
投票
1
回答
1042
浏览
22
推荐
8423
浏览

Hadoop集群搭建笔记

1、安装虚拟机VMware workstationCentOS 镜像 安装Linux虚拟机:(在Win7上)1)安装VMwareWorkstations(可修改配置)2)添加CentOS镜像(启动安装 ->配置网络)网络配置:NAT模式网络重启:service net...

MarsJ 发表了文章 • 2016-09-07 08:55

0
投票
4
已解决
3587
浏览

hadoop、python、Oracle 哪个前景好?

WindyQin 回复了问题 • 2016-11-02 11:40
3
推荐
1135
浏览

Congos+Hive项目记录(一)

大数据现在已经成为企业牛逼的标配,hadoop成为了这个标配的代名词。现把日常点滴记录:一、使用jdbc方式连接cognos和hive,参考:https://ask.hellobi.com/blog/hql15/3572二、使用odbc方式连接步骤如下:1、安...

华青莲 发表了文章 • 2016-07-13 11:05

9
推荐
2432
浏览

Hive与HBase的集成实践

注:若需转载,请注明出处!Hive与HBase集成实践大数据平台搭建 hive-2.0.0 hbase 1.1.3环境说明CentOS 6.7Hadoop 2.7.2Hive 2.0.0HBase 1.1.31. 具体步骤1. 拷贝jar包首先删除$HIVE_HOME/lib下HBase和...

MarsJ 发表了文章 • 2016-05-30 20:13

0
投票
1
已解决
522
浏览

Hadoop2有什么好的性能分析工具,求推荐

MarsJ 回复了问题 • 2016-06-06 10:35
9
推荐
1956
浏览

数据开发系列篇(1):大数据处理和编程实践Hadoop(一)

—————————————————禁止转载———————————————————————————#作者:面包君#时间:2016-4-7#知乎专栏:数据分析侠http://zhuanlan.zhihu.com/dataman首先也是非常支持天善搞的读书分享这种活动,对于知识的沉淀和分享...

面包君 发表了文章 • 2016-04-07 11:20

4
推荐
1227
浏览

Hive安装及使用攻略

让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经...

张丹 发表了文章 • 2016-04-05 19:47

0
投票
1
已解决
899
浏览
0
投票
2
回答
449
浏览

hadoop subdir目录存储大

张丽娜19880929 回复了问题 • 2018-07-20 18:20
0
投票
1
回答
205
浏览
0
投票
1
已解决
281
浏览

cognos连cloudera impala 期待回复

左右 回复了问题 • 2018-06-28 07:44
0
投票
0
回答
162
浏览

咨询kafka分区迷惑

周苗 发起了问题 • 2018-05-17 11:47
0
投票
1
回答
453
浏览
0
投票
0
回答
249
浏览

Impala中查询HBase数据报错

险峰风景 发起了问题 • 2017-12-18 22:14
0
投票
0
回答
211
浏览
0
投票
3
已解决
928
浏览

关于Sqoop1.99.6的性能问题!

呆呆 回复了问题 • 2017-10-20 16:10
0
推荐
85
浏览

CDH安装系统环境准备——系统版本和安装包下载地址指南

由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。接下来的日子里,小编将带大家一起学习搭建CDH。...

dcpeng 发表了文章 • 2018-09-11 13:03

7
推荐
392
浏览

实现Hive查询操作HBase中的数据

今天主要给大家讲解一下,如何使用Hive来查询及操作HBase里面的数据,也就是实现二者的数据互通互导,相互操作。首先不了解HBase的亲可以看一下我之前写过的一片博文:《白话解说:SQL与NoSQL》https://ask.hello...

马修 发表了文章 • 2018-08-27 19:54

6
推荐
279
浏览

大数据环境-快速安装使用

安装大数据环境的技术博文、甚至视频课在网上有太多太多啦。还是有很多小伙伴很头疼环境安装配置,怎么安装怎么配置,总有出错的地方,都其中最头疼的莫过于Linux系统的操作。认识一个做数据的朋友,他习惯于wind...

马修 发表了文章 • 2018-08-21 14:54

推荐
浏览


ujlfo4 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


wreqy0 发表了文章 •

推荐
浏览


m4wtm9 发表了文章 •

推荐
浏览


xeh5ud 发表了文章 •

推荐
浏览


ckmtbv 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


uudvxe 发表了文章 •

推荐
浏览


ckmtbv 发表了文章 •

  Hadoop 是 Apache 软件基金会所研发的开放源码并行运算编程工具和分布式档案系统,与 MapReduce 和 Google 档案系统的概念类似