Hadoop

Hadoop

0
投票
3
回答
3531
浏览

跑数出现连不上hive数据库的问题

doubleK24 回复了问题 • 2021-03-27 16:04
0
投票
0
回答
2197
浏览
0
推荐
1291
浏览

Hive3 误操作删除数据后的恢复方案

cx库t3表hdfs://nameservice1:8020/user/hive/warehouse/cx.db/t3/delta_0000011_0000011_0000hdfs://nameservice1:8020/user/hive/warehouse/cx.db/t3/delta_0000012_0000012_0000hdfs://nameservice1:8020/user...

老头子 发表了文章 • 2021-03-04 17:19

0
推荐
1975
浏览

Hive UDF 无法删除的BUG

问题当创建UDF过程报错,如:Class不存在等,show functions like 'xx' 会发现UDF创建成功,实际函数本身是有问题的直接drop function xx,提示成功但实际show function的时候还是可以看到退出重进、重启都...

老头子 发表了文章 • 2021-01-19 13:44

0
投票
1
回答
2243
浏览
0
投票
1
回答
1422
浏览
0
推荐
2639
浏览

Python数据插入Hive中文编码问题

日常使用Hive时候  经常出现中文乱码问题  在此总结下MySQL大量数据插入Hive时,一般两种情况:手动导入Hive或者用Python代码(基于python2)一.MySQL数据中文手动插入Hive手动导入数据:1.从MySQL拉数...

走马兰台 发表了文章 • 2019-11-10 18:35

0
推荐
1489
浏览

python 实现hadoop的mapreduce

为了用python实现mapreduce,我们先引入下面两个个知识sys.stdin()itertools之groupbysys模块的简单学习sys.stdin 是一个文件描述符,代表标准输入,不需使用open函数打开,就可以使用例如下面的简单程序 &n...

DataFrog 发表了文章 • 2019-08-28 19:38

0
推荐
1395
浏览

单机 大数据平台搭建 2-- MapReduce和YARN

https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YARN.html  YARN资源调度管理平台...对于那些上来就讲一堆理论的,理论+实践才是硬道理;想了解理论知识的可以去研究官方文档1. ...

攻城的狮子 发表了文章 • 2019-08-24 21:33

0
推荐
1390
浏览

单机 大数据平台搭建 1-- HDFS安装

本系列文包含HDFS,YARN,MapReduce,HIVE,Spark的安装和使用,不出意外的话每周更新一篇;配置都是基于官方文档,所以大家多阅读理解官网 好处多多; 单机环境很适合初学者开发学习。环境是CentOS7 ;hadoop-2.6...

攻城的狮子 发表了文章 • 2019-08-24 21:07

0
投票
1
回答
3681
浏览
0
投票
2
回答
4793
浏览

hiveserver2不能启动

天桥下的郑成功 回复了问题 • 2019-04-02 11:05
0
投票
3
回答
6368
浏览

hadoop subdir目录存储大

rose888888 回复了问题 • 2019-03-05 15:26
0
推荐
1819
浏览

MapReduce数据处理[经典面试题02]

互联网公司处理的比较多的数据就是日志数据,其中访问日志处理要求就比较多一点,一般来说会有要求按照用户进行分组提取相关数据:一个比较常见的需求就是,取用户最近的访问记录,例如有两分文件:1、用户信息文...

brucelu 发表了文章 • 2019-01-05 12:48

0
推荐
2836
浏览

MapReduce数据处理[经典面试题01]

最近有了解到一些数据开发的面试提会要求开发进行手动编写map-reduce;记录一下使用map-reduce进行数据处理的过程及逻辑;现在版本的map-reduce过程基本都依赖新的jar包,之前的mapred相关的类后面不被推荐使用,...

brucelu 发表了文章 • 2019-01-05 11:59

条新动态, 点击查看
牟瑞

牟瑞 回答了问题 • 2015-12-08 13:00 • 3 个回复 不感兴趣

关于Sqoop1.99.6的性能问题!

赞同来自:

不好意思。兄弟,你这个oracle是真没有遇到过。我个人的建议如下:
1.降低sqoop1.99.6版本到sqoop 1.99.3版本试一下。
2.运行sqoop的时候监控下系统的资源情况。
3.换一种思路或者方案,sqoop毕竟只是一个工具,不一定能解决所有... 显示全部 »
不好意思。兄弟,你这个oracle是真没有遇到过。我个人的建议如下:
1.降低sqoop1.99.6版本到sqoop 1.99.3版本试一下。
2.运行sqoop的时候监控下系统的资源情况。
3.换一种思路或者方案,sqoop毕竟只是一个工具,不一定能解决所有的问题,看看能否通过导出的方式,先导出,然后再上传到HDFS上
 
以上,有问题欢迎随时沟通。
多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
看你要做什么,如果只是刻画用户的画像,做一些简单的统计并不需要用到mllib,但让做离线大数据处理用mapreduce计算模型推荐首选spark做计算引擎,原因是速度比hadoop快。
如果要 涉及到对用户 行为的一些预测,对 用户关系网络 进行分析需要 用到... 显示全部 »
看你要做什么,如果只是刻画用户的画像,做一些简单的统计并不需要用到mllib,但让做离线大数据处理用mapreduce计算模型推荐首选spark做计算引擎,原因是速度比hadoop快。
如果要 涉及到对用户 行为的一些预测,对 用户关系网络 进行分析需要 用到图计算, 要根据用户的历史浏览数据,喜好,评论,做 聚类、推荐 当然是要 用到MLlib
 
regan

regan 回答了问题 • 2017-03-23 15:14 • 1 个回复 不感兴趣

请问谁可以提供Hadoop练习数据集?

赞同来自:

http://archive.ics.uci.edu/ml/
这上面有300来个开放的数据集
http://archive.ics.uci.edu/ml/
这上面有300来个开放的数据集
1.能不能达到领导的目标和期望
2.从技术、人力等方面的投入产出是否符合现状
3.整套体系运行起来后的维护人力、时间方面是否是可承受范围
4.对现有的运营效率是否有提升
5.大数据应用有没有扩大到当前系统研发、数据分析和挖掘等方方面面
1.能不能达到领导的目标和期望
2.从技术、人力等方面的投入产出是否符合现状
3.整套体系运行起来后的维护人力、时间方面是否是可承受范围
4.对现有的运营效率是否有提升
5.大数据应用有没有扩大到当前系统研发、数据分析和挖掘等方方面面
Microsoft R Server 收费
Microsoft R Server 收费
regan

regan 回答了问题 • 2017-04-18 10:49 • 1 个回复 不感兴趣

Hadoop2.7.0可以用hadoop2.6.0-eclipse-plugin吗?

赞同来自:

我觉的行,不过没有尝试过使用hadoop2.6.0-eclipse-pluging.
 只要大的 版本号一样就 没什么问题,试试即可, 不行再换2.7
我觉的行,不过没有尝试过使用hadoop2.6.0-eclipse-pluging.
 只要大的 版本号一样就 没什么问题,试试即可, 不行再换2.7
GFS实际上是一个分布式存储系统,hadoop为你提供了分布式计算(mapreduce)、分布式存储(hdfs)、任务调度(yarn)的功能,在hadoop之上搭建东西,就像在操作系统上安装软件一样,在现在的大数据生态圈,很多的开源项目都是基于hadoop来搭... 显示全部 »
GFS实际上是一个分布式存储系统,hadoop为你提供了分布式计算(mapreduce)、分布式存储(hdfs)、任务调度(yarn)的功能,在hadoop之上搭建东西,就像在操作系统上安装软件一样,在现在的大数据生态圈,很多的开源项目都是基于hadoop来搭建的,例如sql on hadoop的实现hive,数据分析引擎pig,nosql数据库hbase等。说白点就是在hadoop之上进行项目需求的开发或环境的搭建。不知道这样说你明白吗
拆中的办法就是:加内存罢了;或者调整虚拟机内存。其实 这种也是没有办法的办法。
伪分布式 说白了,就是一个节点。
机器性能问题,就是看你怎么用了?你应用到什么环境?
拆中的办法就是:加内存罢了;或者调整虚拟机内存。其实 这种也是没有办法的办法。
伪分布式 说白了,就是一个节点。
机器性能问题,就是看你怎么用了?你应用到什么环境?
liutangwow

liutangwow 回答了问题 • 2017-07-30 18:31 • 2 个回复 不感兴趣

cdh parcel

赞同来自:

上次装的时候,也有问题,是不是虚拟机配置太低了,内存搞大点儿,cpu多分几个
上次装的时候,也有问题,是不是虚拟机配置太低了,内存搞大点儿,cpu多分几个
程序本地写,测试时候发到你的服务器上去跑。
程序本地写,测试时候发到你的服务器上去跑。
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家... 显示全部 »
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家自主学习使用,这个估计要看具体情况;
    公司有没有闲置的机器,都可以利用起来
2. 个人
    个人电脑安装VirtualBox之类的虚拟机,开3个虚拟机玩儿就够了,电脑的话配置也就内存8G以上应该足够了,CPU差不多就行了,直接装Linux就行了;
    可以使用Docker,可以简单的把他看成虚拟机,找些资料看看,简单使用应该没问题,使用Docker开实例很方便,不像虚拟机那样耗费很多资源
    要不开通个阿里云之类的,在云平台上面玩儿,这个价钱不清楚,可以去官网看看
a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。 b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。 ... 显示全部 »
a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。 b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。 c. 从a和b两点,我们可以看出,hadoop重点是全量数据分析,而R语言重点是样本数据分析。 两种技术放在一起,刚好是最长补短! d. 模拟场景:对1PB的新闻网站访问日志做分析,预测未来流量变化 d1:用R语言,通过分析少量数据,对业务目标建回归建模,并定义指标d2:用Hadoop从海量日志数据中,提取指标数据d3:用R语言模型,对指标数据进行测试和调优d4:用Hadoop分步式算法,重写R语言的模型,部署上线这个场景中,R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路,所有有事情都用Hadoop去做,没有数据建模和证明,”预测的结果”一定是有问题的。以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。所以让二者结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间
 
写shell脚本 #!/bin/bash
hive -e

"use youdatabase;
insert overwrite local directory '/home/hive/userlogs' into table user_log... 显示全部 »
写shell脚本 #!/bin/bash
hive -e

"use youdatabase;
insert overwrite local directory '/home/hive/userlogs' into table user_logs;
"

左右

左右 回答了问题 • 2018-06-28 07:44 • 1 个回复 不感兴趣

cognos连cloudera impala 期待回复

赞同来自:

你要看你的cognos版本和impala版本 完全匹配才可以
我这边就照着配的 没啥问题暂时看来
 

55859
 
你要看你的cognos版本和impala版本 完全匹配才可以
我这边就照着配的 没啥问题暂时看来
 

55859
 
3
推荐
4278
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

0
投票
1
回答
4178
浏览
25
推荐
18964
浏览

Hadoop集群搭建笔记

1、安装虚拟机VMware workstationCentOS 镜像 安装Linux虚拟机:(在Win7上)1)安装VMwareWorkstations(可修改配置)2)添加CentOS镜像(启动安装 ->配置网络)网络配置:NAT模式网络重启:service net...

MarsJ 发表了文章 • 2016-09-07 08:55

0
投票
4
已解决
5812
浏览

hadoop、python、Oracle 哪个前景好?

WindyQin 回复了问题 • 2016-11-02 11:40
3
推荐
2703
浏览

Congos+Hive项目记录(一)

大数据现在已经成为企业牛逼的标配,hadoop成为了这个标配的代名词。现把日常点滴记录:一、使用jdbc方式连接cognos和hive,参考:https://ask.hellobi.com/blog/hql15/3572二、使用odbc方式连接步骤如下:1、安...

华青莲 发表了文章 • 2016-07-13 11:05

9
推荐
5417
浏览

Hive与HBase的集成实践

注:若需转载,请注明出处!Hive与HBase集成实践大数据平台搭建 hive-2.0.0 hbase 1.1.3环境说明CentOS 6.7Hadoop 2.7.2Hive 2.0.0HBase 1.1.31. 具体步骤1. 拷贝jar包首先删除$HIVE_HOME/lib下HBase和...

MarsJ 发表了文章 • 2016-05-30 20:13

0
投票
1
已解决
1410
浏览

Hadoop2有什么好的性能分析工具,求推荐

MarsJ 回复了问题 • 2016-06-06 10:35
9
推荐
3928
浏览

数据开发系列篇(1):大数据处理和编程实践Hadoop(一)

—————————————————禁止转载———————————————————————————#作者:面包君#时间:2016-4-7#知乎专栏:数据分析侠http://zhuanlan.zhihu.com/dataman首先也是非常支持天善搞的读书分享这种活动,对于知识的沉淀和分享...

面包君 发表了文章 • 2016-04-07 11:20

4
推荐
2835
浏览

Hive安装及使用攻略

让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经...

张丹 发表了文章 • 2016-04-05 19:47

0
投票
1
已解决
2395
浏览
0
投票
0
回答
2197
浏览
0
投票
1
回答
1422
浏览
0
投票
2
回答
4793
浏览

hiveserver2不能启动

天桥下的郑成功 回复了问题 • 2019-04-02 11:05
0
投票
3
回答
6368
浏览

hadoop subdir目录存储大

rose888888 回复了问题 • 2019-03-05 15:26
0
投票
1
已解决
1675
浏览
0
投票
1
已解决
2335
浏览

cognos连cloudera impala 期待回复

左右 回复了问题 • 2018-06-28 07:44
0
投票
0
回答
1477
浏览

咨询kafka分区迷惑

周苗 发起了问题 • 2018-05-17 11:47
0
投票
1
回答
3666
浏览
0
投票
0
回答
1634
浏览

Impala中查询HBase数据报错

险峰风景 发起了问题 • 2017-12-18 22:14
0
投票
0
回答
1515
浏览
0
推荐
1489
浏览

python 实现hadoop的mapreduce

为了用python实现mapreduce,我们先引入下面两个个知识sys.stdin()itertools之groupbysys模块的简单学习sys.stdin 是一个文件描述符,代表标准输入,不需使用open函数打开,就可以使用例如下面的简单程序 &n...

DataFrog 发表了文章 • 2019-08-28 19:38

0
推荐
2299
浏览

安装Hadoop和CDH记录

一、单节点安装Hadoop1.安装java因为已经安装过了,在此不多说,之前安装记录:https://ask.hellobi.com/blog/ysfyb/12008另外有时候输入命令:jps,提示bash: jps: command not found...一个是未配置环境变量,另...

走马兰台 发表了文章 • 2018-12-20 17:05

0
推荐
2076
浏览

CDH安装系统环境准备——系统版本和安装包下载地址指南

由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。接下来的日子里,小编将带大家一起学习搭建CDH。...

dcpeng 发表了文章 • 2018-09-11 13:03

7
推荐
4775
浏览

实现Hive查询操作HBase中的数据

今天主要给大家讲解一下,如何使用Hive来查询及操作HBase里面的数据,也就是实现二者的数据互通互导,相互操作。首先不了解HBase的亲可以看一下我之前写过的一片博文:《白话解说:SQL与NoSQL》https://ask.hello...

Max_Leo 发表了文章 • 2018-08-27 19:54

7
推荐
2411
浏览

大数据环境-快速安装使用

安装大数据环境的技术博文、甚至视频课在网上有太多太多啦。还是有很多小伙伴很头疼环境安装配置,怎么安装怎么配置,总有出错的地方,都其中最头疼的莫过于Linux系统的操作。认识一个做数据的朋友,他习惯于wind...

Max_Leo 发表了文章 • 2018-08-21 14:54

推荐
浏览


ujlfo4 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


wreqy0 发表了文章 •

推荐
浏览


m4wtm9 发表了文章 •

推荐
浏览


xeh5ud 发表了文章 •

推荐
浏览


ckmtbv 发表了文章 •

推荐
浏览


ggud76 发表了文章 •

  Hadoop 是 Apache 软件基金会所研发的开放源码并行运算编程工具和分布式档案系统,与 MapReduce 和 Google 档案系统的概念类似