Hadoop

投票

回答

3605

浏览

跑数出现连不上hive数据库的问题

贡献

Hive

doubleK24 回复了问题 • 2021-03-27 16:04

投票

回答

2317

浏览

HDP中Metrics Collector服务启动后立即终止

Spark Hive HBASE Hadoop 大数据

袁某某发起了问题 • 2020-12-16 11:30

推荐

1423

浏览

Hive3 误操作删除数据后的恢复方案

cx库t3表hdfs://nameservice1:8020/user/hive/warehouse/cx.db/t3/delta_0000011_0000011_0000hdfs://nameservice1:8020/user/hive/warehouse/cx.db/t3/delta_0000012_0000012_0000hdfs://nameservice1:8020/user...

老头子发表了文章 • 2021-03-04 17:19

推荐

2117

浏览

Hive UDF 无法删除的BUG

问题当创建UDF过程报错，如：Class不存在等，show functions like 'xx' 会发现UDF创建成功，实际函数本身是有问题的直接drop function xx，提示成功但实际show function的时候还是可以看到退出重进、重启都...

老头子发表了文章 • 2021-01-19 13:44

投票

回答

2299

浏览

有条hiveSql走Tez引擎, 针对mr的配置应该不会生效了吧?

贡献

Hive 大数据

meituan 回复了问题 • 2020-09-24 14:09

投票

回答

1480

浏览

SQL Server Data Tools通过HDFS文件源读取Hadoop文件

Hadoop SSIS ETL

LeoGYQ 回复了问题 • 2020-08-14 11:22

推荐

2717

浏览

Python数据插入Hive中文编码问题

日常使用Hive时候经常出现中文乱码问题在此总结下MySQL大量数据插入Hive时，一般两种情况：手动导入Hive或者用Python代码（基于python2）一.MySQL数据中文手动插入Hive手动导入数据：1.从MySQL拉数...

走马兰台发表了文章 • 2019-11-10 18:35

推荐

1584

浏览

python 实现hadoop的mapreduce

为了用python实现mapreduce，我们先引入下面两个个知识sys.stdin()itertools之groupbysys模块的简单学习sys.stdin 是一个文件描述符，代表标准输入，不需使用open函数打开，就可以使用例如下面的简单程序 &n...

DataFrog 发表了文章 • 2019-08-28 19:38

推荐

1446

浏览

单机大数据平台搭建 2-- MapReduce和YARN

https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YARN.html YARN资源调度管理平台...对于那些上来就讲一堆理论的，理论+实践才是硬道理；想了解理论知识的可以去研究官方文档1. ...

攻城的狮子发表了文章 • 2019-08-24 21:33

推荐

1448

浏览

单机大数据平台搭建 1-- HDFS安装

本系列文包含HDFS,YARN，MapReduce，HIVE，Spark的安装和使用，不出意外的话每周更新一篇；配置都是基于官方文档，所以大家多阅读理解官网好处多多；单机环境很适合初学者开发学习。环境是CentOS7 ；hadoop-2.6...

攻城的狮子发表了文章 • 2019-08-24 21:07

投票

回答

3742

浏览

通过ODI接口把数据从Oracle数据库抽到HIVE数据库怎么解决

贡献

ETL ODI Oracle Hive 大数据

seng 回复了问题 • 2019-08-01 10:21

投票

回答

4848

浏览

hiveserver2不能启动

贡献

Hive Hadoop

天桥下的郑成功回复了问题 • 2019-04-02 11:05

投票

回答

6420

浏览

hadoop subdir目录存储大

贡献

HBASE Hadoop

rose888888 回复了问题 • 2019-03-05 15:26

推荐

1861

浏览

MapReduce数据处理[经典面试题02]

互联网公司处理的比较多的数据就是日志数据，其中访问日志处理要求就比较多一点，一般来说会有要求按照用户进行分组提取相关数据：一个比较常见的需求就是，取用户最近的访问记录，例如有两分文件：1、用户信息文...

brucelu 发表了文章 • 2019-01-05 12:48

推荐

2913

浏览

MapReduce数据处理[经典面试题01]

最近有了解到一些数据开发的面试提会要求开发进行手动编写map-reduce；记录一下使用map-reduce进行数据处理的过程及逻辑；现在版本的map-reduce过程基本都依赖新的jar包，之前的mapred相关的类后面不被推荐使用，...

brucelu 发表了文章 • 2019-01-05 11:59

牟瑞回答了问题 • 2015-12-08 13:00 • 3 个回复不感兴趣

关于Sqoop1.99.6的性能问题！

不好意思。兄弟，你这个oracle是真没有遇到过。我个人的建议如下：
1.降低sqoop1.99.6版本到sqoop 1.99.3版本试一下。
2.运行sqoop的时候监控下系统的资源情况。
3.换一种思路或者方案，sqoop毕竟只是一个工具，不一定能解决所有... 显示全部 »

Bob 回答了问题 • 2017-03-14 13:24 • 2 个回复不感兴趣

国内大多互联网公司的大数据工程师实习都是需要大数据项目经验，怎么样在自己研究方向不是数据科学和ml相关的情况下接触到hadoop，spark相关项目呢？

多学习，cloudera公司的官网上就有包含所有大数据技术的虚拟机，供学习使用。
多逛大数据的问答社区
主动参与到其他的项目，哪怕是打杂都是可以的。学习这些项目的实际运作流程

regan 回答了问题 • 2017-03-17 14:57 • 1 个回复不感兴趣

请问用户画像分析，是离线数据Mapreduce，还是需要用到MLlib

看你要做什么，如果只是刻画用户的画像，做一些简单的统计并不需要用到mllib，但让做离线大数据处理用mapreduce计算模型推荐首选spark做计算引擎，原因是速度比hadoop快。
如果要涉及到对用户行为的一些预测，对用户关系网络进行分析需要用到... 显示全部 »

regan 回答了问题 • 2017-03-23 15:14 • 1 个回复不感兴趣

请问谁可以提供Hadoop练习数据集？

http://archive.ics.uci.edu/ml/
这上面有300来个开放的数据集

Bob 回答了问题 • 2017-03-30 13:55 • 2 个回复不感兴趣

做大数据大家比较关心哪个方面？优先保证hadoop整个集群的正常运转？快速开发map/reduce？保证数据分析的速度？保证数据分析的准确性？

1.能不能达到领导的目标和期望
2.从技术、人力等方面的投入产出是否符合现状
3.整套体系运行起来后的维护人力、时间方面是否是可承受范围
4.对现有的运营效率是否有提升
5.大数据应用有没有扩大到当前系统研发、数据分析和挖掘等方方面面

谢佳标回答了问题 • 2017-04-06 19:31 • 1 个回复不感兴趣

Microsoft R Server for Hadoop 与 R的sparklyr有什么区别？

Microsoft R Server 收费

regan 回答了问题 • 2017-04-18 10:49 • 1 个回复不感兴趣

Hadoop2.7.0可以用hadoop2.6.0-eclipse-plugin吗?

我觉的行，不过没有尝试过使用hadoop2.6.0-eclipse-pluging.
只要大的版本号一样就没什么问题，试试即可，不行再换2.7

regan 回答了问题 • 2017-04-20 18:20 • 1 个回复不感兴趣

基于hadoop，GFS，上面又搭了个东西，到底是啥意思？

GFS实际上是一个分布式存储系统，hadoop为你提供了分布式计算（mapreduce）、分布式存储(hdfs)、任务调度（yarn）的功能，在hadoop之上搭建东西，就像在操作系统上安装软件一样，在现在的大数据生态圈，很多的开源项目都是基于hadoop来搭... 显示全部 »

H_Elsker 回答了问题 • 2017-04-28 17:01 • 1 个回复不感兴趣

虚拟机搭建hadoop分布非常费内存，对机子要求比较高，有没有折中的办法？伪分布式是怎么回事？可以解决机器性能问题吗？

拆中的办法就是：加内存罢了；或者调整虚拟机内存。其实这种也是没有办法的办法。
伪分布式说白了，就是一个节点。
机器性能问题，就是看你怎么用了？你应用到什么环境？

liutangwow 回答了问题 • 2017-07-30 18:31 • 2 个回复不感兴趣

cdh parcel

上次装的时候，也有问题，是不是虚拟机配置太低了，内存搞大点儿，cpu多分几个

regan 回答了问题 • 2017-08-30 10:24 • 1 个回复不感兴趣

请问一下，你们做hadoop mr的时候是在本地开发还是在虚拟机上开发的？

程序本地写，测试时候发到你的服务器上去跑。

liutangwow 回答了问题 • 2017-08-09 13:31 • 2 个回复不感兴趣

像spark hadoop这些大数据相关的怎么自我学习，比如说集群个人电脑条件也不满足有没有什么云平台可以提供实验环境？

目前我好想没有听说过有这样的平台，要学习的话，我觉得有这样的几个建议：
1. 公司支持
公司技术迭代，需要使用Hadoop、Spark，那肯定会提供测试环境等一切资源，那就很方便了；
公司没有需求，那是否可以和上级领导反馈下，申请测试环境供大家... 显示全部 »

徐燕回答了问题 • 2017-09-01 09:19 • 1 个回复不感兴趣

实战过程中，R语言在大数据分析里主要起到怎么做用啊？跟hadoop这些是如何配合工作的？？

a. Hadoop家族的强大之处，在于对大数据的处理，让原来的不可能（TB,PB数据量计算），成为了可能。 b. R语言的强大之处，在于统计分析，在没有Hadoop之前，我们对于大数据的处理，要取样本，假设检验，做回归，长久以来R语言都是统计学家专属的工具。 ... 显示全部 »

贝克汉姆回答了问题 • 2018-07-15 14:46 • 1 个回复不感兴趣

通过Linux语句操作Linux环境上的hive上的表数据

写shell脚本 #!/bin/bash
hive -e

"use youdatabase;
insert overwrite local directory '/home/hive/userlogs' into table user_log... 显示全部 »

左右回答了问题 • 2018-06-28 07:44 • 1 个回复不感兴趣

cognos连cloudera impala 期待回复

你要看你的cognos版本和impala版本完全匹配才可以
我这边就照着配的没啥问题暂时看来

55859

投票

回答

2317

浏览

HDP中Metrics Collector服务启动后立即终止

Spark Hive HBASE Hadoop 大数据

袁某某发起了问题 • 2020-12-16 11:30

投票

回答

1480

浏览

SQL Server Data Tools通过HDFS文件源读取Hadoop文件

Hadoop SSIS ETL

LeoGYQ 回复了问题 • 2020-08-14 11:22

投票

回答

4848

浏览

hiveserver2不能启动

Hive Hadoop

天桥下的郑成功回复了问题 • 2019-04-02 11:05

投票

回答

6420

浏览

hadoop subdir目录存储大

HBASE Hadoop

rose888888 回复了问题 • 2019-03-05 15:26

投票

回答

2115

浏览

问下在hive里面有A库和B库两个库都有一个C表 insert A.C select B.C 为何会很慢呢

Hadoop Hive

MarsJ 回复了问题 • 2018-10-09 11:51

投票

回答

5349

浏览

CDH 报错 File does not exist: /user/dr.who/.staging/job_1532143187549_0023/job_1532143187549_0023.summary

Hive Hadoop 大数据

小小鱼发起了问题 • 2018-07-21 15:58

投票

回答

1890

浏览

求助，针对大数据平台（Hadoop，Hive,HBase），有那些开源的数据安全监控管理工具？主要用于数据安全管理，非法数据访问的管理分析，谢谢。

Hive Hadoop

贝克汉姆回复了问题 • 2018-07-15 14:57

投票

已解决

1712

浏览

通过Linux语句操作Linux环境上的hive上的表数据

Hadoop Hive

贝克汉姆回复了问题 • 2018-07-15 14:50

投票

已解决

2361

浏览

cognos连cloudera impala 期待回复

Hadoop Cognos

左右回复了问题 • 2018-06-28 07:44

投票

回答

1512

浏览

咨询kafka分区迷惑

Hadoop

周苗发起了问题 • 2018-05-17 11:47

投票

回答

2103

浏览

请教一下前辈们，paas和spss、python、sas、hadoop之类的从属关系怎么理解？重要性呢？

数据挖掘 SAS Hadoop 数据分析 R语言 Python 新手入门

tianlan 回复了问题 • 2018-03-22 15:38

投票

回答

3737

浏览

Sqoop 连接MySQL报错：拒绝连接 (Connection refused)

大数据 Hadoop

H_Elsker 回复了问题 • 2018-02-26 14:56

投票

已解决

2907

浏览

国内大多互联网公司的大数据工程师实习都是需要大数据项目经验，怎么样在自己研究方向不是数据科学和ml相关的情况下接触到hadoop，spark相关项目呢？

Hadoop Spark

leisinanren 回复了问题 • 2018-01-09 13:51

投票

回答

1657

浏览

Impala中查询HBase数据报错

Hadoop

险峰风景发起了问题 • 2017-12-18 22:14

投票

回答

1542

浏览

【IT出版】计算机、软件、互联网、大数据类出版征稿

Hadoop 数据分析

bookred 发起了问题 • 2017-11-21 17:17

推荐

1584

浏览

python 实现hadoop的mapreduce

DataFrog 发表了文章 • 2019-08-28 19:38

推荐

2391

浏览

安装Hadoop和CDH记录

一、单节点安装Hadoop1.安装java因为已经安装过了，在此不多说，之前安装记录：https://ask.hellobi.com/blog/ysfyb/12008另外有时候输入命令：jps,提示bash: jps: command not found...一个是未配置环境变量，另...

走马兰台发表了文章 • 2018-12-20 17:05

推荐

2159

浏览

CDH安装系统环境准备——系统版本和安装包下载地址指南

由于Hadoop深受客户欢迎，许多公司都推出了各自版本的Hadoop，也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中，规模最大、知名度最高的公司则是Cloudera。接下来的日子里，小编将带大家一起学习搭建CDH。...

dcpeng 发表了文章 • 2018-09-11 13:03

推荐

4868

浏览

实现Hive查询操作HBase中的数据

今天主要给大家讲解一下，如何使用Hive来查询及操作HBase里面的数据，也就是实现二者的数据互通互导，相互操作。首先不了解HBase的亲可以看一下我之前写过的一片博文：《白话解说：SQL与NoSQL》https://ask.hello...

Max_Leo 发表了文章 • 2018-08-27 19:54

推荐

2501

浏览

大数据环境-快速安装使用

安装大数据环境的技术博文、甚至视频课在网上有太多太多啦。还是有很多小伙伴很头疼环境安装配置，怎么安装怎么配置，总有出错的地方，都其中最头疼的莫过于Linux系统的操作。认识一个做数据的朋友，他习惯于wind...

Max_Leo 发表了文章 • 2018-08-21 14:54

推荐

浏览

ujlfo4 发表了文章 •

推荐

浏览

ggud76 发表了文章 •

推荐

浏览

zeh9vi 发表了文章 •

推荐

浏览

pbjq5s 发表了文章 •

推荐

浏览

ggud76 发表了文章 •

推荐

浏览

wreqy0 发表了文章 •

推荐

浏览

m4wtm9 发表了文章 •

推荐

浏览

xeh5ud 发表了文章 •

推荐

浏览

ckmtbv 发表了文章 •

推荐

浏览

ggud76 发表了文章 •

更多...

Hadoop 是 Apache 软件基金会所研发的开放源码并行运算编程工具和分布式档案系统，与 MapReduce 和 Google 档案系统的概念类似

话题描述

Hadoop 是 Apache 软件基金会所研发的开放源码并行运算编程工具和分布式档案系统，与 MapReduce 和 Google 档案系统的概念类似

根话题

大数据

最佳回复者

: Bob
获得 45 次赞同, 23 次感谢

: MarsJ
获得 24 次赞同, 18 次感谢

: 牟瑞
获得 43 次赞同, 9 次感谢

: GeorgeYao
获得 1 次赞同, 4 次感谢

: seng
获得 5 次赞同, 2 次感谢

Hadoop

话题描述

相关话题

根话题

最佳回复者

1021 人关注该话题