大数据在线答疑

大数据在线答疑

0
投票
4
已解决
2394
浏览

hadoop大数据挖掘用什么做

seng 回复了问题 • 2015-09-25 16:27
0
投票
1
已解决
3587
浏览
0
投票
1
已解决
7311
浏览
0
投票
0
回答
4115
浏览
0
投票
1
已解决
2039
浏览
0
投票
1
已解决
2654
浏览
条新动态, 点击查看
日志汇聚的话一般用flume来采集webserver产生的日志数据,Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
日志汇聚的话一般用flume来采集webserver产生的日志数据,Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
hadoop本身就自带任务监控的。http://namenode:50070
hadoop本身就自带任务监控的。http://namenode:50070
map 结束后 有很多reduce。。又suffle和另一个东西帮我们排序。。。reduce接收到的是 1个Key 以及诸多map后key相同的 value的集合
map 结束后 有很多reduce。。又suffle和另一个东西帮我们排序。。。reduce接收到的是 1个Key 以及诸多map后key相同的 value的集合
使用kill命令,直接杀死进程。
使用kill命令,直接杀死进程。
没有遇到过这种情况啊。按道理来讲,端口是开放的,每个客户端都是可以访问的。
你看一下是不是hadoop的权限问题。
在hdfs-site.xml文件里面追加
<property>
<name>dfs.permissions&l... 显示全部 »
没有遇到过这种情况啊。按道理来讲,端口是开放的,每个客户端都是可以访问的。
你看一下是不是hadoop的权限问题。
在hdfs-site.xml文件里面追加
<property>
<name>dfs.permissions</name>
<value>false</value>
</property> 然后重启集群,重新试一下。
如果是服务的话,建议你生成一个token给客户端,然后客户端采用 http://127.0.0.1/image?token=11111111111111111的方式来获取,
你拿到这个token以后做解析,然后返回图片的地址。
另外,为什么图片是存放在hdf... 显示全部 »
如果是服务的话,建议你生成一个token给客户端,然后客户端采用 http://127.0.0.1/image?token=11111111111111111的方式来获取,
你拿到这个token以后做解析,然后返回图片的地址。
另外,为什么图片是存放在hdfs里面的啊,虽然hdfs是分布式分线系统,但是它不是特别适合图片存放这种场景,为加快图片查找,建议采用图片服务器的方式,对外提供URL连接,也方便图片做缓存处理。
 
不知道你所说的大数据研发是哪一类的研发,如果是hadoop的研发,可以简单的说一下观点:Hadoop开发工程师(偏向技术开发):这类工作可能要求的Java会比较高,涉及面向对象编程,各种开发模式,各种开发框架,还要包括JVM调优,垃圾回收等等,可以尝试向Had... 显示全部 »
不知道你所说的大数据研发是哪一类的研发,如果是hadoop的研发,可以简单的说一下观点:Hadoop开发工程师(偏向技术开发):这类工作可能要求的Java会比较高,涉及面向对象编程,各种开发模式,各种开发框架,还要包括JVM调优,垃圾回收等等,可以尝试向Hadoop的开源社区提交代码。
Hadoop开发工程(偏向业务开发):这类工作主要是结合不同的业务场景,从海量的数据里面获取业务数据。这类要求的java要低一点,但是对于数据结构,算法的能力可能要高一点。
 
高级的大数据开发工程师就已经不局限于hadoop和开发语言了,比如Spark,scala,python等等。
 
对于初学者,建议还是先从业务入手,hadoop什么都是技术,技术发展更新比较快,而业务变化一般不大。基于业务的数据开发,才是产生最大价值的。
 
中文乱码的问题有很多种,主要是看是哪种类型的乱码,如果是字符乱码,可以采用utf8转码的方式,如果是url请求的方式乱码,可以采用urldecode的方式来解码。
中文乱码的问题有很多种,主要是看是哪种类型的乱码,如果是字符乱码,可以采用utf8转码的方式,如果是url请求的方式乱码,可以采用urldecode的方式来解码。
牟瑞

牟瑞 回答了问题 • 2015-09-25 14:07 • 1 个回复 不感兴趣

做hive工作,以后的职业发展方向是什么?

赞同来自:

这个还是要看个人的喜欢:
1.报表工程师:利用HQL来生成各种各样的报表
2.大数据产品工程师:利用大数据来做一些产品。
3.ETL工程师:利用HQL来做ETL处理
4.数据分析师:利用HQL来做数据分析
5.数据挖掘工程师:用户行为分析,用户画像,数据建模。... 显示全部 »
这个还是要看个人的喜欢:
1.报表工程师:利用HQL来生成各种各样的报表
2.大数据产品工程师:利用大数据来做一些产品。
3.ETL工程师:利用HQL来做ETL处理
4.数据分析师:利用HQL来做数据分析
5.数据挖掘工程师:用户行为分析,用户画像,数据建模。
6.数据仓库工程师:利用hive构建大数据数据仓库工程师。
7.hive开发工程师:UDF,UDAF,UDTF等等Hive开发
8.架构师:熟悉Hive开发,报表开发,构建整套的系统
9.测试:
以上,等等。。。可以工作的内容太多太多了。不要现在纠结做什么,先老实做几年,以后就不纠结了。。
牟瑞

牟瑞 回答了问题 • 2015-09-25 13:15 • 1 个回复 不感兴趣

各位大神!菜鸟求助应该如何学习hadoop

赞同来自:

具体要看业务场景,其实hive的入门学习是很容易的,只要会点SQL,就可以应用Hive的简单操作。
但是如果要是深入学习的,hive的内容还是很多的
比如UDF,分区,分桶,SQL调优等等。
个人建议入门学习SQL语句是必须的。hadoop的话,可以参考Had... 显示全部 »
具体要看业务场景,其实hive的入门学习是很容易的,只要会点SQL,就可以应用Hive的简单操作。
但是如果要是深入学习的,hive的内容还是很多的
比如UDF,分区,分桶,SQL调优等等。
个人建议入门学习SQL语句是必须的。hadoop的话,可以参考Hadoop实战和hadoop核心编程,一个偏向技术,一个偏向理论。
另外多看看官方的文档。官方的问题当内容还是比较详细的。
 
优势:
1.非结构化数据:在大数据的场景下,存放大量的非结构化数据,针对不同的业务场景来做分析应用
2.处理数据量更大,在大数据的数据仓库里面采用分布式来存放数据,存放的数据量更大,TB,PB的数据都不成问题。
3.维度更多:传统的数据仓库,能加载30多个维度... 显示全部 »
优势:
1.非结构化数据:在大数据的场景下,存放大量的非结构化数据,针对不同的业务场景来做分析应用
2.处理数据量更大,在大数据的数据仓库里面采用分布式来存放数据,存放的数据量更大,TB,PB的数据都不成问题。
3.维度更多:传统的数据仓库,能加载30多个维度就已经很了不起了。在大数据的场景下,几百个维度都是很轻松的事情。
4.应用更广泛:由于采用非结构化数据,数据量大,维度多等特点,在做数据分析,数据挖掘等方向提供了更多的选择。
劣势:
1.成本高:虽然说大数据采用的是开源的产品,但是要求开发人员水平高,无疑增加的成本。
2.学习难度大:各种各样的数据量堆积在一起,没有好的业务点和需求,很容易在大数据的概念里面迷失。
如果你是安装apache hadoop,直接删除就可以了,如果你是采用的cloudra的hadoop版本,需要使用cloudra的卸载。
另外,记得删除$HADOOP_HOME等配置文件。
如果你是安装apache hadoop,直接删除就可以了,如果你是采用的cloudra的hadoop版本,需要使用cloudra的卸载。
另外,记得删除$HADOOP_HOME等配置文件。
分2部分时间
1,找到记录的时间
2,计算的时间

1.找到记录的时间数据可以按区间分割, 可以减少定位时间,不过数据读取的时间少不了
2.计算的时间和记录数和计算复杂度有关,

在一定的数据量下这些工作量是不会减少,分布计算这是把这些分散到不同的机器上计算,... 显示全部 »
分2部分时间
1,找到记录的时间
2,计算的时间

1.找到记录的时间数据可以按区间分割, 可以减少定位时间,不过数据读取的时间少不了
2.计算的时间和记录数和计算复杂度有关,

在一定的数据量下这些工作量是不会减少,分布计算这是把这些分散到不同的机器上计算,通过并行减少等待时间。
 
牟瑞

牟瑞 回答了问题 • 2015-09-25 14:34 • 4 个回复 不感兴趣

hadoop大数据挖掘用什么做

赞同来自:

个人建议:如果你会SQL,可以先从Hive入手。如果你会点开发,可以从Python,R入手。
另外,算法,统计知识什么的也是不可缺少的。
建议书籍:
《深入浅出数据分析》
《R语言实战》
《智慧编程》
等等
个人建议:如果你会SQL,可以先从Hive入手。如果你会点开发,可以从Python,R入手。
另外,算法,统计知识什么的也是不可缺少的。
建议书籍:
《深入浅出数据分析》
《R语言实战》
《智慧编程》
等等
我们也做过yarn的多队列,这其中需要仔细计算每个队列的内存配置,确保没超出总额度后才能启动并加载出多个队列名称
我们也做过yarn的多队列,这其中需要仔细计算每个队列的内存配置,确保没超出总额度后才能启动并加载出多个队列名称
0
投票
4
已解决
2394
浏览
0
投票
1
已解决
3587
浏览
0
投票
1
已解决
7311
浏览
0
投票
0
回答
4115
浏览
0
投票
1
已解决
2039
浏览
1
推荐
3013
浏览

云技术、大数据(hadoop)入门常见问题回答

问题导读:当我们学习一门新技术的时候,我们总是产生各种各样的问题,这些问题整理出来,包括该1.如何学习hadoop?2.hadoop常见问题?3.还有hbase、hive安装使用等?你知道搭建hadoop平台需要些什么软件?简单来...

GeorgeYao 发表了文章 • 2015-09-23 13:42