大家觉得目前 初学者学数据做hadoop时的集群配置是不是特别麻烦?有没有一种便捷的方法?

1
一个前端、后端程序猿或研究生如果想要开始做数据挖掘,先不说要熟悉mapreduce思想,,仅仅是hadoop、hbase、spark、zookeeper等的配置就把大多数人拦在了门外。也就是开始写spark算法之前却要做大量的工作配置服务器集群。虽说可以下载别人配置好的docker镜像,但也有很多局限之处。

有没有一种对初学者更好的方法来获得一个能运行spark等算法的工作环境
已邀请:
2

MarsJ - 大数据玩家~DS 2016-06-21 回答

我是在读研期间直接开始研究和学习Hadoop的,如果你只是想运行Spark,那么不用去管Hadoop的具体配置,你的重点在Spark上,此时只需要有一个配置完好的Hadoop环境就行(只使用其HDFS作为存储),你应该关注的主要的配置信息是Spark,当然,如果时间比较充足,我也建议你先把Hadoop配置弄清楚,这是理解Hadoop基本原理的一个方式。
建议的步骤:
1,在网上找不错的Hadoop集群配置信息的博客,这个肯定已经有很多了,找一篇跟你的操作系统环境一样的,建议你先从单机的伪分布式开始做起,跟着博客一步一步去配置;
2,启动Hadoop集群,用Jps和Web端口两个方式去检查集群的情况,如果OK,那么继续去做配置Spark的工作,同样这样的文章网上也已经很多;
3,当你有环境的时候,去配置一个真正的分布式环境。
毋庸置疑的是在整个配置过程中,会有非常多的不可预见的问题出现,那么把这些错误信息放到网上你会发现有很多已经有人遇到过,并且也给出了响应的解决方法,这也是你自己的一个积累过程。对于集群的配置,我是配置过很多很多遍的,熟能生巧。。。加油吧。
配置过程中有任何问题可以在天善的问答社区提问,这里有很多专家朋友可以帮忙解答的。
 

要回复问题请先登录注册