大家觉得目前 初学者学数据做hadoop时的集群配置是不是特别麻烦?有没有一种便捷的方法?
1
一个前端、后端程序猿或研究生如果想要开始做数据挖掘,先不说要熟悉mapreduce思想,,仅仅是hadoop、hbase、spark、zookeeper等的配置就把大多数人拦在了门外。也就是开始写spark算法之前却要做大量的工作配置服务器集群。虽说可以下载别人配置好的docker镜像,但也有很多局限之处。
有没有一种对初学者更好的方法来获得一个能运行spark等算法的工作环境
有没有一种对初学者更好的方法来获得一个能运行spark等算法的工作环境
没有找到相关结果
重要提示:提问者不能发表回复,可以通过评论与回答者沟通,沟通后可以通过编辑功能完善问题描述,以便后续其他人能够更容易理解问题.
1 个回复
MarsJ - 大数据玩家~DS 2016-06-21 回答
赞同来自: 小耳朵 、梁勇
建议的步骤:
1,在网上找不错的Hadoop集群配置信息的博客,这个肯定已经有很多了,找一篇跟你的操作系统环境一样的,建议你先从单机的伪分布式开始做起,跟着博客一步一步去配置;
2,启动Hadoop集群,用Jps和Web端口两个方式去检查集群的情况,如果OK,那么继续去做配置Spark的工作,同样这样的文章网上也已经很多;
3,当你有环境的时候,去配置一个真正的分布式环境。
毋庸置疑的是在整个配置过程中,会有非常多的不可预见的问题出现,那么把这些错误信息放到网上你会发现有很多已经有人遇到过,并且也给出了响应的解决方法,这也是你自己的一个积累过程。对于集群的配置,我是配置过很多很多遍的,熟能生巧。。。加油吧。
配置过程中有任何问题可以在天善的问答社区提问,这里有很多专家朋友可以帮忙解答的。