大数据 Hadoop

大家觉得目前初学者学数据做hadoop时的集群配置是不是特别麻烦?有没有一种便捷的方法？

1

一个前端、后端程序猿或研究生如果想要开始做数据挖掘，先不说要熟悉mapreduce思想，，仅仅是hadoop、hbase、spark、zookeeper等的配置就把大多数人拦在了门外。也就是开始写spark算法之前却要做大量的工作配置服务器集群。虽说可以下载别人配置好的docker镜像，但也有很多局限之处。

有没有一种对初学者更好的方法来获得一个能运行spark等算法的工作环境

重要提示：提问者不能发表回复，可以通过评论与回答者沟通，沟通后可以通过编辑功能完善问题描述，以便后续其他人能够更容易理解问题.

课程推荐：实战秘技，经典案例，一门课程锤炼数据分析师八大能力！

1 个回复

2

MarsJ - 大数据玩家~DS 2016-06-21 回答

我是在读研期间直接开始研究和学习Hadoop的，如果你只是想运行Spark，那么不用去管Hadoop的具体配置，你的重点在Spark上，此时只需要有一个配置完好的Hadoop环境就行（只使用其HDFS作为存储），你应该关注的主要的配置信息是Spark，当然，如果时间比较充足，我也建议你先把Hadoop配置弄清楚，这是理解Hadoop基本原理的一个方式。
建议的步骤：
1，在网上找不错的Hadoop集群配置信息的博客，这个肯定已经有很多了，找一篇跟你的操作系统环境一样的，建议你先从单机的伪分布式开始做起，跟着博客一步一步去配置；
2，启动Hadoop集群，用Jps和Web端口两个方式去检查集群的情况，如果OK，那么继续去做配置Spark的工作，同样这样的文章网上也已经很多；
3，当你有环境的时候，去配置一个真正的分布式环境。
毋庸置疑的是在整个配置过程中，会有非常多的不可预见的问题出现，那么把这些错误信息放到网上你会发现有很多已经有人遇到过，并且也给出了响应的解决方法，这也是你自己的一个积累过程。对于集群的配置，我是配置过很多很多遍的，熟能生巧。。。加油吧。
配置过程中有任何问题可以在天善的问答社区提问，这里有很多专家朋友可以帮忙解答的。

要回复问题请先登录或注册

大家觉得目前初学者学数据做hadoop时的集群配置是不是特别麻烦?有没有一种便捷的方法？

1 个回复

发起人

相关问题

问题状态

大家觉得目前 初学者学数据做hadoop时的集群配置是不是特别麻烦?有没有一种便捷的方法？

与内容相关的链接

1 个回复

发起人

相关问题

问题状态

大家觉得目前初学者学数据做hadoop时的集群配置是不是特别麻烦?有没有一种便捷的方法？