如何在windows安装部署spark 求大神们的告知...?

0
准备初次接触这个,该怎么学习spark,求建议
准备完成 基于spark的分类算法的设计与研究 这个毕设 之前不了解数据挖掘 不了解spark 难度高么 求大神们的指点
已邀请:
1

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2015-09-28 回答

难度这个问题,比较难回答,会者不难。简单的说一下可能涉及到的东西。
1.linux :基于开源的东西,就不要想windows了,老老实实用linux,即使出了问题,也有一大堆人帮你解决,不要想偷懒,看到某篇博客上《在windows上使用Hadoop》《如何在windows上用spark》,我劝你还是放弃吧。那些都是闲着没事。老老实实用Linux,哪怕是在Windows上安装一个ubuntu的虚机都行
2.scala/java/python:推荐scala,因为spark shell可以直接使用scala来做调试,当然java,python也可以,但是就需要你写代码调试了
3.其他可能涉及到的东西:
a.R/SparkR来做分类算法
b.hadoop,如果你的数据量足够大,你需要一个分布式的文件存储
c.一个配置比较高的机器:spark是基于内存计算的,所以内存要求比较高。
d.英文:即使目前国内的spark很火,但是解决问题的时候还是需要去spark的官网或者国外的论坛,数据挖掘算法什么的也还是要看pager.
 

要回复问题请先登录注册