你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
没有找到相关结果
Bob - 同程旅游大数据+BI 架构师 2016-12-22 回答
赞同来自:
MarsJ - 大数据玩家~DS 2016-12-22 回答
赞同来自: qvxiaobai123
要回复问题请先登录或注册
温暖,通透,愉悦,平和,明智,简单。我想这样活着。
推荐一份编程学习资源,包含了各类编程语言学习进阶路线图、视频教程、配套书籍文档、数百份面经,各大厂面试真题。编程语言包括:Java、前端、PHP、Python、Linux运维、软件测试、数据解构与算法、C语言、go语言等
微信扫码关注公众号,发送 "编程"获取资源
2 个回复
Bob - 同程旅游大数据+BI 架构师 2016-12-22 回答
赞同来自:
在访问过程中有两种形式:
1.你需要进行spark代码编程,来实现对hive的访问。
编程过程中需要引用HiveContent这个对象。
2.使用spark的jdbc来访问
在hive中有beeline 可以让你连接上。
示例:bin/beeline !connect jdbc:hive2://ip:端口
MarsJ - 大数据玩家~DS 2016-12-22 回答
赞同来自: qvxiaobai123
不同之处在于,Hive on Spark是基于原有的Hive,将Hive的计算引擎从默认的MapReduce换成Spark,可以看成是从Hive的角度去做的,而Spark SQL on Hive则是在Spark中操作Hive中的数据表,是从Spark的角度去操作和使用的;
这两者都有各自的好处,但是Spark SQL本质基于Spark处理查询实际上能更好的与目前大数据行业中通用技术栈会比较贴合,因为Spark同时支持Streaming/MLLib/GraphX等,所以在选型时一般首选Spark SQL;而若是架构中原本就以Hive处理批量计算,则将Hive的MR引擎换成Spark也是能大大提升其速度的。yao要注意的是,无论哪一种,底层实现计算的都是Spark Engine。