关于使用spark做olap靠谱么?有没有成熟案例?

0
已邀请:
0

天善智能 - 专注商业智能,致力推动商业智能技术的普及与发展。 2015-12-06 回答

同程吴文波:spark做olap?

天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。

王东:greenplum和spark选型如何取舍呢?

同程吴文波:真有这样的方案哦

小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说11R版本的cognos会支持hadoop。

锋:spark现在是不是发展很快。

小小蜗牛爬上墙:看来从传统数据仓库往大数据平台迁移任重道远呀。

天天向上:还是要找到价值点,不能盲目的上大数据。

春宇:传统数据仓库和大数据平台分工不同,列存,MPP能够解决的事情,不见得非得挪到Hadoop上去。

同程吴文波:@大连-K12-王东 怎么想到用spark做olap?

春宇:现在就是觉得系统太多,企业统一化的数据视图更难画了

大米:主要的生产数据还是用主流关系数据库,分析用hadoop是这样理解吗?

王东:@同程吴文波 我就是觉得数据层的东西太多,开发维护成本有点高,所以想用spark解决olap和大数据分析等各种场景

同程吴文波:@大连-K12-王东 试试Hadoop+kylin 或spark+cassandra等组合

王东:我们也打算围绕spark做呢,但是这块儿没实际操作过,比较担心olap的响应速度。

Shadow 杨:@大连-K12-王东 [发呆]多大的数据量,数据量不到一定程度,根本发挥不出来。

王东:@shadow 杨 事实表千万级别,维度表特别多有上百。

同程吴文波:@大连-K12-王东 你的这些用普通db来构建olap就好 

Shadow 杨:@同程吴文波 同意你

天天向上:普通的就可以啊,微软的sass就搞定了。

王东:事实表千万级别greenplum行吗?

同程吴文波:@大连-K12-王东 gp是可以搞定的。但是你的那个数据量用SSAS也就行的。使用SSD 3.2T的+128G内存 或 256G就OK

王东:cognos和ssas是一个量级的么?

春宇:Cognos你用什么?PowerCube?Dynamic Cube?还是TM1?

王东:cognos也没实际用过,这几个cube啥区别啊

春宇:@大连-K12-王东 话题太长,可单聊,但就性价比而言,还是建议你选择SSAS或者开源的OLAP引擎。
1

Bob - 同程旅游大数据+BI 架构师 2016-04-08 回答

如果你想基于spark做OLAP,那么spark+cassandra 的组合是非常不错的选择
0

MarsJ - 大数据玩家~DS 2016-04-08 回答

基于大数据的OLAP,可以推荐使用Apache Kylin,http://kylin.apache.org/cn/
 
这是由e-bay的中国团队开发的,能做到秒级查询。
 
目前的版本中支持Hadoop MR引擎,但是后续会开始对Spark的支持,有一个Plugin架构对数据源、Cube的数据存储和计算引擎做了可插拔的选项。
 
我们正在试用中......
0

我叫小根 2018-05-14 回答

目前OLAP分析这块,主要分两个场景,第一个是多维分析(固定报表),第二个是灵活分析(自助分析部分)。区别是固定报表的查询逻辑已经确定好,可以通过预计算方式得出结果,这方面的代表RDBS的cognos、Essbase。Hadoop中有kylin,星环的rubik等,效率基本在秒或者亚秒,并发可以做到横向扩展。灵活分析这块主要是随机查询无法预计算,这种可以主要考验计算引擎性能,开源的impala或者spark都可以,查询效率与并发取决于查询场景。

要回复问题请先登录注册