大数据时代,大数据真是数据仓库的终结者?

浏览: 3031

大数据时代,大数据真是数据仓库的终结者?


企业级数据仓库(EDW)是大多数大型组织和许多中型公司分析和商业智能的骨干。工具和技术已经证明,SQL查询语言是众所周知的,并且有足够的专业知识以保持EDWs的运行。


许多关系型数据仓库的方法的缺点是,他们是刚性的,很难改变。你是从数据建模和创建模式开始的,但前提是你知道所有你必须回答的问题。当新的数据源和新的问题出现时,ETL和BI架构以及相关的应用程序都必须更新,这通常特别需要费时费力。


输入Hadoop,它可以以较低的成本让您将数据存储在一个大规模的数据库(以同样比例的商业数据库相比)。更重要的是,它可以轻松处理各种复杂和多样的变化,因为你没有一个预定义的架构以符合所有的数据。

这听起来不错,但你在哪里找到知道如何使用必须的工具的人去运行Hadoop?更重要的是,你怎样从一批取决于减缓和迭代 MapReduce 的数据处理平台快速得到数据?


Hadoop将取代企业数据仓库并贬低关系数据库,最终数据集市的角色么?或者是Hadoop太年轻不够成熟、太缓慢不足以改变大多数人工作的方式?

下面我们将看到两种观点:

正方

本维特的创始人兼首席执行官,Platfora

EDW是个老古董

统一的企业级数据仓库的主张似乎是诱人的——将你的企业中的所有数据导入到一个完美的数据库。

所以,你开始的为期18个月的旅程,去找到重要的数据源,在重要的业务问题达到共识,规划业务流程,最终落实到一个数据库来处理他们。

而当你做的时候,如果你能完成的话,在这18个月的时期你将有一个固化的老古董。在18个月内,如果你的世界没有太大的改变,那可能是好的。但是,这不是现实中我所遇到的任何大型企业的情况。

为什么是Hadoop获得这么大的声势?显然,主要是因为它的成本效益和可扩展性和它在人们的心目中,是和谷歌,雅虎和Facebook等公司紧密联系在一起的。但更重要的是,就我所看到的,企业正在产生越来越多的数据——相互作用、日志、视图、采购、点击等等。这些与越来越多的新的和有趣的数据集相连接——位置数据,购买用户的人口统计,Twitter用户的情绪等等。问题是,这些旋涡的数据集有一天可以起到支持作用但是却不为人所知。数据仓库尚未建立的时候,我被期望能够完美地预测什么样的数据是重要的以及我将如何质疑它,提前几年或者每次我错了时候花几个月重构它。这实际上被认为是“最佳实践”。

Hadoop独特之处是,它不要求任何这些目前所面对的决定。你可以以任何形式和任何规模登陆原始数据,在Hadoop中几乎没有摩擦。你也不必三思而后行——在你写数据的时候不必考虑你将如何使用这些数据。不再因为成本、摩擦或政治而有很多被弃用的数据。

然而在维持现状的管理员眼中,Hadoop是另一个数据源。这是一个倾销地,在那里你可以为他们精心构建的数据仓库(他们的记录系统)添砖加瓦。他们甚至会为你提供一个“连接器”使药吃起来很甜。当然,你又回到了做顾问并且做那个12个月到18个月的IT项目的境地。

但是,让我们通过镜子来仔细观察一下。该数据库是不是“记录系统”——它在Hadoop中的数据只是一个影子。事实上,没有什么比那些在Hadoop中的原始数据更真实的。但机器不能完成这个任务,即用一个方法对数据做交互式商业智能,探索和分析,从而对Hadoop中的数据做出反抗。供应商中的Platfora正在做满足这方面的需求的工作。

想象一下这意味着什么。在Hadoop中有无摩擦的任何种类或类型的原始数据。没有建立一个数据仓库,没有ETL集成的痛苦,没有任何其他的IT项目,日常业务用户可以立即这些数据运用到工作中。机器已经在支持这个构想,这和用户利用数据的能力一样,都在经历了世代交替的急剧变化。

不再需要传统的数据仓库了。它是一个不灵活的、昂贵的旧时代的遗物。现在是离开黑暗时代的时候了。

反方

Teradata实验室的主席,斯科特

EDWs 仍将大放异彩

有些人提出的关系型数据库管理系统(RDBMS)以及建立在它们之上的数据仓库,不再被需要。事实上,有些人认为,像新Hadoop一样的新技术,在一点点时间和经济开销的情况下,能够做数据仓库一样的工作,而且顺便说一句,Hadoop是“免费”。

我们不能责怪一些想要相信这个说法的人。

在反对这个论点之前论点,请允许我说,Hadoop在未来的分析环境的将发挥重要作用,因为它提供了一个大的数据“炼油”厂,它可以带来大量的原料(数据),更重要的是相应的分析功能。Hadoop的强大功能之一是你不必预先决定你需要保存以及你打算如何使用它,但是可以运用它的信息。由于企业需要更精确的分析,Hadoop作为一个新的“燃料”来源是至关重要的。

核心论点其实就是以下几点:

1、数据仓库是过于“僵硬”和死板的

2、“社区”将解决Hadoop的所有限制。

从表面上看,这些观点听起来非常引人注目。但经过深入了解,我们知道他们是误导性的和自相矛盾的。

从僵化的数据仓库开始这个观点,重要的是我们要通过实践以及数据仓库区分技术以及RDBMS。刚性架构属于EDWs,在那里用户在开始搜索之前必须定义他们正在寻找什么和其中的一些误解部分,这往往是刚性的IT政策的结果,有时是过时的或不充分的数据仓库体系结构的结果。在当今最好的数据仓库架构是专为分析而设计的时代,刚性结构不是一个固有的问题。

结构有个不好的分析环境?“不!”试想一下会发生什么事?如果你运行一个上市公司,分析师每季度在Hadoop或在其他地方,分析成堆的未建模的数据,然后拿出你的财务季度业绩。最可能发生的是,在这个过程中一定会发生什么问题,因为有太多的不确定性。所以,有时候结构是真的好用的。

所以,所有这些成功的企业都在使用结构和数据模型,是因为这是唯一的方法进入一个关系型数据库或数据仓库中吗?当然不是。这不是有关一个数据仓库可以做什么的问题,这是业务需要什么的问题。声称客户将不再要求数据的质量以及在他们所有的数据基础设施中准确的数据模型,其实是一种误导。

让我们回到第二个问题。如果Hadoop将在在一年或两年内支持从SQL到BI的一切,为什么你需要一个数据仓库?

这种说法忽略了一个简单的事实:一些最杰出的计算机科学家需要工作几十年去建立数据库。那么Hadoop更够在几年内实现同样的功能么?

答案显然是否定的,这将是一个真正的耻辱,浪费社会公共资源去重建现有的功能和发明更新、更非凡的使用。一些Hadoop世界的早期交付中,旨在消除RDBMS需要的模式和违背Hadoop的“灵活性”的物理设计上的限制。更重要的是,这些要求舍弃了Hadoop的最初开发的并不是BI或SQL执行这个前提。这就像当你想要一个螺丝刀时却用的是锤子——让我们的免费的Hadoop成为伟大的工具,就像当初它被设计时那样。

历史告诉我们,新技术的影响在短期内总是被高估,在长远范围内总是被低估。Hadoop在现在和将来都不会成为一个数据仓库。关系型数据库和数据仓库中将会茁壮成长,而不会因为Hadoop而死亡。我们认为Hadoop将会是未来分析数据基础设施解决方案的一个组成部分,而不是唯一的部分。


推荐 0
本文由 hl_zhang0912 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册