大数据的泰坦尼克号，Hadoop 即将沉没了吗？

发表: 2017-04-10 浏览: 1901

数据分析大数据 Hadoop

Clipboard Image.png

最糟糕的消息并非 Hadoop 这艘泰坦尼克号注定要沉没，而是海面上压根没有其它泰坦尼克级别的船只可以用来救援。

对很多大数据领域的投资者和用户，尤其是在 Hadoop 技术上浸透心血和汗水的专家来说，这可能是个很糟糕的消息：Hadoop可能真的不行了!

近日，云数据仓库服务提供商 Snowflake Computing 的首席执行官 Bob Muglia 在接受采访时指出：“没有一家企业客户对 Hadoop 满意，很显然，Hadoop 已经是一项没有前景的技术。”

虽然不止 Muglia，业界很早就对 Hadoop 的前景表示悲观，某媒体早在 2012 年就曾发布文章指出 Hadoop 的核心技术已经过时，因为 Hadoop 并不擅长处理“快数据”。但是，在媒体、业界的合力炒作下，已经有数以千计的企业使用 Hadoop 来存储海量数据，这些上了贼船的企业和项目如此之多，因此 Hadoop 不太可能一夜之间就销声匿迹，正如今天很多企业还在使用半个世纪之前的主机应用一样。而且受益于 S3 (云存储) 和 Spark (大数据处理) 等技术的续命，Hadoop 依然会作为垂直和遗留技术存在很长一段时间。

据 Muglia 介绍，在众多 Hadoop 用户中，真正能够驯服 Hadoop 的企业不到 20 家，甚至可能不到 10 家。要知道，如果考虑到 Hadoop 已经进入市场很长时间，而且整个行业都投入巨大资源，Hadoop 部署的成功率可谓低得惊人。易用性太差是导致 Hadoop 成功率低下的主要原因之一，正如“ 为什么如此难用 Hadoop 的12个技术痛点 ”这篇文章中所提到的，不少专家指出，如果不解决易用性问题，Hadoop 将被自己终结。

Facebook 是少数能够成功驾驭 Hadoop 这头“野象”的企业之一，Facebook 甚至开发了Hive 和 Presto 这样的关系型数据库技术来实现对 HDFS 系统中数据的 SQL 查询访问。但是正如此前曾负责运营 Facebok Hadoop集群，后来创办行为分析技术公司 Interana 的大数据老兵 Bobby Johson所指出的：

Hadoop 垂而不死是一个历史性的错误，人们围绕 Hadoop 开展大量项目和工作，但Hadoop 真的是朽木难雕。Hadoop 的卖点是可以作为廉价的 ETL 数据存储方案( Hadoop目前只是“穷人的ETL” )，但是对于运行面向用户的交互应用来说真的很不对路。

即使是在 Facebook 这样顶尖的互联网技术公司里，从Hadoop 环境中获取分析结果也是一件非常痛苦的事情，据 Johnson 介绍：挖掘一个结果非常困难，除非你真的非常懂整个系统的运作原理。对于懂得为 MapReduce 或 Pig 编程的数据科学家来说，Hadoop 非常棒，但是如果你往上看，在抽象层 Hadoop 的交付能力非常糟糕，对于那些业务分析师来说简直就是噩梦。

“Hive 层还算OK，但是对于那些打算将 Hadoop 作为数据仓库使用的人来说，Hadoop 慢得吓人，比传统数据仓库要慢上十倍!”Johnson说道：Kudo、Impala 和 Presto 都比 Hive 好得多，但距离人们的期望依然有很大一段距离。

更加让人沮丧的是，Hadoop 社区目前对 Hadoop 的复杂性和性能低下并没有多大作为，Hadoop 生态系统依然掌握在一小撮专家手中，对于能写代码的技术专家来说，Hadoop 的功能非常强大，但是对于大多数的用户来说，Hadoop 就是一个大坑，每次你听说这个世界上还空缺数以万计的数据科学家的消息，那差不多是对 Hadoop 的一种控诉。

Hadoop 是首个在业界被广泛采纳的开源分布式计算平台，不计其数的软件厂商、用户、专家跳上了 Hadoop 这艘“泰坦尼克号”，但最糟糕的消息并非泰坦尼克号注定要沉没，而是海面上压根没有第二艘泰坦尼克级别的船只可以用来救援。前雅虎 Hadoop 系统开发者Phu Hoang 认为：在能够替代 Hadoop 的计算平台出现之前，我们能做的只能是尽量屏蔽复杂性，让 Hadoop 变得更加易用。企业不关心架构，企业只关心数据处理速度和分析结果，Hadoop 这样的底层难题滚的越远越好。

Hadoop 这艘泰坦尼克号上的成员也不是完全没有希望，类似 Kafka 这样的更优秀的大数据处理技术正在快速成长。Kafka 的开发者Jay Kreps 在创办 Confluent 之前，曾经负责LinkedIn 的大型 Hadoop 集群，他认为 Hadoop 堆栈的搭建极为复杂，这是一个纯粹的技术性问题。如今虽然大量 Hadoop 发行版本中都包含了 Kafka，但是 Kreps 建议人们在搭建 Kafka 是尽量避免对 Hadoop 的任何依赖，“Kafka 是一个完全独立的系统，跟 Hadoop 没有任何联系。明白这一点对于那些开发生产应用的人来说非常有益。

(全文完，文章来源：中国大数据)

从零开始学习Spark免费视频教程

对话大数据系列技术从破冰到精进

大数据系列免费视频教程【Linux、Hadoop、Spark、Kylin、Hive、HBase、Sqoop、日志分析等】

0 个评论

要回复文章请先登录或注册