3
推荐
2490
阅读

DataOps 宣言与实践原则

原文:http://dataopsmanifesto.org/dataops-manifesto.html (已得到翻译同意)透过第一手在组织、工具、以及产业中与资料工作的经验,我们发现更好的方式来开发以及交付分析成果及分析工具,我们称这种方式为 DataOps。不论是在资料科学、资料工程、资料管理、大数据、商业智慧、或其他相关领域,透过我们的工作...

发表了文章 • 2018-03-01 16:02 • 0 条评论

3
推荐
4007
阅读

Hadoop + Hive + Spark 完整安装攻略

Prerequisites 桌面环境: Mac OSX虚拟机管理软体: Vagrant虚拟机: Virtual BoxClone repogit clone https://github.com/bryanyang0528/hellobicd hellobi/pyspark/envdownload filesmkdir filessh download_file.shvagrant up这边会 up 很久一切正常运行,有红字跳出来也不用怕copy ssh key 进入 master ...

发表了文章 • 2017-11-09 11:41 • 0 条评论

1
推荐
1961
阅读

[Apache Spark][基本架构] RDD特性(二)- 转换和行动

其实Spark架构不大,但是真的一环扣着一环,拆开来讲会有很多问题,但是当每个环节都搞懂后就觉得一切设计的又是非常合理(非常绕口的一段话).这几篇基本架构的文章都是根据Spark的原始论文拆出来讲的,试图将Spark的基本精神跟各位分享.        Spark主要是透过RDD来处理资料,对于RDD的操作大...

发表了文章 • 2017-09-05 17:18 • 0 条评论

2
推荐
2497
阅读

[Apache Spark][基本架构] RDD特性(一)

万丈高楼平地起,要熟悉Spark就得熟悉RDD,要熟悉RDD,就是要看Doc.当我们对RDD做运算时,其实都会产生不同的RDD.RDD的官方文件(http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD)一开始说到这些不同的RDD都共同拥有五个特性:Partition的列表(sorry不知道partition要怎样翻)...

发表了文章 • 2017-08-08 10:37 • 0 条评论