Spark 文章分类 bryan的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

3

推荐

2490

阅读

DataOps 宣言与实践原则

原文：http://dataopsmanifesto.org/dataops-manifesto.html （已得到翻译同意）透过第一手在组织、工具、以及产业中与资料工作的经验，我们发现更好的方式来开发以及交付分析成果及分析工具，我们称这种方式为 DataOps。不论是在资料科学、资料工程、资料管理、大数据、商业智慧、或其他相关领域，透过我们的工作...

发表了文章 • 2018-03-01 16:02 • 0 条评论

3

推荐

4007

阅读

Prerequisites 桌面环境: Mac OSX虚拟机管理软体: Vagrant虚拟机: Virtual BoxClone repogit clone https://github.com/bryanyang0528/hellobicd hellobi/pyspark/envdownload filesmkdir filessh download_file.shvagrant up这边会 up 很久一切正常运行，有红字跳出来也不用怕copy ssh key 进入 master ...

发表了文章 • 2017-11-09 11:41 • 0 条评论

1

推荐

1961

阅读

[Apache Spark][基本架构] RDD特性（二）- 转换和行动

其实Spark架构不大，但是真的一环扣着一环，拆开来讲会有很多问题，但是当每个环节都搞懂后就觉得一切设计的又是非常合理（非常绕口的一段话）．这几篇基本架构的文章都是根据Spark的原始论文拆出来讲的，试图将Spark的基本精神跟各位分享． Spark主要是透过RDD来处理资料，对于RDD的操作大...

发表了文章 • 2017-09-05 17:18 • 0 条评论

2

推荐

2497

阅读

[Apache Spark][基本架构] RDD特性（一）

万丈高楼平地起，要熟悉Spark就得熟悉RDD，要熟悉RDD，就是要看Doc．当我们对RDD做运算时，其实都会产生不同的RDD．RDD的官方文件（http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD）一开始说到这些不同的RDD都共同拥有五个特性：Partition的列表（sorry不知道partition要怎样翻）...

发表了文章 • 2017-08-08 10:37 • 0 条评论

Spark

DataOps 宣言与实践原则

Hadoop + Hive + Spark 完整安装攻略

[Apache Spark][基本架构] RDD特性（二）- 转换和行动

[Apache Spark][基本架构] RDD特性（一）