1
推荐
2449
阅读

Spark Structured Streaming的一些link

最近在测试相关内容, 以下列了一些我觉得有用的link官方文档Spark Structured Streaming Programming Guide https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html databricks Structured Streaming h...

发表了文章 • 2018-11-09 15:06 • 0 条评论

0
推荐
2436
阅读

Spark standalone模式部署中的一些问题

最近准备把一些批量的应用转换到Spark Streaming上, 先部署到standalone模式上 ,  将碰到的一些问题记录下来供接下来参考.具体使用Spark 2.2.1, 脚本使用Python3(使用pyenv的虚拟环境,按照https://ask.hellobi.com/blog/seng/3084 部署)1. OutOfMemoryErrorexamples/src/main/python/pi.py   10000报错ja...

发表了文章 • 2018-06-08 15:36 • 0 条评论

4
推荐
1689
阅读

Spark Streaming相关的0到1计划

最近计划流相关的技术改进, Goldengate到Kafka的连接已经打通, 最近在准备Spark Streaming相关内容, 把计划工作列一下.0了解阶段--Spark能实现什么内容 0.1 基本的参考文档   官方文档的一些基本的书 0.2 了解Spark相关基本原理   RDD的基本原理   RDD\DataFrame和SparkSQL的区别 0.3 了解重点地sample,...

发表了文章 • 2018-05-09 14:01 • 0 条评论

0
推荐
2856
阅读

基于Flume -> Kafka -> Stream(Spark)的架构日志收集demo搭建(part3)

前面的介绍见part1,part2计划使用spark接收消息后调用一个服务,记录访问次数,再做一个页面显示访问次数。具体使用Python的Flask提供服务,Spark调用服务增加访问次数,使用jQuery显示访问次数,这个只是一个demo,具体实现后还是会找专业的人去做。6.需要提供使用一个记录访问次数的服务具体参考了以下文档(使用pytho...

发表了文章 • 2015-11-12 16:59 • 0 条评论

1
推荐
5183
阅读

基于Flume -> Kafka -> Stream(Spark)的架构日志收集demo搭建(part2)

4.安装Spark并配置 由于也是从头开始学习,从Spark的sampl开始,使用Python做1、2个简单例子,完成示例中的wordcount和SparkStream的count 具体参考 http://spark.apache.org/docs/latest/spark-standalone.html(1)下载并配置JAVA环境 下载 Spark 1.5.1,注意选择使用集成hadoop的版本,不然默认启动不了,...

发表了文章 • 2015-10-25 17:28 • 0 条评论

2
推荐
9298
阅读

基于Flume -> Kafka -> Stream(Spark)的架构日志收集demo搭建(part1)

最近在做日志收集方面工作,在此之上也需要实现实时计算,由于以前也没做过这方面工作,从基础开始搭建demo,真实环境估计会有很大不同,可以先做测试验证。计划搭建Flume -> Kafka -> Storm(Spark)的架构,其中Storm看来对我有难度,Spark有现成sample,先使用Spark目标:监控Nginx的日志,并将数据存储到hdfs上,...

发表了文章 • 2015-10-20 23:26 • 2 条评论