1
推荐
2785
阅读
Spark Structured Streaming的一些link
最近在测试相关内容, 以下列了一些我觉得有用的link官方文档Spark Structured Streaming Programming Guide
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html
databricks Structured Streaming
h...
0
推荐
2775
阅读
Spark standalone模式部署中的一些问题
最近准备把一些批量的应用转换到Spark Streaming上, 先部署到standalone模式上 , 将碰到的一些问题记录下来供接下来参考.具体使用Spark 2.2.1, 脚本使用Python3(使用pyenv的虚拟环境,按照https://ask.hellobi.com/blog/seng/3084 部署)1. OutOfMemoryErrorexamples/src/main/python/pi.py 10000报错ja...
4
推荐
1925
阅读
Spark Streaming相关的0到1计划
最近计划流相关的技术改进, Goldengate到Kafka的连接已经打通, 最近在准备Spark Streaming相关内容, 把计划工作列一下.0了解阶段--Spark能实现什么内容
0.1 基本的参考文档
官方文档的一些基本的书
0.2 了解Spark相关基本原理
RDD的基本原理
RDD\DataFrame和SparkSQL的区别
0.3 了解重点地sample,...
0
推荐
3156
阅读
基于Flume -> Kafka -> Stream(Spark)的架构日志收集demo搭建(part3)
前面的介绍见part1,part2计划使用spark接收消息后调用一个服务,记录访问次数,再做一个页面显示访问次数。具体使用Python的Flask提供服务,Spark调用服务增加访问次数,使用jQuery显示访问次数,这个只是一个demo,具体实现后还是会找专业的人去做。6.需要提供使用一个记录访问次数的服务具体参考了以下文档(使用pytho...
1
推荐
5475
阅读
基于Flume -> Kafka -> Stream(Spark)的架构日志收集demo搭建(part2)
4.安装Spark并配置 由于也是从头开始学习,从Spark的sampl开始,使用Python做1、2个简单例子,完成示例中的wordcount和SparkStream的count 具体参考 http://spark.apache.org/docs/latest/spark-standalone.html(1)下载并配置JAVA环境 下载 Spark 1.5.1,注意选择使用集成hadoop的版本,不然默认启动不了,...
2
推荐
9555
阅读
基于Flume -> Kafka -> Stream(Spark)的架构日志收集demo搭建(part1)
最近在做日志收集方面工作,在此之上也需要实现实时计算,由于以前也没做过这方面工作,从基础开始搭建demo,真实环境估计会有很大不同,可以先做测试验证。计划搭建Flume -> Kafka -> Storm(Spark)的架构,其中Storm看来对我有难度,Spark有现成sample,先使用Spark目标:监控Nginx的日志,并将数据存储到hdfs上,...