sparkstreaming如何实时处理excl文件?
0
需求是这样:需要实时的处理一些不是很大的excl文件。目前的做法是通过web端上传到hdfs时,写一条消息到kafka。sparkstreaming收到了kafka后,在map算子中通过sparkcontext从hdfs读取文件分析,这样有sparkcontext没有序列化的问题或者是只能是local方式运行。对这种需求大神有什么好的建议吗?如果是换成其他的方式实现应该怎么做?
没有找到相关结果
重要提示:提问者不能发表回复,可以通过评论与回答者沟通,沟通后可以通过编辑功能完善问题描述,以便后续其他人能够更容易理解问题.
1 个回复
regan - run! run! run! happy runner! 我是奔跑的小米~ 2017-02-21 回答
赞同来自: 梁勇
streamingContext.fileStream("hdfs://master:8082/datas/streaming/", (path:Path)=>{ if(path.getName.endsWith("_COPYING_")){ false }else{ true } },true)
达到监控HDFS目录 并且过滤 正在 上传的 文件~