sparkstreaming如何实时处理excl文件?

0
需求是这样:需要实时的处理一些不是很大的excl文件。目前的做法是通过web端上传到hdfs时,写一条消息到kafka。sparkstreaming收到了kafka后,在map算子中通过sparkcontext从hdfs读取文件分析,这样有sparkcontext没有序列化的问题或者是只能是local方式运行。对这种需求大神有什么好的建议吗?如果是换成其他的方式实现应该怎么做?
已邀请:
1

regan - run! run! run! happy runner! 我是奔跑的小米~ 2017-02-21 回答

excell文件上传HDFS目录。使用sparkstreaming的fileStream方法:

streamingContext.fileStream("hdfs://master:8082/datas/streaming/", (path:Path)=>{ if(path.getName.endsWith("_COPYING_")){ false }else{ true } },true)
达到监控HDFS目录 并且过滤 正在 上传的 文件~

要回复问题请先登录注册