sparkstreaming如何实时处理excl文件？

需求是这样：需要实时的处理一些不是很大的excl文件。目前的做法是通过web端上传到hdfs时，写一条消息到kafka。sparkstreaming收到了kafka后，在map算子中通过sparkcontext从hdfs读取文件分析，这样有sparkcontext没有序列化的问题或者是只能是local方式运行。对这种需求大神有什么好的建议吗？如果是换成其他的方式实现应该怎么做？

重要提示：提问者不能发表回复，可以通过评论与回答者沟通，沟通后可以通过编辑功能完善问题描述，以便后续其他人能够更容易理解问题.

课程推荐：实战秘技，经典案例，一门课程锤炼数据分析师八大能力！

1 个回复

regan - run! run! run! happy runner! 我是奔跑的小米~ 2017-02-21 回答

excell文件上传HDFS目录。使用sparkstreaming的fileStream方法：

streamingContext.fileStream("hdfs://master:8082/datas/streaming/", (path:Path)=>{ if(path.getName.endsWith("_COPYING_")){ false }else{ true } },true)
达到监控HDFS目录并且过滤正在上传的文件~

要回复问题请先登录或注册

sparkstreaming如何实时处理excl文件？

1 个回复

发起人

相关问题

问题状态

sparkstreaming如何实时处理excl文件？

与内容相关的链接

1 个回复

发起人

相关问题

问题状态