文本文件入库,怎么比较好的过滤其中的垃圾数据

0
已邀请:
0

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2016-04-07 回答

什么样的文本文件?或者什么样的数据算是垃圾数据?
一般首先采用正则表达式过滤比较明显的垃圾数据,比如数据缺失等等,
然后再根据业务规则解析数据
最后将解析的数据入库。
 
如果你的文本文件是日志文件的话,一般产生的垃圾数据也是有其原因的,可能是程序的bug,系统的异常等等,所以分析这些数据也有非常大的价值。

要回复问题请先登录注册