如何用 hadoop/hive 做日志分析系统?

0
hbase 貌似比较适合存储结构化的数据,我们的日志本来是用 mongodb 存储的,现在想迁移到一个分布式的数据库中,方便扩展和管理,mongodb 磁盘满了真是不好弄,而且也没做数据压缩,太浪费。我们导出来的数据都是 json 格式的文件,而且表比较多,每个表的格式不太一样,感觉不是很适合迁移到 hbase 里面,可是领导非常想搞 hadoop ,我推荐用 ES 他有点不想用。
我就想问问大家,你们的日志分析有用到hadoop 之类的东西吗?是怎么用的呢?日志都是结构化的存储吗?
已邀请:
1

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2016-01-02 回答

日志数据一般都是非结构化的,方便各种分析应用的调用。不知道你们的日志是哪一类的数据?交易类的?还是服务器日志。
服务器日志推荐使用splunk或者ELK。hadoop也可以,技能相对要求较高
业务场景不同,日志分析系统的构建也不相同,细节可以加我们的天善大数据群再细聊:225978231
1

MarsJ - 大数据玩家~DS 2016-04-08 回答

有一种曾用过的流程供参考:
1,数据接入,可以选择使用Flume或者Fuse或Sqoop等方式接入;
2,直接接入到数仓(Hive实现的)的ODS层,后续的数据处理和ETL过程都是通过Hive或Shell脚本;
3,处理完成之后根据业务需求求出日志分析结果存放到数仓的顶层(同时写到BI系统使用的关系数据库)。
0

陈嘉豪 - 不优雅的人 2016-04-29 回答

目前也在关注这块的,谢谢

要回复问题请先登录注册