我想问一下收集日志是将原数据保存再压缩吗?

0
已邀请:
0

天善智能 - 专注商业智能,致力推动商业智能技术的普及与发展。 2015-12-06 回答

铮:一般压缩为什么格式?

天天向上:@铮 看你的场景。。最近的日志不压缩,归档需要压缩。

同程吴文波:@铮 我们是直接收集网络点击日志,存储在Hadoop的时候使用了snappy进行,没有用lzo,gz等。snappy的压缩比是非常高效的,google

铮:但snappy不是不能分割吗?用hadoop会不会慢

同程吴文波:@铮,我们就是用snappy,没有问题的。

铮:你们是把一天的数据一起传到hdfs上?还是实时传

同程吴文波:@铮 我们是用storm实时写入

铮:一天大约多大的数据

同程吴文波:每天1.5亿的记录数

天天向上:@铮 我们的日志是实时跟踪,但是会有一点延时。。

春天在心里:和阿里的实时是一样的吧

铮:嗯,这样比较好

同程吴文波:我们会实时收集pc,app,touch的行为数据。同程app的下载量超过7亿了。其实行为日志收集的架构本身一定要按场景来进行,确保日志一条不丢失才是关键。

Hao,William:现在我们记录的行为日志都是谁在什么地方干了什么。

春天在心里:哦,原来这个叫行为日志啊 阿里的生意参谋都是这种东西。

铮:确保日志一条不丟么?

同程吴文波:我们是使用kafka集群。kafka本身保留3天的数据。tengine负载方面保留一个月。从flume,到kafka,到storm,到db这些是确保不能丢失的。

Hao,William:kafka和rabbitmq 功能一样吧。 我们用的后者。。。

同程吴文波:校验的方式也很简单,你在app上设计一个计数器。

同程吴文波:kafka比较变态,本身能存储10几T。

铮:还有一点,如果程序在前台处理了,用户点击的数据在后台没留下?该如何收集?

同程吴文波:@铮 如果前端有处理,那要坚持日志是否到达你的接口层,接口层一定要实时输出到文本中。

要回复问题请先登录注册