日志压缩日志收集大数据

我想问一下收集日志是将原数据保存再压缩吗？

0

重要提示：提问者不能发表回复，可以通过评论与回答者沟通，沟通后可以通过编辑功能完善问题描述，以便后续其他人能够更容易理解问题.

1 个回复

0

天善智能 - 专注商业智能，致力推动商业智能技术的普及与发展。 2015-12-06 回答

铮：一般压缩为什么格式？

天天向上：@铮看你的场景。。最近的日志不压缩，归档需要压缩。

同程吴文波：@铮我们是直接收集网络点击日志，存储在Hadoop的时候使用了snappy进行，没有用lzo，gz等。snappy的压缩比是非常高效的，google

铮：但snappy不是不能分割吗？用hadoop会不会慢

同程吴文波：@铮，我们就是用snappy，没有问题的。

铮：你们是把一天的数据一起传到hdfs上？还是实时传

同程吴文波：@铮我们是用storm实时写入

铮：一天大约多大的数据

同程吴文波：每天1.5亿的记录数

天天向上：@铮我们的日志是实时跟踪，但是会有一点延时。。

春天在心里：和阿里的实时是一样的吧

铮：嗯，这样比较好

同程吴文波：我们会实时收集pc，app，touch的行为数据。同程app的下载量超过7亿了。其实行为日志收集的架构本身一定要按场景来进行，确保日志一条不丢失才是关键。

Hao,William：现在我们记录的行为日志都是谁在什么地方干了什么。

春天在心里：哦，原来这个叫行为日志啊阿里的生意参谋都是这种东西。

铮：确保日志一条不丟么？

同程吴文波：我们是使用kafka集群。kafka本身保留3天的数据。tengine负载方面保留一个月。从flume，到kafka，到storm，到db这些是确保不能丢失的。

Hao,William：kafka和rabbitmq 功能一样吧。我们用的后者。。。

同程吴文波：校验的方式也很简单，你在app上设计一个计数器。

同程吴文波：kafka比较变态，本身能存储10几T。

铮：还有一点，如果程序在前台处理了，用户点击的数据在后台没留下？该如何收集？

同程吴文波：@铮如果前端有处理，那要坚持日志是否到达你的接口层，接口层一定要实时输出到文本中。

要回复问题请先登录或注册

我想问一下收集日志是将原数据保存再压缩吗？

1 个回复

发起人

相关问题

问题状态

我想问一下收集日志是将原数据保存再压缩吗？

与内容相关的链接

1 个回复

发起人

相关问题

问题状态