你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
没有找到相关结果
天善智能 - 专注商业智能,致力推动商业智能技术的普及与发展。 2015-12-06 回答
赞同来自:
要回复问题请先登录或注册
专注商业智能,致力推动商业智能技术的普及与发展。
推荐一份编程学习资源,包含了各类编程语言学习进阶路线图、视频教程、配套书籍文档、数百份面经,各大厂面试真题。编程语言包括:Java、前端、PHP、Python、Linux运维、软件测试、数据解构与算法、C语言、go语言等
微信扫码关注公众号,发送 "编程"获取资源
1 个回复
天善智能 - 专注商业智能,致力推动商业智能技术的普及与发展。 2015-12-06 回答
赞同来自:
天天向上:@铮 看你的场景。。最近的日志不压缩,归档需要压缩。
同程吴文波:@铮 我们是直接收集网络点击日志,存储在Hadoop的时候使用了snappy进行,没有用lzo,gz等。snappy的压缩比是非常高效的,google
铮:但snappy不是不能分割吗?用hadoop会不会慢
同程吴文波:@铮,我们就是用snappy,没有问题的。
铮:你们是把一天的数据一起传到hdfs上?还是实时传
同程吴文波:@铮 我们是用storm实时写入
铮:一天大约多大的数据
同程吴文波:每天1.5亿的记录数
天天向上:@铮 我们的日志是实时跟踪,但是会有一点延时。。
春天在心里:和阿里的实时是一样的吧
铮:嗯,这样比较好
同程吴文波:我们会实时收集pc,app,touch的行为数据。同程app的下载量超过7亿了。其实行为日志收集的架构本身一定要按场景来进行,确保日志一条不丢失才是关键。
Hao,William:现在我们记录的行为日志都是谁在什么地方干了什么。
春天在心里:哦,原来这个叫行为日志啊 阿里的生意参谋都是这种东西。
铮:确保日志一条不丟么?
同程吴文波:我们是使用kafka集群。kafka本身保留3天的数据。tengine负载方面保留一个月。从flume,到kafka,到storm,到db这些是确保不能丢失的。
Hao,William:kafka和rabbitmq 功能一样吧。 我们用的后者。。。
同程吴文波:校验的方式也很简单,你在app上设计一个计数器。
同程吴文波:kafka比较变态,本身能存储10几T。
铮:还有一点,如果程序在前台处理了,用户点击的数据在后台没留下?该如何收集?
同程吴文波:@铮 如果前端有处理,那要坚持日志是否到达你的接口层,接口层一定要实时输出到文本中。