你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
没有找到相关结果
为了明天time - hadoop hive 大数据 java python 2015-10-22 回答
赞同来自: dashuju
seng - 从事BI、大数据、数据分析工作 2015-10-21 回答
Bob - 同程旅游大数据+BI 架构师 2015-10-22 回答
赞同来自:
要回复问题请先登录或注册
小白一个,问题多多,多指教。
推荐一份编程学习资源,包含了各类编程语言学习进阶路线图、视频教程、配套书籍文档、数百份面经,各大厂面试真题。编程语言包括:Java、前端、PHP、Python、Linux运维、软件测试、数据解构与算法、C语言、go语言等
微信扫码关注公众号,发送 "编程"获取资源
3 个回复
为了明天time - hadoop hive 大数据 java python 2015-10-22 回答
赞同来自: dashuju
Flume可以使用拦截器实时处理数据,对数据屏蔽或者过滤很有用,如果数据被设计给Hadoop使用,可以使用Flume,重在数据采集阶段。
采集和处理数据不一定同步,所以用kafka这个消息中间件来缓冲,重在数据接入。
在一些实时系统中一般采用flume+kafka+storm的设计
seng - 从事BI、大数据、数据分析工作 2015-10-21 回答
赞同来自: dashuju
kafka就是消息队列, 对日志采集系统来说是做缓存用的,供实时的应用读取。
由于往kafka发消息需要按要求程序调用,有时候没这么复杂,比如就像记录日志,那就有了flume这个日志采集工具, 有多种预定义的数据源,有预定义的输出方式,简单配置即可。
Bob - 同程旅游大数据+BI 架构师 2015-10-22 回答
赞同来自:
当你只想进行日志的收集工作时,可直接用flume。
如果你收集了日志后,想输出到多个业务方,则可结合kafka。kafka是消息队列,可支持多个业务来读取数据。
由于前端一般都会做负载均衡,所以日志源会有多个,而公司可能只有一个统一的实时计算平台。所以在这个中间一般都会采用消息队列来缓存。