0
推荐
1821
阅读

MapReduce数据处理[经典面试题02]

互联网公司处理的比较多的数据就是日志数据,其中访问日志处理要求就比较多一点,一般来说会有要求按照用户进行分组提取相关数据:一个比较常见的需求就是,取用户最近的访问记录,例如有两分文件:1、用户信息文件用户id 用户名称 设备id 1 kedai 11 yinwen 22 haha 33 zhenhao 42、设备访问日志设备id 访...

发表了文章 • 2019-01-05 12:48 • 0 条评论

0
推荐
2838
阅读

MapReduce数据处理[经典面试题01]

最近有了解到一些数据开发的面试提会要求开发进行手动编写map-reduce;记录一下使用map-reduce进行数据处理的过程及逻辑;现在版本的map-reduce过程基本都依赖新的jar包,之前的mapred相关的类后面不被推荐使用,使用mapreduce相关的类进行开发:题目:有一个好友列表,其中第一列是用户,后面的列是用户关注的好友。要...

发表了文章 • 2019-01-05 11:59 • 0 条评论

0
推荐
4430
阅读

hive-shell批量操作分区文件

使用hive表的过程中经常需要一些便捷操作:一、hdfs文件批量写SUCCESS文件,一般来说hive表生成结束,会产生一个_SUCCESS文件判断数据是否正常刷新完成但是如果是动态分区插入表进行写文件,那么写_SUCCESS文件需要批量写到各个动态分区内。可以使用以下代码片段在脚本结尾进行判断:#遍历目标文件目录,awk获取文件路径...

发表了文章 • 2018-12-25 20:34 • 0 条评论

0
推荐
1566
阅读

简单开发环境配置

mac环境下,下载flink、maven、kafka、jdkhttps://flink.apache.org/downloads.htmlhttp://maven.apache.org/download.cgihttp://kafka.apache.org/downloadshttps://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html解压下载文件:tar -xvf xxxx-bin.tar.gz查看是否有配置文件:~/.bash_...

发表了文章 • 2018-12-19 20:43 • 0 条评论

2
推荐
10608
阅读

利用钉钉机器人定时发送数据提醒&消息

工作中偶尔会遇到一些小需求,比如以下几种需求:在钉钉里面定时提醒订餐每天及时发送某一场景数据指标到某个聊天群监控数据异常因为是小需求,没有必要新起一个工程去处理这种事情,钉钉可以支持自定义机器人,可以调用钉钉等接口请求发送数据消息,它可以支持好几种消息类型:消息类型具体链接:https://open-doc.ding...

发表了文章 • 2018-12-17 13:35 • 0 条评论

0
推荐
7735
阅读

【hive常用函数一】日期函数

使用hive进行数据处理的过程种,遇到不少问题,总结之前的一些开发经验,把之前的一些处理技巧mark一下:使用通用的哑表dual作为测试表用。1、时间戳转换日期格式转换时间戳只能精确到秒(即长度只有10位,而不是13位)unix_timestamp(date,dateformat)unix_timestamp()不入参,函数可以直接获取当前的时间戳select unix...

发表了文章 • 2018-09-27 22:18 • 0 条评论

2
推荐
2212
阅读

transform-python环境快速配置

经常在数据开发中需要搞udf,最近发现transform更加方便易用,但是经常会涉及到集群python版本不一、包不全或者部分机器上没有安装python。所以咱们需要快速的进行环境配置。因为mac自带安装好的python,所以就不讲怎么安装了。可以去官网下个:https://www.python.org/downloads/source/1、安装虚拟环境工具:执行:pip...

发表了文章 • 2018-09-26 17:56 • 1 条评论

1
推荐
5952
阅读

python调用接口数据写入hive

该方法使用场景为:在hadoop集群进行接口调用,并且获取接口返回值进行解析,解析完成数据写入hive表其中存在的问题:测试环境和线上环境的一致性,还有接口调用不能一次性并发太高,自己把握这个量分模块说一下每个模块需要做的:1、调用get接口:请求本地接口进行测试,参数需要encode# -*- coding: utf-8 -*- import ...

发表了文章 • 2018-09-26 10:00 • 0 条评论

1
推荐
1754
阅读

多个List字段值转换

该UDF适用场景,某个表有两个字段存储为有序list,一个存储多是key,一个存储value。例如,表a,含有字段c1,c2,数据格式如下:需要取出 006 对应 小白,002 对应小灰,003 对应小黑,用sql处理没法把这个关系很好的切换出来。可能有人考虑用split进行切割,split(c1,",")[0]、split(c2,",")[0] 这样也可以获取出来,但是...

发表了文章 • 2018-09-15 00:11 • 0 条评论