夜观星象

天之道,损有余而补不足,是故虚胜实,不足胜有余。其意博,其理奥,其趣深,天地之象分,阴阳之候列,变化之由表,死生之兆彰,不谋而遗迹自同,勿约而幽明斯契,稽其言有微,验之事不忒,诚可谓至道之宗,奉生之始矣。

0
推荐
33
阅读

Flink开发前基础准备

一、基础开发环境准备:idea、maven、kafka本地环境安装配置好了即可。idea配置pom.xml文件,flink的主要依赖包加上 <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-java --> <dependency> <groupId>org.apache.flink</groupId> ...

发表了文章 • 2 天前 • 0 条评论

0
推荐
65
阅读

开发环境配置备注

===========brew==============mac安装神器brew安装: /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"   用法:brew update  更新brew;brew install {应用名,如git} 安装软件brew cask install {应用名,如git} 也是下载安装,与上面的区别,请查...

发表了文章 • 2019-01-07 14:47 • 0 条评论

0
推荐
80
阅读

MapReduce数据处理[经典面试题02]

互联网公司处理的比较多的数据就是日志数据,其中访问日志处理要求就比较多一点,一般来说会有要求按照用户进行分组提取相关数据:一个比较常见的需求就是,取用户最近的访问记录,例如有两分文件:1、用户信息文件用户id 用户名称 设备id 1 kedai 11 yinwen 22 haha 33 zhenhao 42、设备访问日志设备id 访...

发表了文章 • 2019-01-05 12:48 • 0 条评论

0
推荐
78
阅读

MapReduce数据处理[经典面试题01]

最近有了解到一些数据开发的面试提会要求开发进行手动编写map-reduce;记录一下使用map-reduce进行数据处理的过程及逻辑;现在版本的map-reduce过程基本都依赖新的jar包,之前的mapred相关的类后面不被推荐使用,使用mapreduce相关的类进行开发:题目:有一个好友列表,其中第一列是用户,后面的列是用户关注的好友。要...

发表了文章 • 2019-01-05 11:59 • 0 条评论

0
推荐
147
阅读

hive-shell批量操作分区文件

使用hive表的过程中经常需要一些便捷操作:一、hdfs文件批量写SUCCESS文件,一般来说hive表生成结束,会产生一个_SUCCESS文件判断数据是否正常刷新完成但是如果是动态分区插入表进行写文件,那么写_SUCCESS文件需要批量写到各个动态分区内。可以使用以下代码片段在脚本结尾进行判断:#遍历目标文件目录,awk获取文件路径...

发表了文章 • 2018-12-25 20:34 • 0 条评论

0
推荐
116
阅读

简单开发环境配置

mac环境下,下载flink、maven、kafka、jdkhttps://flink.apache.org/downloads.htmlhttp://maven.apache.org/download.cgihttp://kafka.apache.org/downloadshttps://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html解压下载文件:tar -xvf xxxx-bin.tar.gz查看是否有配置文件:~/.bash_...

发表了文章 • 2018-12-19 20:43 • 0 条评论

2
推荐
298
阅读

利用钉钉机器人定时发送数据提醒&消息

工作中偶尔会遇到一些小需求,比如以下几种需求:在钉钉里面定时提醒订餐每天及时发送某一场景数据指标到某个聊天群监控数据异常因为是小需求,没有必要新起一个工程去处理这种事情,钉钉可以支持自定义机器人,可以调用钉钉等接口请求发送数据消息,它可以支持好几种消息类型:消息类型具体链接:https://open-doc.ding...

发表了文章 • 2018-12-17 13:35 • 0 条评论

0
推荐
324
阅读

【hive常用函数一】日期函数

使用hive进行数据处理的过程种,遇到不少问题,总结之前的一些开发经验,把之前的一些处理技巧mark一下:使用通用的哑表dual作为测试表用。1、时间戳转换日期格式转换时间戳只能精确到秒(即长度只有10位,而不是13位)unix_timestamp(date,dateformat)unix_timestamp()不入参,函数可以直接获取当前的时间戳select unix...

发表了文章 • 2018-09-27 22:18 • 0 条评论

2
推荐
256
阅读

transform-python环境快速配置

经常在数据开发中需要搞udf,最近发现transform更加方便易用,但是经常会涉及到集群python版本不一、包不全或者部分机器上没有安装python。所以咱们需要快速的进行环境配置。因为mac自带安装好的python,所以就不讲怎么安装了。可以去官网下个:https://www.python.org/downloads/source/1、安装虚拟环境工具:执行:pip...

发表了文章 • 2018-09-26 17:56 • 0 条评论

1
推荐
448
阅读

python调用接口数据写入hive

该方法使用场景为:在hadoop集群进行接口调用,并且获取接口返回值进行解析,解析完成数据写入hive表其中存在的问题:测试环境和线上环境的一致性,还有接口调用不能一次性并发太高,自己把握这个量分模块说一下每个模块需要做的:1、调用get接口:请求本地接口进行测试,参数需要encode# -*- coding: utf-8 -*- import ...

发表了文章 • 2018-09-26 10:00 • 0 条评论

1
推荐
263
阅读

flink基础环境配置

基础机器配置:MacBook Pro 其他机器可以搞个linux的虚拟机也一样。1、下载flink安装文件:路径:https://flink.apache.org/downloads.html一种是下载与hadoop匹配的版本,一种是下载纯净的flink版本,下面的是hadoop的全部版本,该案例下的是纯净版本:flink-1.5.2-src,没有使用hadoop绑定的版本,如果需要的话可以自...

发表了文章 • 2018-09-15 23:03 • 0 条评论

1
推荐
193
阅读

多个List字段值转换

该UDF适用场景,某个表有两个字段存储为有序list,一个存储多是key,一个存储value。例如,表a,含有字段c1,c2,数据格式如下:需要取出 006 对应 小白,002 对应小灰,003 对应小黑,用sql处理没法把这个关系很好的切换出来。可能有人考虑用split进行切割,split(c1,",")[0]、split(c2,",")[0] 这样也可以获取出来,但是...

发表了文章 • 2018-09-15 00:11 • 0 条评论

7
推荐
1003
阅读

百闻不如一面【教你写简历】

前一篇简单谈了谈入门,这一篇谈谈简历怎么写。你有很好的能力,或者在某方面确实有欠缺,但是实际上你是能胜任某个岗位的,但是由于你简历太渣,没有被用人单位或者面试者所看中,那么你的机会就会溜走哦。好的简历相当于是一把打开面试的大门的钥匙,一定要学会包装自己,我来简单说一下一个靠谱的简历该怎么写。一、...

发表了文章 • 2018-02-01 14:45 • 4 条评论

6
推荐
646
阅读

百闻不如一面【谈谈入门】

曾经面试过很多家公司,面试过很多岗位,如今沉淀一下仔细想想,有很多地方可以给一些建议,这一篇写给想入门、想转行的同学。一、职业方向谈面试之前,先聊聊数据的职业方向如何,大数据方向根据目前的行业情况主要有:1、岗位:数据分析师(BI/BA)                  &n...

发表了文章 • 2018-01-30 18:10 • 3 条评论

7
推荐
564
阅读

数据开发成长之路回顾【2018】

回首想起自己走上大数据开发这条路,不禁莞尔一笑,2011年毕业,7月初入职,直到现在经历了将近7年的数据生涯。整理一下思绪,有几个地方需要总结,也希望我自己的总结经验能给其他新人一些借鉴。【懵懂期】--面试我相信大多数人现在毕业前都会有自己的职业规划,但是我没有太清晰的规划,我学的专业是经济学院统计系专...

发表了文章 • 2018-01-29 17:33 • 5 条评论