夜观星象

天之道,损有余而补不足,是故虚胜实,不足胜有余。其意博,其理奥,其趣深,天地之象分,阴阳之候列,变化之由表,死生之兆彰,不谋而遗迹自同,勿约而幽明斯契,稽其言有微,验之事不忒,诚可谓至道之宗,奉生之始矣。

0
推荐
1256
阅读

mac-python3环境配置

一、使用brew进行安装python3brew install python3二、查看安装路径版本查看python版本 python --version Python 2.7.10 python3 --version Python 3.7.5 查看python路径 which python /usr/bin/python which python3 /usr/local/bin/python3 三、修改环境变量修改python映射路径 vim ~/.bash_profile alias python=/usr...

发表了文章 • 2019-12-18 11:20 • 0 条评论

0
推荐
3632
阅读

Homebrew环境配置及报错处理

一、在mac上安装brew,执行以下命令:/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"如果出现以下错误:fatal: unable to access 'https://github.com/Homebrew/homebrew-core/': LibreSSL SSL_read: SSL_ERROR_SYSCALL, errno 54 Error: Fetching /usr/loc...

发表了文章 • 2019-12-18 10:42 • 0 条评论

0
推荐
2559
阅读

Windows本地安装zk&kafka环境

一、下载zookeeper、kafka安装包:1、 zookeeper: http://zookeeper.apache.org/releases.html(下载:apache-zookeeper-3.5.5.tar.gz)2、 kafka: http://kafka.apache.org/downloads.html(下载:kafka_2.11-2.2.1.tgz)如果找不到zookeeper下载地方,也可以直接进入:http://us.mirrors.quenda.co/apache/进行下载。二、...

发表了文章 • 2019-09-05 09:24 • 0 条评论

0
推荐
9286
阅读

Flink-流拆分和流合并

如果我们有一个kafka-topic写了不同的数据,我们需要根据这个输入数据进行不同的处理逻辑,但是最终结果需要合并在一个流里面,那么这个时候即可用这么一波操作。1、使用split方法进行数据分流,把分流信息存到新建的OutputSelector对象里面2、调用split stream的select方法把 split stream 转成 data stream3、调用...

发表了文章 • 2019-01-23 16:21 • 0 条评论

0
推荐
2005
阅读

Flink-基础计数wordcount

flink最简单的程序就是wordcount,即对单词进行计次计算。flink分流处理和批处理,流处理调用DataStream-api进行处理,批处理调用DataSet-api进行处理,DataSet、DataStream都是是flink底层的api。一、流式处理:新建一个数据流,使用StreamExecutionEnvironment的方法创建一个数据流:package flink;import org.apache....

发表了文章 • 2019-01-22 16:55 • 0 条评论

0
推荐
2598
阅读

Flink开发前基础准备

一、基础开发环境准备:idea、maven、kafka本地环境安装配置好了即可。idea配置pom.xml文件,flink的主要依赖包加上 <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-java --> <dependency> <groupId>org.apache.flink</groupId> ...

发表了文章 • 2019-01-18 15:48 • 0 条评论

0
推荐
1642
阅读

开发环境配置备注

===========brew==============mac安装神器brew安装: /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"   用法:brew update  更新brew;brew install {应用名,如git} 安装软件brew cask install {应用名,如git} 也是下载安装,与上面的区别,请查...

发表了文章 • 2019-01-07 14:47 • 0 条评论

0
推荐
1804
阅读

MapReduce数据处理[经典面试题02]

互联网公司处理的比较多的数据就是日志数据,其中访问日志处理要求就比较多一点,一般来说会有要求按照用户进行分组提取相关数据:一个比较常见的需求就是,取用户最近的访问记录,例如有两分文件:1、用户信息文件用户id 用户名称 设备id 1 kedai 11 yinwen 22 haha 33 zhenhao 42、设备访问日志设备id 访...

发表了文章 • 2019-01-05 12:48 • 0 条评论

0
推荐
2815
阅读

MapReduce数据处理[经典面试题01]

最近有了解到一些数据开发的面试提会要求开发进行手动编写map-reduce;记录一下使用map-reduce进行数据处理的过程及逻辑;现在版本的map-reduce过程基本都依赖新的jar包,之前的mapred相关的类后面不被推荐使用,使用mapreduce相关的类进行开发:题目:有一个好友列表,其中第一列是用户,后面的列是用户关注的好友。要...

发表了文章 • 2019-01-05 11:59 • 0 条评论

0
推荐
4405
阅读

hive-shell批量操作分区文件

使用hive表的过程中经常需要一些便捷操作:一、hdfs文件批量写SUCCESS文件,一般来说hive表生成结束,会产生一个_SUCCESS文件判断数据是否正常刷新完成但是如果是动态分区插入表进行写文件,那么写_SUCCESS文件需要批量写到各个动态分区内。可以使用以下代码片段在脚本结尾进行判断:#遍历目标文件目录,awk获取文件路径...

发表了文章 • 2018-12-25 20:34 • 0 条评论

0
推荐
1552
阅读

简单开发环境配置

mac环境下,下载flink、maven、kafka、jdkhttps://flink.apache.org/downloads.htmlhttp://maven.apache.org/download.cgihttp://kafka.apache.org/downloadshttps://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html解压下载文件:tar -xvf xxxx-bin.tar.gz查看是否有配置文件:~/.bash_...

发表了文章 • 2018-12-19 20:43 • 0 条评论

2
推荐
10560
阅读

利用钉钉机器人定时发送数据提醒&消息

工作中偶尔会遇到一些小需求,比如以下几种需求:在钉钉里面定时提醒订餐每天及时发送某一场景数据指标到某个聊天群监控数据异常因为是小需求,没有必要新起一个工程去处理这种事情,钉钉可以支持自定义机器人,可以调用钉钉等接口请求发送数据消息,它可以支持好几种消息类型:消息类型具体链接:https://open-doc.ding...

发表了文章 • 2018-12-17 13:35 • 0 条评论

0
推荐
7692
阅读

【hive常用函数一】日期函数

使用hive进行数据处理的过程种,遇到不少问题,总结之前的一些开发经验,把之前的一些处理技巧mark一下:使用通用的哑表dual作为测试表用。1、时间戳转换日期格式转换时间戳只能精确到秒(即长度只有10位,而不是13位)unix_timestamp(date,dateformat)unix_timestamp()不入参,函数可以直接获取当前的时间戳select unix...

发表了文章 • 2018-09-27 22:18 • 0 条评论

2
推荐
2191
阅读

transform-python环境快速配置

经常在数据开发中需要搞udf,最近发现transform更加方便易用,但是经常会涉及到集群python版本不一、包不全或者部分机器上没有安装python。所以咱们需要快速的进行环境配置。因为mac自带安装好的python,所以就不讲怎么安装了。可以去官网下个:https://www.python.org/downloads/source/1、安装虚拟环境工具:执行:pip...

发表了文章 • 2018-09-26 17:56 • 1 条评论

1
推荐
5920
阅读

python调用接口数据写入hive

该方法使用场景为:在hadoop集群进行接口调用,并且获取接口返回值进行解析,解析完成数据写入hive表其中存在的问题:测试环境和线上环境的一致性,还有接口调用不能一次性并发太高,自己把握这个量分模块说一下每个模块需要做的:1、调用get接口:请求本地接口进行测试,参数需要encode# -*- coding: utf-8 -*- import ...

发表了文章 • 2018-09-26 10:00 • 0 条评论