seng的博客

从事BI、大数据、数据分析工作

1
推荐
2860
阅读

NiFi 入门:Kafka 数据同步到关系数据库(PostgreSQL)--Part2

接着part1的内容,介绍下拆分明细数据和insert到数据库的操作.拆分明细数据:总的流程图如下,比Part1多了2个processSplitJson:将trx_dtl的拆成多行EvaluateJsonPath:获取明细数据的属性查看一下数据,可以看到所有的属性了。insertPostgreSQL数据库:最简单就是使PutSQL组件,配置信息见下图,具体SQL如下:insert into...

发表了文章 • 2018-08-07 17:57 • 0 条评论

1
推荐
4416
阅读

NiFi 入门:Kafka 数据同步到关系数据库(PostgreSQL)--part1

看了一段时间NiFi的文档,也测试了一些的内容,现给大家介绍下吧。我目前使用了Hortonworks的HDF,只是为了部署方便, 这个示例使用单独安装的NiFi版本也一样的。先拿小票的示例来演示一下基本操作,具体实现小票数据从Kakfa 同步到数据库(PostgreSQL)。小票格式是个json串,包括表头信息和商品的明细信息,类似如下:{ "...

发表了文章 • 2018-08-06 21:31 • 0 条评论

2
推荐
1911
阅读

Hortonworks 社区一些NiFi record的帖子link

今天看了下Hortonworks 社区(https://community.hortonworks.com/index.html),由于最近在看NiFi record方面的内容,就按record搜索了一下,发现有好多好东西,先列在这里,慢慢看。 Using Apache NiFi to Validate that Records Adhere to a Schema (Part 1 of 2) https://community.hortonworks.com/articles/147...

发表了文章 • 2018-08-01 23:23 • 0 条评论

1
推荐
3137
阅读

Apache NiFi的proxy代理设置

由于部署的机器网络限制,需要使用Nginx设置代理.开始想的 比较简单,常规设置conf/nginx.conf#nifi prod     upstream nificluster{            server hdfmaster:9090;             &nb...

发表了文章 • 2018-07-31 11:55 • 0 条评论

1
推荐
10782
阅读

Apache NiFi的一些学习资源

原来我一直使用Inforamtica作数据处理工具, 由于实时数据(主要基于Kafka)的需要,一直在找类似工具,直到最近看到了Apache NiFi这个工具。Apache NiFi具体是做什么的?根据OSCON 2015 - Beyond Messaging: Enterprise Dataflow with Apache NiFi这个pptApache NiFi适用范围可靠安全的系统间数据传输分发数据到分析系统...

发表了文章 • 2018-07-26 17:36 • 0 条评论

2
推荐
2464
阅读

HDP 平台oozie上sqoop节点的使用

1. sqoop import基本原理a.读取db数据到临时目录 b.临时目录 load到hive表(LOAD DATA INPATH '/sparktest/ooziedata/sparktest00/'  OVERWRITE INTO TABLE spark_test03;)sqoop import --connect jdbc:postgresql://bigdatamster:5432/public --username user --password pwd -m1 --table spark_test --hive-import...

发表了文章 • 2018-07-16 16:10 • 2 条评论

3
推荐
3562
阅读

HDP 平台oozie上spark2节点的使用

HDP 上oozie默认使用spark1,不是spark2,需要自己准备,这个可以参考bk_spark-component-guide.pdf   p49日志看起来也有些麻烦,具体执行的内容可能需要查看History Server的日志1.准备lib按照说明文当作就可以了,测试下来如果不要要使用hive,应该可以不用hive-site.xml1. Create a spark2 ShareLib directory...

发表了文章 • 2018-07-11 17:44 • 0 条评论

1
推荐
2482
阅读

HDP中oozie hive2节点总结

HDP的workflow manager使用还是蛮方便的,不过oozie的配置和依赖还是有点麻烦的。先聊一下oozie hive2节点的操作,这个一般不会有什么问题,按正确流程配好就可以了。1.正确配好lib可能出现类似这样的错误:Error starting action [hive2_1]. ErrorType [FAILED], ErrorCode [EJ001], Message [Could not locate Oozie s...

发表了文章 • 2018-07-05 23:42 • 0 条评论

2
推荐
1935
阅读

Hortonworks HDP中oozie的一些问题

HDP上的ooize可以使用Workflow Manager配置使用。不过Hortonworks相关的内容分散在好几个文档里, 而且其中不同组件的设置也不在一起,这个很让人头痛。主要是这几个文档:workflow-management bk_data-movement-and-integration 比要使用如spark2就要参考 bk_spark-component-guide具体使用下来,目前碰到最大的问题是...

发表了文章 • 2018-07-04 17:52 • 0 条评论

1
推荐
2168
阅读

Hortonworks HDP默认配置HIve2 view执行sql出错

这几天使用HDP Hive 2 view又碰到一些问题,视图可以打开,但是不能执行SQL语句。按HDP Apache Ambari Views文档检查了一下,这样配置1. In Ambari Web, browse to 2. Under the Advanced tab, browse to the Custom core-site section. 3. Click Add Property… to add the following custom properties: hadoop.proxyus...

发表了文章 • 2018-07-01 10:59 • 0 条评论

0
推荐
1681
阅读

Hortonworks HDP中Kafka访问报错

HDP里面Kafka部署完后,使用java程序给kafka发送数据会报错,具体的错误信息如下,WARN kafka.producer.async.DefaultEventHandler:89 - Failed to send producer request with correlation id 2 to broker 1002 with data for partitions [test,0]注意id=2这个是不定的,等于其他值也有可能。具体解决从这个link找到htt...

发表了文章 • 2018-06-28 23:34 • 0 条评论

0
推荐
2348
阅读

Hortonworks HDP安装过程的一些问题

最后还是决定安装Hortonworks 2.6.4.0,使用ambari自动安装模式具体参考https://docs.hortonworks.com/HDPDocuments/Ambari-2.6.2.0/bk_ambari-installation/content/download_the_ambari_repo_lnx7.html具体流程0.检查和准备就是一些常规内容,按照文档做就可以了注意主机点和其他机器的免密登陆还有每台机器时间同步如果...

发表了文章 • 2018-06-22 17:59 • 0 条评论

0
推荐
2397
阅读

Spark standalone模式部署中的一些问题

最近准备把一些批量的应用转换到Spark Streaming上, 先部署到standalone模式上 ,  将碰到的一些问题记录下来供接下来参考.具体使用Spark 2.2.1, 脚本使用Python3(使用pyenv的虚拟环境,按照https://ask.hellobi.com/blog/seng/3084 部署)1. OutOfMemoryErrorexamples/src/main/python/pi.py   10000报错ja...

发表了文章 • 2018-06-08 15:36 • 0 条评论

2
推荐
1941
阅读

使用Python识别后缀为jpg但实际是 png的图片

今天碰到一个问题, 有个程序只能处理jpg文件,图片库收集的时候有些问题,部分图片后缀是jpg,但是图片格式是png.可以这样处理1.使用imghdr识别类型为png的图片2.使用PIL.Image 转换成jpg        png = 'filename.png'         if imghdr.what(png)...

发表了文章 • 2018-06-08 13:55 • 0 条评论

1
推荐
1675
阅读

新零售的有关思考(05)-零售终端有动力、有能力、有意愿去提高业绩

最近一直在思考在零售终端能做些什么,觉得还是要把零售终端需要什么或者是需要赋能什么想清楚。零售终端首先是零售端、也是商品流通的末端、信息反馈的开始端。如何赋能零售终端,让零售终端有动力、有能力、有意愿去提高业绩。有动力就是要责权利明确,把分配机制制定好,把推销工作做好,多劳多得,结果就是能把商品...

发表了文章 • 2018-06-03 10:02 • 0 条评论