1
推荐
3233
阅读
NiFi 入门:Kafka 数据同步到关系数据库(PostgreSQL)--Part2
接着part1的内容,介绍下拆分明细数据和insert到数据库的操作.拆分明细数据:总的流程图如下,比Part1多了2个processSplitJson:将trx_dtl的拆成多行EvaluateJsonPath:获取明细数据的属性查看一下数据,可以看到所有的属性了。insertPostgreSQL数据库:最简单就是使PutSQL组件,配置信息见下图,具体SQL如下:insert into...
1
推荐
4945
阅读
NiFi 入门:Kafka 数据同步到关系数据库(PostgreSQL)--part1
看了一段时间NiFi的文档,也测试了一些的内容,现给大家介绍下吧。我目前使用了Hortonworks的HDF,只是为了部署方便, 这个示例使用单独安装的NiFi版本也一样的。先拿小票的示例来演示一下基本操作,具体实现小票数据从Kakfa 同步到数据库(PostgreSQL)。小票格式是个json串,包括表头信息和商品的明细信息,类似如下:{ "...
2
推荐
2197
阅读
Hortonworks 社区一些NiFi record的帖子link
今天看了下Hortonworks 社区(https://community.hortonworks.com/index.html),由于最近在看NiFi record方面的内容,就按record搜索了一下,发现有好多好东西,先列在这里,慢慢看。 Using Apache NiFi to Validate that Records Adhere to a Schema (Part 1 of 2) https://community.hortonworks.com/articles/147...
1
推荐
3539
阅读
Apache NiFi的proxy代理设置
由于部署的机器网络限制,需要使用Nginx设置代理.开始想的 比较简单,常规设置conf/nginx.conf#nifi prod
upstream nificluster{
server hdfmaster:9090;
&nb...
1
推荐
11093
阅读
Apache NiFi的一些学习资源
原来我一直使用Inforamtica作数据处理工具, 由于实时数据(主要基于Kafka)的需要,一直在找类似工具,直到最近看到了Apache NiFi这个工具。Apache NiFi具体是做什么的?根据OSCON 2015 - Beyond Messaging: Enterprise Dataflow with Apache NiFi这个pptApache NiFi适用范围可靠安全的系统间数据传输分发数据到分析系统...
2
推荐
2935
阅读
HDP 平台oozie上sqoop节点的使用
1. sqoop import基本原理a.读取db数据到临时目录 b.临时目录 load到hive表(LOAD DATA INPATH '/sparktest/ooziedata/sparktest00/' OVERWRITE INTO TABLE spark_test03;)sqoop import --connect jdbc:postgresql://bigdatamster:5432/public --username user --password pwd -m1 --table spark_test --hive-import...
3
推荐
3962
阅读
HDP 平台oozie上spark2节点的使用
HDP 上oozie默认使用spark1,不是spark2,需要自己准备,这个可以参考bk_spark-component-guide.pdf p49日志看起来也有些麻烦,具体执行的内容可能需要查看History Server的日志1.准备lib按照说明文当作就可以了,测试下来如果不要要使用hive,应该可以不用hive-site.xml1. Create a spark2 ShareLib directory...
1
推荐
2822
阅读
HDP中oozie hive2节点总结
HDP的workflow manager使用还是蛮方便的,不过oozie的配置和依赖还是有点麻烦的。先聊一下oozie hive2节点的操作,这个一般不会有什么问题,按正确流程配好就可以了。1.正确配好lib可能出现类似这样的错误:Error starting action [hive2_1]. ErrorType [FAILED], ErrorCode [EJ001], Message [Could not locate Oozie s...
2
推荐
2184
阅读
Hortonworks HDP中oozie的一些问题
HDP上的ooize可以使用Workflow Manager配置使用。不过Hortonworks相关的内容分散在好几个文档里, 而且其中不同组件的设置也不在一起,这个很让人头痛。主要是这几个文档:workflow-management
bk_data-movement-and-integration
比要使用如spark2就要参考 bk_spark-component-guide具体使用下来,目前碰到最大的问题是...
1
推荐
2445
阅读
Hortonworks HDP默认配置HIve2 view执行sql出错
这几天使用HDP Hive 2 view又碰到一些问题,视图可以打开,但是不能执行SQL语句。按HDP Apache Ambari Views文档检查了一下,这样配置1. In Ambari Web, browse to
2. Under the Advanced tab, browse to the Custom core-site section.
3. Click Add Property… to add the following custom properties:
hadoop.proxyus...
0
推荐
1936
阅读
Hortonworks HDP中Kafka访问报错
HDP里面Kafka部署完后,使用java程序给kafka发送数据会报错,具体的错误信息如下,WARN kafka.producer.async.DefaultEventHandler:89 - Failed to send producer request with correlation id 2 to broker 1002 with data for partitions [test,0]注意id=2这个是不定的,等于其他值也有可能。具体解决从这个link找到htt...
0
推荐
2628
阅读
Hortonworks HDP安装过程的一些问题
最后还是决定安装Hortonworks 2.6.4.0,使用ambari自动安装模式具体参考https://docs.hortonworks.com/HDPDocuments/Ambari-2.6.2.0/bk_ambari-installation/content/download_the_ambari_repo_lnx7.html具体流程0.检查和准备就是一些常规内容,按照文档做就可以了注意主机点和其他机器的免密登陆还有每台机器时间同步如果...
0
推荐
2775
阅读
Spark standalone模式部署中的一些问题
最近准备把一些批量的应用转换到Spark Streaming上, 先部署到standalone模式上 , 将碰到的一些问题记录下来供接下来参考.具体使用Spark 2.2.1, 脚本使用Python3(使用pyenv的虚拟环境,按照https://ask.hellobi.com/blog/seng/3084 部署)1. OutOfMemoryErrorexamples/src/main/python/pi.py 10000报错ja...
2
推荐
2322
阅读
使用Python识别后缀为jpg但实际是 png的图片
今天碰到一个问题, 有个程序只能处理jpg文件,图片库收集的时候有些问题,部分图片后缀是jpg,但是图片格式是png.可以这样处理1.使用imghdr识别类型为png的图片2.使用PIL.Image 转换成jpg png = 'filename.png'
if imghdr.what(png)...
1
推荐
1919
阅读
新零售的有关思考(05)-零售终端有动力、有能力、有意愿去提高业绩
最近一直在思考在零售终端能做些什么,觉得还是要把零售终端需要什么或者是需要赋能什么想清楚。零售终端首先是零售端、也是商品流通的末端、信息反馈的开始端。如何赋能零售终端,让零售终端有动力、有能力、有意愿去提高业绩。有动力就是要责权利明确,把分配机制制定好,把推销工作做好,多劳多得,结果就是能把商品...