2
推荐
2032
阅读

spark2.x源码阅读之SparkSubmit

        通常spark程序提交通过bin/spark-submit.sh,而在shell中调用的是org.apache.spark.deploy.SparkSubmit,阅读代码如下:1.SparkSubmit:main()|-- val appArgs = SparkSubmitArguments(args)|-- appArgs.action =>SparkSubmitAction.SUBMIT => submit(appArgs)// SparkSubmitAction是...

发表了文章 • 2017-08-31 16:29 • 0 条评论

1
推荐
2881
阅读

hadoop设置用户

异常:org.apache.hadoop.security.AccessControlException: Permission denied: user=zhangsan, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x通常的解决方法是1.系统用户使用hadoop组中的用户操作;2.hdfs dfs -chmod -R 777 /dir设置操作权限今天想在代码中设置一下,尝试了两种方法:1.没有成功的尝试import ...

发表了文章 • 2017-06-13 20:14 • 0 条评论

0
推荐
2616
阅读

Kudu单机版本安装

参考:http://kudu.apache.org/docs/installation.html#install_packages [root@druid ~]# cd /opt/# mkdir -p /var/www/html/kudu/5.10.1/# yum install gcc gcc-c++ kernel-devel  [cloudera-kudu]# Packages for Cloudera's Distribution forkudu, Version 5, on RedHat or CentOS 6x86_64name=Cloude...

发表了文章 • 2017-06-02 15:32 • 0 条评论

0
推荐
1922
阅读

streamsets简单使用

    目前数据处理平台中针对数据流处理的工具有apache Nifi(数据处理和分发), StreamSets.1.log 流使用模式匹配 使用计数

发表了文章 • 2016-12-28 17:03 • 0 条评论

2
推荐
1813
阅读

shell启动java

1.shell脚本#!/bin/bash basepath=$(cd `dirname $0`; pwd) confpath=$basepath/../conf logpath=$basepath/../logs libpath=$basepath/../lib pidfile=$basepath/../run/app.pid prog="app" RETVAL=0 is_systemd=`pstree -p | head -1 | grep 'systemd(1)' -q && echo 1 || echo 0` app_arg=$2 CLASSPA...

发表了文章 • 2016-12-27 15:00 • 0 条评论

1
推荐
2348
阅读

curator操作zookeeper

1.选择curator-framework的jar包,1.0.1的版本已经十分稳定,相对应的zk版本是3.3.x,还在开发中的版本是1.1.x,对应的版本是zk3.4.x。2.zookeeper对应的hosts和永久znode路径public class ZKUtil { //Zookeeper 永久节点 public static final String PATH = "/spider"; //Zookeeper连接地址 public stat...

发表了文章 • 2016-12-19 13:56 • 0 条评论

0
推荐
1742
阅读

solr全文检索二

1.命令行创建coreD:\soft\worksoft\solr-6.3.0>bin\solr.cmd create -c SparkHtmlPage //SparkHtmlPage是core名称2.启动server后查看,可以通过web界面的Schema操作filed3.managed-schema文件更改3.1命令行产生之后,会在solr-6.3.0\server\solr生成SparkHtmlPagem目录,更改对应conf下面的managed-schema文...

发表了文章 • 2016-12-15 16:54 • 0 条评论

1
推荐
1866
阅读

solr全文检索一

1.环境配置jdk1.8 solr6.3.0 apache-tomcat-8.0.38 windows OS2.server的jetty启动方式cd D:\soft\worksoft\solr-6.3.0\ D:\soft\worksoft\solr-6.3.0>bin\solr.cmd -p 8983 Waiting up to 30 to see Solr running on port 8983 Started Solr server on port 8983. Happy searching!web访问确认:关闭服务:D:\soft\w...

发表了文章 • 2016-12-14 11:49 • 0 条评论

1
推荐
1562
阅读

scala的脚本编写

1.环境 centos           scala2.10.22.简单的示例# vi hello.sh #!/bin/sh exec scala "$0" "$@" !# println("HellO,Linux World")这里的#! 表示解释执行此脚本的shell路径          $0表示绑定的脚本名称hello.sh          $@表...

发表了文章 • 2016-12-07 14:12 • 0 条评论

1
推荐
2128
阅读

spark的RDD存储到Hbase

1.DataFrame转化为RDDimport org.apache.spark.sql.SparkSession import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.mapred.JobConf import org.apache.hadoop.hbase.mapred.TableOutputFormat import org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.util.Bytes import...

发表了文章 • 2016-12-05 09:35 • 0 条评论

1
推荐
2416
阅读

spark2.0中求最值,平均值,TopN编写

对比MR,spark编写计算要简洁很多,代码如下:import org.apache.spark.sql.SparkSession object App { def main(args: Array[String]): Unit = { //测试最大最小值 // testMaxMin //测试平均值 // testAvg //测试Top N testTopN } def testMaxMin:Unit = { val sparkS...

发表了文章 • 2016-12-01 15:30 • 0 条评论

0
推荐
1735
阅读

java爬虫设计

1.爬虫系统设计1.1总体概览1.2模块划分1.2.1数据爬取模块   HttpClient进行html页面下载   HtmlCleaner+ Xpath                                  Jsoup            &nb...

发表了文章 • 2016-11-29 19:24 • 0 条评论

0
推荐
1311
阅读

基于redis设计爬虫队列

1.软件下载:http://download.redis.io/releases/   redis-2.8.1.tar.gz2.linux安装# cd /opt/# tar -zxvf redis-2.8.1.tar.gz# cd redis-2.8.1# make/bin/sh: cc: command not found   //没有安装gcc-c++# yum install gcc-c++# makeerror: jemalloc/jemalloc.h: No such file ordirectory异常原因...

发表了文章 • 2016-11-28 09:59 • 0 条评论

2
推荐
2122
阅读

greenplum集群安装

1.环境信息1.1服务器 centos6.5 64位  8核/32gSZB-L0038784  master ,segment primary/mirrorSZB-L0038785  standby,segment primary/mirrorSZB-L0038786  segment primary/mirrorSZB-L0038787 segment primary/mirrorSZB-L0038788 segment primary/mirror1.2 Greenplum版本信息:greenplum-db-4....

发表了文章 • 2016-11-16 09:50 • 1 条评论

1
推荐
1811
阅读

基于spark和hive的thrift server的代理中间件开发

1.hive环境0.132.实现功能通过启动代理的thrift server服务,能够分发到实际启动的spark thrift,使spark thrift 服务不会是指定用户访问,交由代理层控制。3.代码结构

发表了文章 • 2016-11-14 11:26 • 1 条评论