2
推荐
2032
阅读
spark2.x源码阅读之SparkSubmit
通常spark程序提交通过bin/spark-submit.sh,而在shell中调用的是org.apache.spark.deploy.SparkSubmit,阅读代码如下:1.SparkSubmit:main()|-- val appArgs = SparkSubmitArguments(args)|-- appArgs.action =>SparkSubmitAction.SUBMIT => submit(appArgs)// SparkSubmitAction是...
1
推荐
2881
阅读
hadoop设置用户
异常:org.apache.hadoop.security.AccessControlException: Permission denied: user=zhangsan, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x通常的解决方法是1.系统用户使用hadoop组中的用户操作;2.hdfs dfs -chmod -R 777 /dir设置操作权限今天想在代码中设置一下,尝试了两种方法:1.没有成功的尝试import ...
0
推荐
2616
阅读
Kudu单机版本安装
参考:http://kudu.apache.org/docs/installation.html#install_packages [root@druid ~]# cd /opt/# mkdir -p /var/www/html/kudu/5.10.1/# yum install gcc gcc-c++ kernel-devel [cloudera-kudu]# Packages for Cloudera's Distribution forkudu, Version 5, on RedHat or CentOS 6x86_64name=Cloude...
0
推荐
1922
阅读
streamsets简单使用
目前数据处理平台中针对数据流处理的工具有apache Nifi(数据处理和分发), StreamSets.1.log 流使用模式匹配 使用计数
2
推荐
1813
阅读
shell启动java
1.shell脚本#!/bin/bash
basepath=$(cd `dirname $0`; pwd)
confpath=$basepath/../conf
logpath=$basepath/../logs
libpath=$basepath/../lib
pidfile=$basepath/../run/app.pid
prog="app"
RETVAL=0
is_systemd=`pstree -p | head -1 | grep 'systemd(1)' -q && echo 1 || echo 0`
app_arg=$2
CLASSPA...
1
推荐
2348
阅读
curator操作zookeeper
1.选择curator-framework的jar包,1.0.1的版本已经十分稳定,相对应的zk版本是3.3.x,还在开发中的版本是1.1.x,对应的版本是zk3.4.x。2.zookeeper对应的hosts和永久znode路径public class ZKUtil {
//Zookeeper 永久节点
public static final String PATH = "/spider";
//Zookeeper连接地址
public stat...
0
推荐
1742
阅读
solr全文检索二
1.命令行创建coreD:\soft\worksoft\solr-6.3.0>bin\solr.cmd create -c SparkHtmlPage //SparkHtmlPage是core名称2.启动server后查看,可以通过web界面的Schema操作filed3.managed-schema文件更改3.1命令行产生之后,会在solr-6.3.0\server\solr生成SparkHtmlPagem目录,更改对应conf下面的managed-schema文...
1
推荐
1866
阅读
solr全文检索一
1.环境配置jdk1.8
solr6.3.0
apache-tomcat-8.0.38
windows OS2.server的jetty启动方式cd D:\soft\worksoft\solr-6.3.0\
D:\soft\worksoft\solr-6.3.0>bin\solr.cmd -p 8983
Waiting up to 30 to see Solr running on port 8983
Started Solr server on port 8983. Happy searching!web访问确认:关闭服务:D:\soft\w...
1
推荐
1562
阅读
scala的脚本编写
1.环境 centos scala2.10.22.简单的示例# vi hello.sh
#!/bin/sh
exec scala "$0" "$@"
!#
println("HellO,Linux World")这里的#! 表示解释执行此脚本的shell路径 $0表示绑定的脚本名称hello.sh $@表...
1
推荐
2128
阅读
spark的RDD存储到Hbase
1.DataFrame转化为RDDimport org.apache.spark.sql.SparkSession
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.mapred.JobConf
import org.apache.hadoop.hbase.mapred.TableOutputFormat
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.util.Bytes
import...
1
推荐
2416
阅读
spark2.0中求最值,平均值,TopN编写
对比MR,spark编写计算要简洁很多,代码如下:import org.apache.spark.sql.SparkSession
object App {
def main(args: Array[String]): Unit = {
//测试最大最小值
// testMaxMin
//测试平均值
// testAvg
//测试Top N
testTopN
}
def testMaxMin:Unit = {
val sparkS...
0
推荐
1735
阅读
java爬虫设计
1.爬虫系统设计1.1总体概览1.2模块划分1.2.1数据爬取模块 HttpClient进行html页面下载 HtmlCleaner+ Xpath Jsoup &nb...
0
推荐
1311
阅读
基于redis设计爬虫队列
1.软件下载:http://download.redis.io/releases/ redis-2.8.1.tar.gz2.linux安装# cd /opt/# tar -zxvf redis-2.8.1.tar.gz# cd redis-2.8.1# make/bin/sh: cc: command not found //没有安装gcc-c++# yum install gcc-c++# makeerror: jemalloc/jemalloc.h: No such file ordirectory异常原因...
2
推荐
2122
阅读
greenplum集群安装
1.环境信息1.1服务器 centos6.5 64位 8核/32gSZB-L0038784 master ,segment primary/mirrorSZB-L0038785 standby,segment primary/mirrorSZB-L0038786 segment primary/mirrorSZB-L0038787 segment primary/mirrorSZB-L0038788 segment primary/mirror1.2 Greenplum版本信息:greenplum-db-4....
1
推荐
1811
阅读
基于spark和hive的thrift server的代理中间件开发
1.hive环境0.132.实现功能通过启动代理的thrift server服务,能够分发到实际启动的spark thrift,使spark thrift 服务不会是指定用户访问,交由代理层控制。3.代码结构