大数据文章分类平常心 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

2

推荐

2032

阅读

spark2.x源码阅读之SparkSubmit

通常spark程序提交通过bin/spark-submit.sh，而在shell中调用的是org.apache.spark.deploy.SparkSubmit，阅读代码如下：1.SparkSubmit:main()|-- val appArgs = SparkSubmitArguments(args)|-- appArgs.action =>SparkSubmitAction.SUBMIT => submit(appArgs)// SparkSubmitAction是...

发表了文章 • 2017-08-31 16:29 • 0 条评论

1

推荐

2881

阅读

hadoop设置用户

异常：org.apache.hadoop.security.AccessControlException: Permission denied: user=zhangsan, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x通常的解决方法是1.系统用户使用hadoop组中的用户操作；2.hdfs dfs -chmod -R 777 /dir设置操作权限今天想在代码中设置一下，尝试了两种方法：1.没有成功的尝试import ...

发表了文章 • 2017-06-13 20:14 • 0 条评论

0

推荐

2616

阅读

Kudu单机版本安装

参考：http://kudu.apache.org/docs/installation.html#install_packages [root@druid ~]# cd /opt/# mkdir -p /var/www/html/kudu/5.10.1/# yum install gcc gcc-c++ kernel-devel [cloudera-kudu]# Packages for Cloudera's Distribution forkudu, Version 5, on RedHat or CentOS 6x86_64name=Cloude...

发表了文章 • 2017-06-02 15:32 • 0 条评论

0

推荐

1922

阅读

streamsets简单使用

目前数据处理平台中针对数据流处理的工具有apache Nifi（数据处理和分发）, StreamSets.1.log 流使用模式匹配使用计数

发表了文章 • 2016-12-28 17:03 • 0 条评论

2

推荐

1813

阅读

shell启动java

1.shell脚本#!/bin/bash basepath=$(cd `dirname $0`; pwd) confpath=$basepath/../conf logpath=$basepath/../logs libpath=$basepath/../lib pidfile=$basepath/../run/app.pid prog="app" RETVAL=0 is_systemd=`pstree -p | head -1 | grep 'systemd(1)' -q && echo 1 || echo 0` app_arg=$2 CLASSPA...

发表了文章 • 2016-12-27 15:00 • 0 条评论

1

推荐

2348

阅读

curator操作zookeeper

1.选择curator-framework的jar包,1.0.1的版本已经十分稳定，相对应的zk版本是3.3.x，还在开发中的版本是1.1.x，对应的版本是zk3.4.x。2.zookeeper对应的hosts和永久znode路径public class ZKUtil { //Zookeeper 永久节点 public static final String PATH = "/spider"; //Zookeeper连接地址 public stat...

发表了文章 • 2016-12-19 13:56 • 0 条评论

0

推荐

1742

阅读

solr全文检索二

1.命令行创建coreD:\soft\worksoft\solr-6.3.0>bin\solr.cmd create -c SparkHtmlPage //SparkHtmlPage是core名称2.启动server后查看，可以通过web界面的Schema操作filed3.managed-schema文件更改3.1命令行产生之后，会在solr-6.3.0\server\solr生成SparkHtmlPagem目录，更改对应conf下面的managed-schema文...

发表了文章 • 2016-12-15 16:54 • 0 条评论

1

推荐

1866

阅读

solr全文检索一

1.环境配置jdk1.8 solr6.3.0 apache-tomcat-8.0.38 windows OS2.server的jetty启动方式cd D:\soft\worksoft\solr-6.3.0\ D:\soft\worksoft\solr-6.3.0>bin\solr.cmd -p 8983 Waiting up to 30 to see Solr running on port 8983 Started Solr server on port 8983. Happy searching!web访问确认：关闭服务：D:\soft\w...

发表了文章 • 2016-12-14 11:49 • 0 条评论

1

推荐

1562

阅读

scala的脚本编写

1.环境 centos scala2.10.22.简单的示例# vi hello.sh #!/bin/sh exec scala "$0" "$@" !# println("HellO,Linux World")这里的#! 表示解释执行此脚本的shell路径 $0表示绑定的脚本名称hello.sh $@表...

发表了文章 • 2016-12-07 14:12 • 0 条评论

1

推荐

2128

阅读

spark的RDD存储到Hbase

1.DataFrame转化为RDDimport org.apache.spark.sql.SparkSession import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.mapred.JobConf import org.apache.hadoop.hbase.mapred.TableOutputFormat import org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.util.Bytes import...

发表了文章 • 2016-12-05 09:35 • 0 条评论

1

推荐

2416

阅读

spark2.0中求最值，平均值，TopN编写

对比MR，spark编写计算要简洁很多，代码如下：import org.apache.spark.sql.SparkSession object App { def main(args: Array[String]): Unit = { //测试最大最小值 // testMaxMin //测试平均值 // testAvg //测试Top N testTopN } def testMaxMin:Unit = { val sparkS...

发表了文章 • 2016-12-01 15:30 • 0 条评论

0

推荐

1735

阅读

java爬虫设计

1.爬虫系统设计1.1总体概览1.2模块划分1.2.1数据爬取模块 HttpClient进行html页面下载 HtmlCleaner+ Xpath Jsoup &nb...

发表了文章 • 2016-11-29 19:24 • 0 条评论

0

推荐

1311

阅读

基于redis设计爬虫队列

1.软件下载：http://download.redis.io/releases/ redis-2.8.1.tar.gz2.linux安装# cd /opt/# tar -zxvf redis-2.8.1.tar.gz# cd redis-2.8.1# make/bin/sh: cc: command not found //没有安装gcc-c++# yum install gcc-c++# makeerror: jemalloc/jemalloc.h: No such file ordirectory异常原因...

发表了文章 • 2016-11-28 09:59 • 0 条评论

2

推荐

2122

阅读

greenplum集群安装

1.环境信息1.1服务器 centos6.5 64位 8核/32gSZB-L0038784 master ，segment primary/mirrorSZB-L0038785 standby，segment primary/mirrorSZB-L0038786 segment primary/mirrorSZB-L0038787 segment primary/mirrorSZB-L0038788 segment primary/mirror1.2 Greenplum版本信息：greenplum-db-4....

发表了文章 • 2016-11-16 09:50 • 1 条评论

1

推荐

1811

阅读

基于spark和hive的thrift server的代理中间件开发

1.hive环境0.132.实现功能通过启动代理的thrift server服务，能够分发到实际启动的spark thrift，使spark thrift 服务不会是指定用户访问，交由代理层控制。3.代码结构

发表了文章 • 2016-11-14 11:26 • 1 条评论