0
推荐
1467
阅读

spark SQL学习(认识spark SQL)

spark SQL初步认识spark SQL是spark的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。DataFrame:它可以根据很多源进行构建,包括:结构化的数据文件,hive中的表,外部的关系型数据库,以及RDD创建DataFrame数据文件students.json{"id":1, "name":"leo", "age":18} {"id":2, "name"...

发表了文章 • 2017-09-01 15:15 • 0 条评论

0
推荐
1501
阅读

spark SQL学习(案例-统计每日销售)

需求:统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.functions._ /** * Created by Administrator on 2017/3/6. */ object Dail...

发表了文章 • 2017-09-01 14:52 • 0 条评论

0
推荐
1307
阅读

spark SQL学习(案例-统计每日uv)

需求:统计每日uvpackage wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types._ import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.functions._ /** * Created by Administrator on 2017/3/6. */ object DailyUV { ...

发表了文章 • 2017-09-01 14:42 • 0 条评论

0
推荐
1650
阅读

spark SQL学习(spark连接 mysql)

spark连接mysql(打jar包方式)package wujiadong_sparkSQL import java.util.Properties import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/14. */ object JdbcOperation { def main(args: Array[String]): Un...

发表了文章 • 2017-08-31 14:32 • 0 条评论

0
推荐
2041
阅读

spark SQL学习(spark连接hive)

spark 读取hive中的数据scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.HiveContext scala> val hiveContext = new HiveContext(sc) //hive中的feigu数据库中表stud_info scala> val stud_infoRDD = hiveContext.sql("select * from feigu.stud_info").rdd scala> stud_in...

发表了文章 • 2017-08-31 14:05 • 0 条评论

0
推荐
1450
阅读

spark SQL学习(数据源之json)

准备工作数据文件students.json{"id":1, "name":"leo", "age":18} {"id":2, "name":"jack", "age":19} {"id":3, "name":"marry", "age":17}存放目录:hdfs://master:9000/student/2016113012/spark/students.jsonscala代码package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.s...

发表了文章 • 2017-08-31 13:56 • 0 条评论

0
推荐
1186
阅读

spark SQL学习(数据源之parquet)

Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/3. */ object ParquetLoadData { def main(args: Array[String]): ...

发表了文章 • 2017-08-30 16:25 • 0 条评论

0
推荐
1696
阅读

spark SQL学习(load和save操作)

load操作:主要用于加载数据,创建出DataFramesave操作:主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型) package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/3. ...

发表了文章 • 2017-08-30 16:05 • 0 条评论

0
推荐
1980
阅读

spark学习(RDD案例实战)

练习0(并行化创建RDD)先启动spark-shell 通过并行化生成rdd scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15 查看该RDD的分区数量 scala> rdd1.partitions.length res0: Int = 1 创建时指定分区...

发表了文章 • 2017-08-29 16:55 • 0 条评论

0
推荐
1623
阅读

spark学习12(Wordcount程序之spark-shell)

在目录/home/hadoop/2016113012下有文件words.txthello scala hello java hello python hello wujiadong上传该文件到hdfshadoop@slave01:~/2016113012$ hadoop fs -put /home/hadoop/2016113012/words.txt /student/2016113012/spark hadoop@slave01:~/2016113012$ hadoop fs -lsr /student/2016113012启动spark she...

发表了文章 • 2017-08-29 16:51 • 0 条评论

0
推荐
1772
阅读

spark学习13(spark RDD)

RDD及其特点1)RDD(Resillient Distributed Dataset)弹性分布式数据集,是spark提供的核心抽象。它代表一个不可变、可分区、里面的元素可并行计算的集合2)RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作(分布式数据集...

发表了文章 • 2017-08-29 16:30 • 0 条评论

0
推荐
1177
阅读

spark学习11(Wordcount程序-本地测试)

wordcount程序文件wordcount.txthello wujiadong hello spark hello hadoop hello python 程序示例package wujiadong_sparkCore import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/25. */ object LocalSpark { def main(args: Array[String]): Unit...

发表了文章 • 2017-08-29 16:10 • 0 条评论

0
推荐
1334
阅读

spark学习10(win下利用Intellij IDEA搭建spark开发环境)

第一步:启动IntelliJ IDEA,选择Create New Project,然后选择Scala,点击下一步,输入项目名称wujiadong.spark继续下一步第二步:导入spark-assembly-1.5.1-hadoop2.6.0.jar包File——Project Structure——Libraries——点+号——点java——选择下载好的spark-assembly-1.5.1-hadoop2.6.0.jar包——点ok第三步:创建WordCount类编...

发表了文章 • 2017-08-29 11:07 • 0 条评论

0
推荐
975
阅读

spark学习7(spark2.0集群搭建)

第一步:安装spark将官网下载好的spark-2.0.0-bin-hadoop2.6.tgz上传到/usr/spark目录下。这里需注意的是spark和hadoop有对应版本关系[root@spark1 spark]# chmod u+x spark-2.0.0-bin-hadoop2.6.tgz [root@spark1 spark]# tar -zxvf spark-2.0.0-bin-hadoop2.6.tgz [root@spark1 spark]# mv spark-2.0.0-bin-hadoop2....

发表了文章 • 2017-08-28 09:49 • 0 条评论

0
推荐
1238
阅读

spark学习5(hbase集群搭建)

第一步:Hbase安装hadoop,zookeeper前面都安装好了将hbase-1.1.3-bin.tar.gz上传到/usr/HBase目录下[root@spark1 HBase]# chmod u+x hbase-1.1.3-bin.tar.gz [root@spark1 HBase]# tar -zxvf hbase-1.1.3-bin.tar.gz [root@spark1 HBase]# mv hbase-1.1.3 hbase-1.1 [root@spark1 ~]# vi/etc/profile #配置环境变量 ...

发表了文章 • 2017-08-25 15:06 • 0 条评论