Spark 文章分类邬家栋 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

1467

阅读

spark SQL学习（认识spark SQL）

spark SQL初步认识spark SQL是spark的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。DataFrame：它可以根据很多源进行构建，包括：结构化的数据文件，hive中的表，外部的关系型数据库，以及RDD创建DataFrame数据文件students.json{"id":1, "name":"leo", "age":18} {"id":2, "name"...

发表了文章 • 2017-09-01 15:15 • 0 条评论

0

推荐

1501

阅读

spark SQL学习（案例-统计每日销售）

需求：统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.functions._ /** * Created by Administrator on 2017/3/6. */ object Dail...

发表了文章 • 2017-09-01 14:52 • 0 条评论

0

推荐

1307

阅读

spark SQL学习（案例-统计每日uv）

需求：统计每日uvpackage wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types._ import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.functions._ /** * Created by Administrator on 2017/3/6. */ object DailyUV { ...

发表了文章 • 2017-09-01 14:42 • 0 条评论

0

推荐

1650

阅读

spark SQL学习（spark连接 mysql）

spark连接mysql（打jar包方式）package wujiadong_sparkSQL import java.util.Properties import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/14. */ object JdbcOperation { def main(args: Array[String]): Un...

发表了文章 • 2017-08-31 14:32 • 0 条评论

0

推荐

2041

阅读

spark SQL学习（spark连接hive）

spark 读取hive中的数据scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.HiveContext scala> val hiveContext = new HiveContext(sc) //hive中的feigu数据库中表stud_info scala> val stud_infoRDD = hiveContext.sql("select * from feigu.stud_info").rdd scala> stud_in...

发表了文章 • 2017-08-31 14:05 • 0 条评论

0

推荐

1450

阅读

spark SQL学习（数据源之json）

准备工作数据文件students.json{"id":1, "name":"leo", "age":18} {"id":2, "name":"jack", "age":19} {"id":3, "name":"marry", "age":17}存放目录：hdfs://master:9000/student/2016113012/spark/students.jsonscala代码package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.s...

发表了文章 • 2017-08-31 13:56 • 0 条评论

0

推荐

1186

阅读

spark SQL学习（数据源之parquet）

Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/3. */ object ParquetLoadData { def main(args: Array[String]): ...

发表了文章 • 2017-08-30 16:25 • 0 条评论

0

推荐

1696

阅读

spark SQL学习（load和save操作）

load操作：主要用于加载数据，创建出DataFramesave操作：主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型) package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/3. ...

发表了文章 • 2017-08-30 16:05 • 0 条评论

0

推荐

1980

阅读

spark学习（RDD案例实战）

练习0（并行化创建RDD）先启动spark-shell 通过并行化生成rdd scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15 查看该RDD的分区数量 scala> rdd1.partitions.length res0: Int = 1 创建时指定分区...

发表了文章 • 2017-08-29 16:55 • 0 条评论

0

推荐

1623

阅读

spark学习12（Wordcount程序之spark-shell）

在目录/home/hadoop/2016113012下有文件words.txthello scala hello java hello python hello wujiadong上传该文件到hdfshadoop@slave01:~/2016113012$ hadoop fs -put /home/hadoop/2016113012/words.txt /student/2016113012/spark hadoop@slave01:~/2016113012$ hadoop fs -lsr /student/2016113012启动spark she...

发表了文章 • 2017-08-29 16:51 • 0 条评论

0

推荐

1772

阅读

spark学习13（spark RDD）

RDD及其特点1）RDD（Resillient Distributed Dataset）弹性分布式数据集，是spark提供的核心抽象。它代表一个不可变、可分区、里面的元素可并行计算的集合2）RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作（分布式数据集...

发表了文章 • 2017-08-29 16:30 • 0 条评论

0

推荐

1177

阅读

spark学习11（Wordcount程序-本地测试）

wordcount程序文件wordcount.txthello wujiadong hello spark hello hadoop hello python 程序示例package wujiadong_sparkCore import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/25. */ object LocalSpark { def main(args: Array[String]): Unit...

发表了文章 • 2017-08-29 16:10 • 0 条评论

0

推荐

1334

阅读

spark学习10（win下利用Intellij IDEA搭建spark开发环境）

第一步：启动IntelliJ IDEA，选择Create New Project，然后选择Scala，点击下一步，输入项目名称wujiadong.spark继续下一步第二步：导入spark-assembly-1.5.1-hadoop2.6.0.jar包File——Project Structure——Libraries——点+号——点java——选择下载好的spark-assembly-1.5.1-hadoop2.6.0.jar包——点ok第三步：创建WordCount类编...

发表了文章 • 2017-08-29 11:07 • 0 条评论

0

推荐

975

阅读

spark学习7（spark2.0集群搭建）

第一步：安装spark将官网下载好的spark-2.0.0-bin-hadoop2.6.tgz上传到/usr/spark目录下。这里需注意的是spark和hadoop有对应版本关系[root@spark1 spark]# chmod u+x spark-2.0.0-bin-hadoop2.6.tgz [root@spark1 spark]# tar -zxvf spark-2.0.0-bin-hadoop2.6.tgz [root@spark1 spark]# mv spark-2.0.0-bin-hadoop2....

发表了文章 • 2017-08-28 09:49 • 0 条评论

0

推荐

1238

阅读

spark学习5（hbase集群搭建）

第一步：Hbase安装hadoop，zookeeper前面都安装好了将hbase-1.1.3-bin.tar.gz上传到/usr/HBase目录下[root@spark1 HBase]# chmod u+x hbase-1.1.3-bin.tar.gz [root@spark1 HBase]# tar -zxvf hbase-1.1.3-bin.tar.gz [root@spark1 HBase]# mv hbase-1.1.3 hbase-1.1 [root@spark1 ~]# vi/etc/profile #配置环境变量 ...

发表了文章 • 2017-08-25 15:06 • 0 条评论