邬家栋

熟悉linux,了解mysql,ETL开发,python语言,有着丰富的项目经验。

0
推荐
1492
阅读

Pandas学习1

pandas有两种自己独有的基本数据结构Series和DataFrameSeries数据结构 data 100 300 500 index 0 1 2 或者 index data 0 100 1 300 2 500 创建series对象 In [1]: import numpy as np In [2]: from pandas import Series,DataFrame In [3]: import pandas as pd 传递list创建...

发表了文章 • 2017-09-04 14:18 • 0 条评论

0
推荐
1217
阅读

Numpy学习1

NumPy学习(1)参考资料:http://www.cnblogs.com/zhanghaohong/p/4854858.htmlhttp://linusp.github.io/2016/02/25/creation-and-io-of-ndarray.html数组的创建数组属性数组元素获取-普通索引、切片、布尔索引、花式索引统计函数与线性代数运算随机数的生成NumPy数组:NumPy数组是一个多维数组对象,称为ndarray。数组的...

发表了文章 • 2017-09-04 14:12 • 0 条评论

0
推荐
1444
阅读

spark SQL学习(认识spark SQL)

spark SQL初步认识spark SQL是spark的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。DataFrame:它可以根据很多源进行构建,包括:结构化的数据文件,hive中的表,外部的关系型数据库,以及RDD创建DataFrame数据文件students.json{"id":1, "name":"leo", "age":18} {"id":2, "name"...

发表了文章 • 2017-09-01 15:15 • 0 条评论

0
推荐
1487
阅读

spark SQL学习(案例-统计每日销售)

需求:统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.functions._ /** * Created by Administrator on 2017/3/6. */ object Dail...

发表了文章 • 2017-09-01 14:52 • 0 条评论

0
推荐
1296
阅读

spark SQL学习(案例-统计每日uv)

需求:统计每日uvpackage wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types._ import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.functions._ /** * Created by Administrator on 2017/3/6. */ object DailyUV { ...

发表了文章 • 2017-09-01 14:42 • 0 条评论

0
推荐
1622
阅读

spark SQL学习(spark连接 mysql)

spark连接mysql(打jar包方式)package wujiadong_sparkSQL import java.util.Properties import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/14. */ object JdbcOperation { def main(args: Array[String]): Un...

发表了文章 • 2017-08-31 14:32 • 0 条评论

0
推荐
2027
阅读

spark SQL学习(spark连接hive)

spark 读取hive中的数据scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.HiveContext scala> val hiveContext = new HiveContext(sc) //hive中的feigu数据库中表stud_info scala> val stud_infoRDD = hiveContext.sql("select * from feigu.stud_info").rdd scala> stud_in...

发表了文章 • 2017-08-31 14:05 • 0 条评论

0
推荐
1433
阅读

spark SQL学习(数据源之json)

准备工作数据文件students.json{"id":1, "name":"leo", "age":18} {"id":2, "name":"jack", "age":19} {"id":3, "name":"marry", "age":17}存放目录:hdfs://master:9000/student/2016113012/spark/students.jsonscala代码package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.s...

发表了文章 • 2017-08-31 13:56 • 0 条评论

0
推荐
1176
阅读

spark SQL学习(数据源之parquet)

Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/3. */ object ParquetLoadData { def main(args: Array[String]): ...

发表了文章 • 2017-08-30 16:25 • 0 条评论

0
推荐
1676
阅读

spark SQL学习(load和save操作)

load操作:主要用于加载数据,创建出DataFramesave操作:主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型) package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/3. ...

发表了文章 • 2017-08-30 16:05 • 0 条评论

0
推荐
1953
阅读

spark学习(RDD案例实战)

练习0(并行化创建RDD)先启动spark-shell 通过并行化生成rdd scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15 查看该RDD的分区数量 scala> rdd1.partitions.length res0: Int = 1 创建时指定分区...

发表了文章 • 2017-08-29 16:55 • 0 条评论

0
推荐
1615
阅读

spark学习12(Wordcount程序之spark-shell)

在目录/home/hadoop/2016113012下有文件words.txthello scala hello java hello python hello wujiadong上传该文件到hdfshadoop@slave01:~/2016113012$ hadoop fs -put /home/hadoop/2016113012/words.txt /student/2016113012/spark hadoop@slave01:~/2016113012$ hadoop fs -lsr /student/2016113012启动spark she...

发表了文章 • 2017-08-29 16:51 • 0 条评论

0
推荐
1734
阅读

spark学习13(spark RDD)

RDD及其特点1)RDD(Resillient Distributed Dataset)弹性分布式数据集,是spark提供的核心抽象。它代表一个不可变、可分区、里面的元素可并行计算的集合2)RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作(分布式数据集...

发表了文章 • 2017-08-29 16:30 • 0 条评论

0
推荐
1159
阅读

spark学习11(Wordcount程序-本地测试)

wordcount程序文件wordcount.txthello wujiadong hello spark hello hadoop hello python 程序示例package wujiadong_sparkCore import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/25. */ object LocalSpark { def main(args: Array[String]): Unit...

发表了文章 • 2017-08-29 16:10 • 0 条评论

0
推荐
1316
阅读

spark学习10(win下利用Intellij IDEA搭建spark开发环境)

第一步:启动IntelliJ IDEA,选择Create New Project,然后选择Scala,点击下一步,输入项目名称wujiadong.spark继续下一步第二步:导入spark-assembly-1.5.1-hadoop2.6.0.jar包File——Project Structure——Libraries——点+号——点java——选择下载好的spark-assembly-1.5.1-hadoop2.6.0.jar包——点ok第三步:创建WordCount类编...

发表了文章 • 2017-08-29 11:07 • 0 条评论