邬家栋 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

1492

阅读

Pandas学习1

pandas有两种自己独有的基本数据结构Series和DataFrameSeries数据结构 data 100 300 500 index 0 1 2 或者 index data 0 100 1 300 2 500 创建series对象 In [1]: import numpy as np In [2]: from pandas import Series,DataFrame In [3]: import pandas as pd 传递list创建...

发表了文章 • 2017-09-04 14:18 • 0 条评论

0

推荐

1217

阅读

Numpy学习1

NumPy学习（1）参考资料：http://www.cnblogs.com/zhanghaohong/p/4854858.htmlhttp://linusp.github.io/2016/02/25/creation-and-io-of-ndarray.html数组的创建数组属性数组元素获取-普通索引、切片、布尔索引、花式索引统计函数与线性代数运算随机数的生成NumPy数组:NumPy数组是一个多维数组对象，称为ndarray。数组的...

发表了文章 • 2017-09-04 14:12 • 0 条评论

0

推荐

1444

阅读

spark SQL学习（认识spark SQL）

spark SQL初步认识spark SQL是spark的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。DataFrame：它可以根据很多源进行构建，包括：结构化的数据文件，hive中的表，外部的关系型数据库，以及RDD创建DataFrame数据文件students.json{"id":1, "name":"leo", "age":18} {"id":2, "name"...

发表了文章 • 2017-09-01 15:15 • 0 条评论

0

推荐

1487

阅读

spark SQL学习（案例-统计每日销售）

需求：统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.functions._ /** * Created by Administrator on 2017/3/6. */ object Dail...

发表了文章 • 2017-09-01 14:52 • 0 条评论

0

推荐

1296

阅读

spark SQL学习（案例-统计每日uv）

需求：统计每日uvpackage wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types._ import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.functions._ /** * Created by Administrator on 2017/3/6. */ object DailyUV { ...

发表了文章 • 2017-09-01 14:42 • 0 条评论

0

推荐

1622

阅读

spark SQL学习（spark连接 mysql）

spark连接mysql（打jar包方式）package wujiadong_sparkSQL import java.util.Properties import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/14. */ object JdbcOperation { def main(args: Array[String]): Un...

发表了文章 • 2017-08-31 14:32 • 0 条评论

0

推荐

2027

阅读

spark SQL学习（spark连接hive）

spark 读取hive中的数据scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.HiveContext scala> val hiveContext = new HiveContext(sc) //hive中的feigu数据库中表stud_info scala> val stud_infoRDD = hiveContext.sql("select * from feigu.stud_info").rdd scala> stud_in...

发表了文章 • 2017-08-31 14:05 • 0 条评论

0

推荐

1433

阅读

spark SQL学习（数据源之json）

准备工作数据文件students.json{"id":1, "name":"leo", "age":18} {"id":2, "name":"jack", "age":19} {"id":3, "name":"marry", "age":17}存放目录：hdfs://master:9000/student/2016113012/spark/students.jsonscala代码package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.s...

发表了文章 • 2017-08-31 13:56 • 0 条评论

0

推荐

1176

阅读

spark SQL学习（数据源之parquet）

Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/3. */ object ParquetLoadData { def main(args: Array[String]): ...

发表了文章 • 2017-08-30 16:25 • 0 条评论

0

推荐

1676

阅读

spark SQL学习（load和save操作）

load操作：主要用于加载数据，创建出DataFramesave操作：主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型) package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/3. ...

发表了文章 • 2017-08-30 16:05 • 0 条评论

0

推荐

1953

阅读

spark学习（RDD案例实战）

练习0（并行化创建RDD）先启动spark-shell 通过并行化生成rdd scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15 查看该RDD的分区数量 scala> rdd1.partitions.length res0: Int = 1 创建时指定分区...

发表了文章 • 2017-08-29 16:55 • 0 条评论

0

推荐

1615

阅读

spark学习12（Wordcount程序之spark-shell）

在目录/home/hadoop/2016113012下有文件words.txthello scala hello java hello python hello wujiadong上传该文件到hdfshadoop@slave01:~/2016113012$ hadoop fs -put /home/hadoop/2016113012/words.txt /student/2016113012/spark hadoop@slave01:~/2016113012$ hadoop fs -lsr /student/2016113012启动spark she...

发表了文章 • 2017-08-29 16:51 • 0 条评论

0

推荐

1734

阅读

spark学习13（spark RDD）

RDD及其特点1）RDD（Resillient Distributed Dataset）弹性分布式数据集，是spark提供的核心抽象。它代表一个不可变、可分区、里面的元素可并行计算的集合2）RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作（分布式数据集...

发表了文章 • 2017-08-29 16:30 • 0 条评论

0

推荐

1159

阅读

spark学习11（Wordcount程序-本地测试）

wordcount程序文件wordcount.txthello wujiadong hello spark hello hadoop hello python 程序示例package wujiadong_sparkCore import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/25. */ object LocalSpark { def main(args: Array[String]): Unit...

发表了文章 • 2017-08-29 16:10 • 0 条评论

0

推荐

1316

阅读

spark学习10（win下利用Intellij IDEA搭建spark开发环境）

第一步：启动IntelliJ IDEA，选择Create New Project，然后选择Scala，点击下一步，输入项目名称wujiadong.spark继续下一步第二步：导入spark-assembly-1.5.1-hadoop2.6.0.jar包File——Project Structure——Libraries——点+号——点java——选择下载好的spark-assembly-1.5.1-hadoop2.6.0.jar包——点ok第三步：创建WordCount类编...

发表了文章 • 2017-08-29 11:07 • 0 条评论