0
推荐
1492
阅读
Pandas学习1
pandas有两种自己独有的基本数据结构Series和DataFrameSeries数据结构
data 100 300 500
index 0 1 2
或者
index data
0 100
1 300
2 500
创建series对象
In [1]: import numpy as np
In [2]: from pandas import Series,DataFrame
In [3]: import pandas as pd
传递list创建...
0
推荐
1217
阅读
Numpy学习1
NumPy学习(1)参考资料:http://www.cnblogs.com/zhanghaohong/p/4854858.htmlhttp://linusp.github.io/2016/02/25/creation-and-io-of-ndarray.html数组的创建数组属性数组元素获取-普通索引、切片、布尔索引、花式索引统计函数与线性代数运算随机数的生成NumPy数组:NumPy数组是一个多维数组对象,称为ndarray。数组的...
0
推荐
1444
阅读
spark SQL学习(认识spark SQL)
spark SQL初步认识spark SQL是spark的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。DataFrame:它可以根据很多源进行构建,包括:结构化的数据文件,hive中的表,外部的关系型数据库,以及RDD创建DataFrame数据文件students.json{"id":1, "name":"leo", "age":18}
{"id":2, "name"...
0
推荐
1487
阅读
spark SQL学习(案例-统计每日销售)
需求:统计每日销售额
package wujiadong_sparkSQL
import org.apache.spark.sql.types._
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.functions._
/**
* Created by Administrator on 2017/3/6.
*/
object Dail...
0
推荐
1296
阅读
spark SQL学习(案例-统计每日uv)
需求:统计每日uvpackage wujiadong_sparkSQL
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.sql.types._
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.functions._
/**
* Created by Administrator on 2017/3/6.
*/
object DailyUV {
...
0
推荐
1622
阅读
spark SQL学习(spark连接 mysql)
spark连接mysql(打jar包方式)package wujiadong_sparkSQL
import java.util.Properties
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by Administrator on 2017/2/14.
*/
object JdbcOperation {
def main(args: Array[String]): Un...
0
推荐
2027
阅读
spark SQL学习(spark连接hive)
spark 读取hive中的数据scala> import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.hive.HiveContext
scala> val hiveContext = new HiveContext(sc)
//hive中的feigu数据库中表stud_info
scala> val stud_infoRDD = hiveContext.sql("select * from feigu.stud_info").rdd
scala> stud_in...
0
推荐
1433
阅读
spark SQL学习(数据源之json)
准备工作数据文件students.json{"id":1, "name":"leo", "age":18}
{"id":2, "name":"jack", "age":19}
{"id":3, "name":"marry", "age":17}存放目录:hdfs://master:9000/student/2016113012/spark/students.jsonscala代码package wujiadong_sparkSQL
import org.apache.spark.sql.SQLContext
import org.apache.s...
0
推荐
1176
阅读
spark SQL学习(数据源之parquet)
Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例package wujiadong_sparkSQL
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by Administrator on 2017/2/3.
*/
object ParquetLoadData {
def main(args: Array[String]): ...
0
推荐
1676
阅读
spark SQL学习(load和save操作)
load操作:主要用于加载数据,创建出DataFramesave操作:主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型)
package wujiadong_sparkSQL
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by Administrator on 2017/2/3.
...
0
推荐
1953
阅读
spark学习(RDD案例实战)
练习0(并行化创建RDD)先启动spark-shell
通过并行化生成rdd
scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888))
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15
查看该RDD的分区数量
scala> rdd1.partitions.length
res0: Int = 1
创建时指定分区...
0
推荐
1615
阅读
spark学习12(Wordcount程序之spark-shell)
在目录/home/hadoop/2016113012下有文件words.txthello scala
hello java
hello python
hello wujiadong上传该文件到hdfshadoop@slave01:~/2016113012$ hadoop fs -put /home/hadoop/2016113012/words.txt /student/2016113012/spark
hadoop@slave01:~/2016113012$ hadoop fs -lsr /student/2016113012启动spark she...
0
推荐
1734
阅读
spark学习13(spark RDD)
RDD及其特点1)RDD(Resillient Distributed Dataset)弹性分布式数据集,是spark提供的核心抽象。它代表一个不可变、可分区、里面的元素可并行计算的集合2)RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作(分布式数据集...
0
推荐
1159
阅读
spark学习11(Wordcount程序-本地测试)
wordcount程序文件wordcount.txthello wujiadong
hello spark
hello hadoop
hello python
程序示例package wujiadong_sparkCore
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by Administrator on 2017/2/25.
*/
object LocalSpark {
def main(args: Array[String]): Unit...
0
推荐
1316
阅读
spark学习10(win下利用Intellij IDEA搭建spark开发环境)
第一步:启动IntelliJ IDEA,选择Create New Project,然后选择Scala,点击下一步,输入项目名称wujiadong.spark继续下一步第二步:导入spark-assembly-1.5.1-hadoop2.6.0.jar包File——Project Structure——Libraries——点+号——点java——选择下载好的spark-assembly-1.5.1-hadoop2.6.0.jar包——点ok第三步:创建WordCount类编...