Spark

Spark

0
推荐
30
浏览

震惊!90%的简历,竟然都犯过这些错误……

​投递简历后,却石沉大海。这种心情就好像给喜欢的人写了一封情书,对方却没有任何回复。你说,扎不扎心?看过很多人的简历以后,我发现这些简历根本不过关。要知道,简历是公司了解求职者的第一个途径,也是求职...

猴子聊人物 发表了文章 • 3 天前

0
推荐
38
浏览

图解SQL联结:内联结

​复仇者联盟的成员通过美国队长 联结 合并到了一起,从此战斗力爆表。今天我们用下面的表来学习内联结。其中,学生表(student):用来记录学生的基本信息成绩表(score):用来记录学生选修课程的成绩1.什么是内联结...

猴子聊人物 发表了文章 • 5 天前

0
推荐
39
浏览

主动拥抱大数据,掌握“新医疗”核心竞争力

项目简介某人民医院随着业务的发展,相继建设了HIS、LIS、药房管理、电子病历等信息化应用系统,这些应用系统在医院日常运营支撑,办公效率提升,管理工作加强等方面起到了基础支撑作用,但在数据的分析利用方面...

大麦 发表了文章 • 2019-11-08 10:59

0
推荐
68
浏览

史上最全的Python包管理工具:Anaconda教程

​事实上Anaconda 和 Jupyter notebook已成为数据分析的标准环境。简单来说,Anaconda是包管理器和环境管理器,Jupyter notebook 可以将数据分析的代码、图像和文档全部组合到一个web文档中。接下来我详细介绍下An...

猴子聊人物 发表了文章 • 2019-11-07 18:02

0
推荐
49
浏览

校企合作 | 观远数据携手浙江大学计算机科学与技术学院,共建实习基地

产品研发超60%硕士学历以上超50%留学经历超20%......没错,观远就是这么一家注重员工才华的产品导向型公司(当然,学历不够也可以靠颜值来凑)为了持续吸收高质量的人才,近日,观远数据与浙江大学计算机科学与技...

观远数据 发表了文章 • 2019-11-06 19:39

1
推荐
142
浏览

这里有5个你关心的求职问题

​我是青柠檬:从2018年11月底到2019年3月一直关注工作的机会,秋招和春招我大致都有体会。面试的话我面了有二十多家公司,目前在一家互联网公司任职业务分析。就如何面试成功找到工作,我谈几点自己的看法,先说...

猴子聊人物 发表了文章 • 2019-11-05 17:41

0
推荐
87
浏览

致数据分析师 | 如何让图表开口说话(总览篇)

导言《让图表开口说话》系列文章将会通过连载的形式为大家揭晓如何构建数据分析思路,如何结合实际场景剖析各种可视化图表的优缺点,真正实现“让数据更高效、让图表更直观”。 找到适合自己的东西是一件非常...

观远数据 发表了文章 • 2019-11-05 16:03

0
推荐
96
浏览

哪些股票值得持有10年?

​著名天使投资人蔡文胜说,中国投资人们辛苦忙活了这些年,赚到的钱加起来,其实还不如腾讯股票在这段时间里的增值。在投资人苦寻独角兽的同时,腾讯站在明处开疆拓土,高歌猛进,从大公司变成了超级大公司,卷走...

猴子聊人物 发表了文章 • 2019-11-04 17:54

0
推荐
98
浏览

浅入分析名创优品的价格优势

​本文作者是社群会员,在找工作之前自己调研求职公司,并对目标公司的产品进行分析,最终成功入职该公司。你可能会说项目做的并不是非常完美,但是这种聚焦行业,对求职目标进行分析的思路值得学习。如果你有感兴...

猴子聊人物 发表了文章 • 2019-11-03 18:37

0
推荐
94
浏览

一文看懂对比分析方法

​1.什么是对比分析方法?有什么用?对比分析方法在我们生活中经常遇到。女友天天对我进行灵魂拷问:我和对面那个女孩谁胖?这就是对比分析方法。女友通过对比分析方法来判断自己体重是不是出了问题。在数据分析中...

猴子聊人物 发表了文章 • 2019-10-30 18:14

0
推荐
105
浏览

观远数据荣登“2019爱分析·中国零售科技创新企业50强”

10月29日,由爱分析举办的中国零售科技高峰论坛在京举行,以“数字重构,智慧增长”为主题,本次活动邀请了众多零售领域品牌商、渠道商以及科技服务商参加。观远数据副总裁鲁伊莎受邀参加,并在《技术赋能零售的机...

观远数据 发表了文章 • 2019-10-30 11:50

0
推荐
96
浏览

用3个月实现人生转变

​我是苍月孤明:从销售岗经过三个月的学习转型成为现在的数据分析师,下面说下我的求职经验。1.数据分析有前途吗?首先还是得解释下“数据分析”这个岗位。之前面了些公司,发现公司之间对这个职位的定义有所不同。...

猴子聊人物 发表了文章 • 2019-10-29 18:03

0
推荐
74
浏览

排队打卡不再,新式茶饮如何通过数字化重塑品牌竞争力

 从最初的充粉奶茶、瓶装奶茶到现在以强调健康注重颜值和品类的新式茶饮,中国茶饮市场在近几年迎来了爆发期。据数据显示,2017年全国综合饮品销售额达472亿元,同比增长14.29%。预计2019年,综合饮品销售额...

观远数据 发表了文章 • 2019-10-29 11:13

0
推荐
105
浏览

sql面试题:行列如何互换?

​【面试题】下面是学生的成绩表(表名score,列名:学号、课程号、成绩)使用sql实现将该表行转列为下面的表结构【解答】第1步,使用常量列输出目标表的结构可以看到查询结果已经和目标表非常接近了select 学号,'...

猴子聊人物 发表了文章 • 2019-10-28 17:01

0
推荐
98
浏览

如何学习和评价《利用python进行数据分析》这本书?

​这本书几乎是数据分析入门必读书了。主要介绍了python3个库numpy(数组),pandas(数据分析)和matplotlib(绘图)的学习。目前国内的中文版是基于Wes McKinney 在2013年出版的《Python for Data Analysis》,...

猴子聊人物 发表了文章 • 2019-10-25 17:42

条新动态, 点击查看
同程吴文波:spark做olap?

天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。

王东:greenplum和spark选型如何取舍呢?

同程吴文波:真有这样的方案哦

小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说... 显示全部 »
同程吴文波:spark做olap?

天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。

王东:greenplum和spark选型如何取舍呢?

同程吴文波:真有这样的方案哦

小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说11R版本的cognos会支持hadoop。

锋:spark现在是不是发展很快。

小小蜗牛爬上墙:看来从传统数据仓库往大数据平台迁移任重道远呀。

天天向上:还是要找到价值点,不能盲目的上大数据。

春宇:传统数据仓库和大数据平台分工不同,列存,MPP能够解决的事情,不见得非得挪到Hadoop上去。

同程吴文波:@大连-K12-王东 怎么想到用spark做olap?

春宇:现在就是觉得系统太多,企业统一化的数据视图更难画了

大米:主要的生产数据还是用主流关系数据库,分析用hadoop是这样理解吗?

王东:@同程吴文波 我就是觉得数据层的东西太多,开发维护成本有点高,所以想用spark解决olap和大数据分析等各种场景

同程吴文波:@大连-K12-王东 试试Hadoop+kylin 或spark+cassandra等组合

王东:我们也打算围绕spark做呢,但是这块儿没实际操作过,比较担心olap的响应速度。

Shadow 杨:@大连-K12-王东 [发呆]多大的数据量,数据量不到一定程度,根本发挥不出来。

王东:@Shadow 杨 事实表千万级别,维度表特别多有上百。

同程吴文波:@大连-K12-王东 你的这些用普通db来构建olap就好 

Shadow 杨:@同程吴文波 同意你

天天向上:普通的就可以啊,微软的sass就搞定了。

王东:事实表千万级别greenplum行吗?

同程吴文波:@大连-K12-王东 gp是可以搞定的。但是你的那个数据量用SSAS也就行的。使用SSD 3.2T的+128G内存 或 256G就OK

王东:cognos和ssas是一个量级的么?

春宇:Cognos你用什么?PowerCube?Dynamic Cube?还是TM1?

王东:cognos也没实际用过,这几个cube啥区别啊

春宇:@大连-K12-王东 话题太长,可单聊,但就性价比而言,还是建议你选择SSAS或者开源的OLAP引擎。
collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。
collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。
多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
区别在于第一个map中的r是数组类型,通过圆括号加索引的形式取得数组中的元素,第二个map中的r是tuple,通过下划线_1,_2的方式取得tuple对应位置的元素
区别在于第一个map中的r是数组类型,通过圆括号加索引的形式取得数组中的元素,第二个map中的r是tuple,通过下划线_1,_2的方式取得tuple对应位置的元素
val a = "A:b,c,d" val b = a.split(":") val c = b{0} val d = b{1} val e = d.split(",") val f = e.flat... 显示全部 »
val a = "A:b,c,d" val b = a.split(":") val c = b{0} val d = b{1} val e = d.split(",") val f = e.flatMap(s=>List((c,s))) println(f.mkString(","))
 
regan

regan 回答了问题 • 2017-04-05 10:00 • 1 个回复 不感兴趣

spark中如何看有多少个并发的task啊

赞同来自:

看有多少个partition就有多少个并发的任务,webui也可以看

34913
 
看有多少个partition就有多少个并发的任务,webui也可以看

34913
 
regan

regan 回答了问题 • 2017-04-06 10:42 • 2 个回复 不感兴趣

spark中如何看有多少个并发的task啊

赞同来自:

你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
... 显示全部 »
你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
第二中方式是你可以通过SparkUI查看

34999
 
 
 程序的并行度是由partitions的大小决定的,一个partition对应一个task。可以通过repartions或coalease进行合理的设置
Microsoft R Server 收费
Microsoft R Server 收费
使用rdd上的randomSplit方法,将一个RDD随机拆分成多个RDD,randomSplit方法返回一个rdd数组,遍历数组,取出每个rdd,toDF后,使用jdbc方法写入数据库,遍历过程中制定一个随机的选库策略,这样就将rdd内容写入到了相同的 数据... 显示全部 »
使用rdd上的randomSplit方法,将一个RDD随机拆分成多个RDD,randomSplit方法返回一个rdd数组,遍历数组,取出每个rdd,toDF后,使用jdbc方法写入数据库,遍历过程中制定一个随机的选库策略,这样就将rdd内容写入到了相同的 数据库不同的表中了。你具体的需求按照这个思路去应该可以实现。
程序本地写,测试时候发到你的服务器上去跑。
程序本地写,测试时候发到你的服务器上去跑。
你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少,导致并行度不够,故写入速度慢。意见是尝试吧分区数调整... 显示全部 »
你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少,导致并行度不够,故写入速度慢。意见是尝试吧分区数调整为5或10再试试
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家... 显示全部 »
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家自主学习使用,这个估计要看具体情况;
    公司有没有闲置的机器,都可以利用起来
2. 个人
    个人电脑安装VirtualBox之类的虚拟机,开3个虚拟机玩儿就够了,电脑的话配置也就内存8G以上应该足够了,CPU差不多就行了,直接装Linux就行了;
    可以使用Docker,可以简单的把他看成虚拟机,找些资料看看,简单使用应该没问题,使用Docker开实例很方便,不像虚拟机那样耗费很多资源
    要不开通个阿里云之类的,在云平台上面玩儿,这个价钱不清楚,可以去官网看看
MarsJ

MarsJ 回答了问题 • 2017-10-20 15:53 • 1 个回复 不感兴趣

kylin 2.1 对应的spark版本啥多少的?

赞同来自:

我这边使用Spark 1.6是支持的,没有试过更高版本
我这边使用Spark 1.6是支持的,没有试过更高版本
从推送到kafka,到最后出去统计结果,中间有很多事情要做。
比如 
spark 接收 kafka数据
spark 如何处理数据
处理完后如何保存数据
如何推送到前端显示
 
从推送到kafka,到最后出去统计结果,中间有很多事情要做。
比如 
spark 接收 kafka数据
spark 如何处理数据
处理完后如何保存数据
如何推送到前端显示
 
bryanyang

bryanyang 回答了问题 • 2018-05-19 11:22 • 2 个回复 不感兴趣

Hive初始化mysql不起作用

赞同来自:

1. 该文是使用 Centos 作为安装环境,请确认是否一致
2. 如果不是用自动化 script,而是手动按照指令操作,请确保环境变数设置正常
3. 错误讯息建议贴完整的,单贴片段很难确认错误.
4. 其他各种报错的处理方式可以参考这篇 https://ww... 显示全部 »
1. 该文是使用 Centos 作为安装环境,请确认是否一致
2. 如果不是用自动化 script,而是手动按照指令操作,请确保环境变数设置正常
3. 错误讯息建议贴完整的,单贴片段很难确认错误.
4. 其他各种报错的处理方式可以参考这篇 https://www.jianshu.com/p/d9cb284f842d
 
 
3
推荐
2288
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

5
推荐
1504
浏览

《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样

前言作为数据分析师,每天都有大量的数据需要处理,我们会根据业务的要求做各种复杂的报表,包括了分组、排序、过滤、转置、差分、填充、移动、合并、分裂、分布、去重、找重、填充 等等的操作。有时为了计算一个...

R语言中文社区 发表了文章 • 2017-09-28 09:59

11
推荐
2858
浏览

从大数据舆情传播角度看《三生三世十里桃花》

前不久,看到知乎上一个知友提到了一个问题,觉得有点意思,于是心血来潮写了一个回答,现在粘贴复制到这里:不扯犊子,就直接以题主的举例来上干货,分析的对象是目前大红大紫的《三生三世十里桃花》(以下简称“...

高长宽 发表了文章 • 2017-02-22 13:48

5
推荐
1094
浏览

【PPT干货】一篇神一样的数据分析解读,看完我.....

数据君6年前写的数据分析交流资料,删除部分,分享给大家!想成为数据分析方面的专家不易:1、要会技术存储、统计、机器学习、报表、分析、展示、可视化、编程等2、懂市场细分、营销、产品、用户行为、流失、欺诈...

Jmarry 发表了文章 • 2017-02-22 09:37

14
推荐
2440
浏览

从零开始,构建数据化运营体系

数据化运营是一个近年来兴起的概念,它在运营的基础上,提出了以数据驱动决策的口号。在了解数据化运营前,运营们有没有过如下的问题:不同渠道,效果究竟是好是坏?活跃数下降了,到底是因为什么原因?这次活动...

秦路 发表了文章 • 2017-02-06 17:34

7
推荐
2335
浏览

【20万字500页年刊下载】2016年天善大数据社区年刊精华版

继 2015年天善智能发布了 《2015年 BI 系列技术博文与问答精选年刊》 和 《2015年社区博文与 Friday BI Fly 活动记录精选年刊》 后,2017年1月我们正式发布2016年社区年刊。本年刊涵盖了2016 年天...

天善智能 发表了文章 • 2017-01-26 13:36

6
推荐
5929
浏览

人人可用的数据分析认知计算产品 IBM Watson Analytics 试用体验

在这篇文章中 《 蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson 》我介绍到了 IBM Watson 在人工智能领域的布局和变革。那么本篇文章就带大家走进 IBM Watson 旗下认知计算、预测分析的云...

lvpin 发表了文章 • 2017-01-21 18:08

9
推荐
5234
浏览

蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson

2016年是人工智能走向大众的元年大数据的火热还未退去,人工智能在2016年和2017年交替之际就被刷爆了。从 2016年12月29日到2017年1月4日,一位标注为韩国九段的神秘棋手 Master 在一周之内完胜包括中日韩朴廷桓、...

lvpin 发表了文章 • 2017-01-16 11:17

0
投票
1
回答
1476
浏览
7
推荐
2392
浏览

政府大数据是不是一个伪命题?面临的问题和阻力在哪里?

背景 2015年经李克强总理签批,国务院印发《促进大数据发展行动纲要》,中国政府已经开始系统部署大数据发展工作。《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模...

lvpin 发表了文章 • 2016-12-28 18:15

1
推荐
1850
浏览

Friday BI Fly | 2016年10月21日晚8点半微信直播交流在实践中挖掘数据的价值第36场 图文版记录

公告:周五BI飞起来,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴,锁定在每周五晚20:30,不见不散!未来几期的微信直播活动分享主题将包括在大数据、大变革、大成长、游戏行业数据仓库储存模型。...

天善智能 发表了文章 • 2016-10-24 10:30

3
推荐
4613
浏览

技术|深入浅出解析大数据Lambda架构

前言   Hadoop的出现让人们尝到了大数据技术的甜头,它的批处理能力已经被工业界充分认可,但是它的延迟性也一直为大家所诟病。随着各行各业的发展,越来越多的业务要求大数据系统既可以处理历史数据,...

星环科技 发表了文章 • 2016-10-11 11:32

3
推荐
2248
浏览

R实现地理位置与经纬度相互转换

本实例要实现目标通过输入城市名或者地名,然后找出其经度纬度值,以及通过可视化展现其线路流向以及周边地图展示本实例参考文章主要来自金大侠博客:http://user.qzone.qq.com/675229288/mainaddress_list数据:...

华青莲 发表了文章 • 2016-10-10 19:27

0
推荐
951
浏览

百度外卖联合搜狐新闻客户端发布十一大数据 异地点单量激增

 国庆长假刚刚结束,朋友圈的旅游摄影大赛也落下帷幕。在这难得的休闲时光里,有人选择天南海北畅游一番,也有人选择宅在家中享受清闲,但无论“旅游族”还是“御宅族”都将“吃遍美食”的主题贯穿了整个假期。  今...

在学古筝的程序员 发表了文章 • 2016-10-08 10:59

0
投票
2
已解决
2082
浏览
0
投票
2
已解决
1419
浏览

Hive初始化mysql不起作用

哆啦A梦 回复了问题 • 2018-05-21 09:20
0
投票
4
已解决
6216
浏览
0
投票
0
回答
612
浏览
0
投票
1
已解决
696
浏览

kylin 2.1 对应的spark版本啥多少的?

MarsJ 回复了问题 • 2017-10-20 15:53
0
投票
0
回答
498
浏览
0
投票
1
回答
675
浏览
0
投票
1
已解决
843
浏览
0
推荐
235
浏览

利用 Spark 和 scikit-learn 将你的模型训练加快 100 倍

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | AI开发者(okweiwu)作者 | skura在 Ibotta,我们训练了许多机器学习模型。这些模型为我们的推荐系统、搜索引...

数智物语 发表了文章 • 2019-09-24 16:28

0
推荐
178
浏览

Spark SQL 概述

推荐文章 https://blog.csdn.net/bingdianone/article/details/84134868大数据中的sql之前使用范围最广的是hadoop体系的中的hive sqlhive sql 原理是将sql转换为MapReduce任务,所有效率不高,后面做了改进可以运...

攻城的狮子 发表了文章 • 2019-09-03 13:43

0
推荐
175
浏览

Spark概述及安装

推荐文章https://blog.csdn.net/bingdianone/article/details/84105561#Spark_1hadoop的生态圈Hive构建在HDFS上, 原理是将sql转mapreduceMahout,R语言机器学习; Pig 类似Hive 讲pig语言转 MapReduce Oozie工作...

攻城的狮子 发表了文章 • 2019-09-03 10:11

0
推荐
198
浏览

数据挖掘之Spark学习

阅读路线:Hadoop与Spark比较Spark的安装Spark知识点一、Hadoop与Spark比较1.简单的比较刚开始学习Spark的时候,自己总是会想当然的理解两者之间的关系。Hadoop和Spark的处理任务有很多是一样的,比如说他们都是有...

DataFrog 发表了文章 • 2019-08-28 19:31

0
推荐
279
浏览

30分钟理解Spark的基本原理

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。作者 | 梁云1991转载自Python与算法之美(ID:Python_Ai_Road)01Spark优势特点作为大数据计算框架 MapReduce 的继任者,Sp...

数智物语 发表了文章 • 2019-07-17 17:38

0
推荐
1417
浏览

Sparklyr与Docker的推荐系统实战

概述大数据时代,做数据分析的人才辈出,Java、Scala、Go、Julia、Python、JavaScript都不断涌现出很多数据分析的新工具,然而对于数据分析来说,这些工具都不是分析的核心,分析的核心在于对市场业务、对具体数...

R语言中文社区 发表了文章 • 2019-04-08 10:03

0
推荐
576
浏览

sparklyr 1.0发布,有哪些新功能?

作者:Javier Luraschi翻译:黄小伟,10年资深数据矿工。目前就职杭州有赞,欢迎加入有赞分析团队sparklyr 1.0目前已经可以通过CRAN直接下载、安装使用!它提供了针对Apache Spark的接口,支持dplyr、MLlib、stre...

R语言中文社区 发表了文章 • 2019-03-18 09:39

1
推荐
872
浏览

spark中df, rdd, list 转换

df to rdd: df.rdd.map(list) df.rdd.map(tuple) df.rdd.map(lambda x: list(x[0])) rdd to list: rdd1.collect() df to list: df.rdd.map(list).collect() df.rdd.map(tuple).collect() rd...

safa 发表了文章 • 2019-01-11 15:19

1
推荐
684
浏览

通过jdbc读取OBIEE数据--Spark示例

最近在用Spark同步数据的时候想到,是否可以直接从已有的OBIEE读取数据,OBIEE上面有完整的语义层,读取数据就比较方便了.想到以前Rittmanmead有篇blog提到,如何使用jdbc驱动清除缓存的功能(https://www.rittmanmea...

seng 发表了文章 • 2018-12-06 17:01

1
推荐
965
浏览

Spark Structured Streaming的一些link

最近在测试相关内容, 以下列了一些我觉得有用的link官方文档Spark Structured Streaming Programming Guide https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html https://spark.a...

seng 发表了文章 • 2018-11-09 15:06

1
推荐
578
浏览

无缝对接Spark与R:Sparklyr系列—探讨属于数据科学家的Spark

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.tian-yuan@qq.com为什么Spark需要与R对接?解决这个问题...

R语言中文社区 发表了文章 • 2018-10-30 15:14

0
推荐
1554
浏览

SparkStreaming下Python报net.jpountz.lz4.LZ4BlockInputStream的解决

这几天在测试SparkStreaming,连接Kafka一直报这个错, 18/08/30 21:09:00 ERROR Utils: Uncaught exception in thread stdout writer for python java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStre...

seng 发表了文章 • 2018-08-30 21:30

0
推荐
1005
浏览

Spark笔记2--Dataset保存为parquet格式遇到的问题

spark天然支持parquet,且其推荐的存储格式就是parquet,但存储时,对其列名有一定的要求:1.列名称不能包含" ,;{}()\n\t=" SparkSession sparkSession = SparkSession.builder().appName("Test")....

_缘君_ 发表了文章 • 2018-08-17 15:49

1
推荐
1310
浏览

Spark笔记1--以表头创建空的dataset

最近上手Spark相关的项目,实践过程中遇到的几个问题,来此记录下。1.引入maven包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId>...

_缘君_ 发表了文章 • 2018-08-17 14:49

推荐
浏览


qzq1x4 发表了文章 •

  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,

拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,

因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法