Spark

Spark

0
推荐
62
浏览

案例教学:业务人员的AI建模修炼大法!

有人说,不想当将军的士兵不是好士兵!业务人员也要有点梦想,万一实现了呢?比如成为“业务数据分析师”!上周,小T介绍了Tempo AI的自动学习功能,这个功能帮助大家解决了机器学习算法这个老大难。但在日常工作中...

Tempodata 发表了文章 • 2020-05-22 15:47

0
推荐
111
浏览

简单4步,搞定数据分析报告这个磨人的小妖精

最近这几天,大鹏的心情颇不平静。每当周末、月末,他都能准时接到老板打来的电话:“怎么回事儿?公司的运营报告还没有发吗?”“老板,报表比较多,需要修改的地方也不少,我明天一准儿给您发过去。”“抓紧时间,一...

Tempodata 发表了文章 • 2020-04-30 14:24

0
推荐
117
浏览

美林数据副总裁刘宏谈能源企业数字化转型思考

2020年4月24日,由华北电力大学国家大学科技园、中关村华电能源电力产业联盟联合美林数据等共同举办的“2020年智慧电厂线上论坛(第三期)”成功召开。特邀嘉宾:国家电力投资集团科技研发总监兼创新部主任,大数据...

Tempodata 发表了文章 • 2020-04-27 09:53

0
推荐
283
浏览

美国促进人工智能产业发展的五点启示

日前,美国白宫科技政策办公室(OSTP)发布《美国人工智能倡议首年年度报告》,宣布美国的人工智能产业已发展到关键阶段。报告从六个方面概述了美国人工智能倡议的进展情况,并提出了一个持续的长期愿景。美国政...

Tempodata 发表了文章 • 2020-04-14 10:47

0
推荐
321
浏览

一分钟Get酷炫可视化分析看板的设计秘诀

疫情期间,在家办公、云聚会,快把我们这帮小伙伴们憋坏啦!这不,火锅届扛把子的海底捞刚开放堂食没多久,哥几个就约起来了!PS:虽然一片土豆片都1.5元了,常年吃土青年表示很心塞,但是本着友谊第一的原则,该...

Tempodata 发表了文章 • 2020-04-14 09:54

0
推荐
466
浏览

人工智能产品赋能——银行篇

一、人工智能赋能银行业的四大分类从硬件/软件世界、核心/非核心应用两个维度来分析,人工智能在银行的应用分成四大类:第一类,以硬件为主,银行的核心应用。核心应用对可靠性和安全型要求非常高,几乎不允许发...

Tempodata 发表了文章 • 2020-04-07 16:49

1
推荐
322
浏览

机器学习告诉你,新型冠状病毒接下来将如何变异?

提起达尔文的生物进化论,在人们的普遍认知中,这是开创现代科学的重要理论之一。像地球上其他所有为生存而挣扎的生物一样,病毒也会进化或变异。让我们看看人类病毒的来源——蝙蝠病毒的RNA核苷酸序列片段:AAAAT ...

Tempodata 发表了文章 • 2020-03-25 11:22

0
推荐
229
浏览

“疫”考后半场,“新基建”成为新焦点

  近日,武汉大学联合中兴通讯等平台,开启由5G、VR、4K等技术支撑的线上“云赏樱”模式,打破疫情的限制,告别“花开静处无人赏”的遗憾。这一事件引发媒体广泛好评,现象背后,既是疫情期间满足赏客足不出户在...

Tempodata 发表了文章 • 2020-03-18 10:25

0
推荐
322
浏览

战“疫”下的零售企业,如何用数据智能转危为机

  “黑天鹅、灰犀牛现象频繁出现,这个VUCA的时代是无比的真实,与我们每一位息息相关。面对不确定性将成为常态的未来,我们需要抓住其中的确定性。用数据驱动经营,让决策更加智能。”——观远数据 ...

观远数据 发表了文章 • 2020-02-27 10:10

0
推荐
354
浏览

对话| 蜜雪冰城CIO奚沿河:数字驱动是茶饮品牌未来发展的长线

 根据恒大研究院的测算,春节期间,受疫情影响,整个餐饮零售的销售额恐较去年腰斩,约损失 5000 亿,而餐饮占据大头。 在多家连锁餐饮企业自爆家底难熬寒冬之时,蜜雪冰城向社会捐赠700万元用于抗击新...

观远数据 发表了文章 • 2020-02-24 15:16

0
推荐
269
浏览

大数据人才培养困难重重?高校到底该如何发力?

近年来,伴随着全球数字经济的发展,产业结构不断优化升级,大数据与人工智能技术在行业应用逐步深入。整个社会已处在大融合、大交叉、大科学时代,各行业都在面临着挑战与变革。然而,我国的大数据发展却面临一...

Tempodata 发表了文章 • 2020-02-18 15:37

1
推荐
432
浏览

遇到问题,没有解决思路怎么办?

​一.没有思路怎么办?通常我们面对问题的想法是这样的,比较零散今天教大家一个方法(逻辑树分析方法),可以把这些零散的想法整理成有条理的思路,帮助你快速解决问题。什么是逻辑树分析方法呢?逻辑树分析方法...

猴子聊人物 发表了文章 • 2020-01-07 18:14

0
推荐
450
浏览

数据分析师的一天

听说一起毕业的四眼已经是他们BI部门主管前同事花花上周也通过了升职加薪的申请两年前自己带的实习生今年都有5个月年终奖... ...而我,作为一个毕业4年的资深数据分析师没准时下同样是数据分析师,差距却那么大以...

观远数据 发表了文章 • 2020-01-07 11:06

0
推荐
323
浏览

关于求职的4个问题

​我是迷途:现在找到工作了,回答下大家比较关心的4个问题。第一个问题:学到什么程度可以找工作?用7周就可以学完excel、描述统计分析、业务知识、分析方法、可视化。完成几个项目放到简历上就可以开始找工作了...

猴子聊人物 发表了文章 • 2020-01-02 14:16

1
推荐
455
浏览

这5个问题可以帮助你快速了解一家公司

​我是escap:1.我做过什么?这一部分的面试题基本围绕:我是谁,我从哪里来,我做过什么 展开的。1)自我介绍2)简历中的项目分析了什么问题,用了什么分析方法,结果是什么,提出了什么有效的建议3)自己的过往...

猴子聊人物 发表了文章 • 2019-12-30 12:36

条新动态, 点击查看
同程吴文波:spark做olap?

天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。

王东:greenplum和spark选型如何取舍呢?

同程吴文波:真有这样的方案哦

小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说... 显示全部 »
同程吴文波:spark做olap?

天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。

王东:greenplum和spark选型如何取舍呢?

同程吴文波:真有这样的方案哦

小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说11R版本的cognos会支持hadoop。

锋:spark现在是不是发展很快。

小小蜗牛爬上墙:看来从传统数据仓库往大数据平台迁移任重道远呀。

天天向上:还是要找到价值点,不能盲目的上大数据。

春宇:传统数据仓库和大数据平台分工不同,列存,MPP能够解决的事情,不见得非得挪到Hadoop上去。

同程吴文波:@大连-K12-王东 怎么想到用spark做olap?

春宇:现在就是觉得系统太多,企业统一化的数据视图更难画了

大米:主要的生产数据还是用主流关系数据库,分析用hadoop是这样理解吗?

王东:@同程吴文波 我就是觉得数据层的东西太多,开发维护成本有点高,所以想用spark解决olap和大数据分析等各种场景

同程吴文波:@大连-K12-王东 试试Hadoop+kylin 或spark+cassandra等组合

王东:我们也打算围绕spark做呢,但是这块儿没实际操作过,比较担心olap的响应速度。

Shadow 杨:@大连-K12-王东 [发呆]多大的数据量,数据量不到一定程度,根本发挥不出来。

王东:@Shadow 杨 事实表千万级别,维度表特别多有上百。

同程吴文波:@大连-K12-王东 你的这些用普通db来构建olap就好 

Shadow 杨:@同程吴文波 同意你

天天向上:普通的就可以啊,微软的sass就搞定了。

王东:事实表千万级别greenplum行吗?

同程吴文波:@大连-K12-王东 gp是可以搞定的。但是你的那个数据量用SSAS也就行的。使用SSD 3.2T的+128G内存 或 256G就OK

王东:cognos和ssas是一个量级的么?

春宇:Cognos你用什么?PowerCube?Dynamic Cube?还是TM1?

王东:cognos也没实际用过,这几个cube啥区别啊

春宇:@大连-K12-王东 话题太长,可单聊,但就性价比而言,还是建议你选择SSAS或者开源的OLAP引擎。
collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。
collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。
多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
区别在于第一个map中的r是数组类型,通过圆括号加索引的形式取得数组中的元素,第二个map中的r是tuple,通过下划线_1,_2的方式取得tuple对应位置的元素
区别在于第一个map中的r是数组类型,通过圆括号加索引的形式取得数组中的元素,第二个map中的r是tuple,通过下划线_1,_2的方式取得tuple对应位置的元素
val a = "A:b,c,d" val b = a.split(":") val c = b{0} val d = b{1} val e = d.split(",") val f = e.flat... 显示全部 »
val a = "A:b,c,d" val b = a.split(":") val c = b{0} val d = b{1} val e = d.split(",") val f = e.flatMap(s=>List((c,s))) println(f.mkString(","))
 
regan

regan 回答了问题 • 2017-04-05 10:00 • 1 个回复 不感兴趣

spark中如何看有多少个并发的task啊

赞同来自:

看有多少个partition就有多少个并发的任务,webui也可以看

34913
 
看有多少个partition就有多少个并发的任务,webui也可以看

34913
 
regan

regan 回答了问题 • 2017-04-06 10:42 • 2 个回复 不感兴趣

spark中如何看有多少个并发的task啊

赞同来自:

你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
... 显示全部 »
你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
第二中方式是你可以通过SparkUI查看

34999
 
 
 程序的并行度是由partitions的大小决定的,一个partition对应一个task。可以通过repartions或coalease进行合理的设置
Microsoft R Server 收费
Microsoft R Server 收费
使用rdd上的randomSplit方法,将一个RDD随机拆分成多个RDD,randomSplit方法返回一个rdd数组,遍历数组,取出每个rdd,toDF后,使用jdbc方法写入数据库,遍历过程中制定一个随机的选库策略,这样就将rdd内容写入到了相同的 数据... 显示全部 »
使用rdd上的randomSplit方法,将一个RDD随机拆分成多个RDD,randomSplit方法返回一个rdd数组,遍历数组,取出每个rdd,toDF后,使用jdbc方法写入数据库,遍历过程中制定一个随机的选库策略,这样就将rdd内容写入到了相同的 数据库不同的表中了。你具体的需求按照这个思路去应该可以实现。
程序本地写,测试时候发到你的服务器上去跑。
程序本地写,测试时候发到你的服务器上去跑。
你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少,导致并行度不够,故写入速度慢。意见是尝试吧分区数调整... 显示全部 »
你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少,导致并行度不够,故写入速度慢。意见是尝试吧分区数调整为5或10再试试
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家... 显示全部 »
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家自主学习使用,这个估计要看具体情况;
    公司有没有闲置的机器,都可以利用起来
2. 个人
    个人电脑安装VirtualBox之类的虚拟机,开3个虚拟机玩儿就够了,电脑的话配置也就内存8G以上应该足够了,CPU差不多就行了,直接装Linux就行了;
    可以使用Docker,可以简单的把他看成虚拟机,找些资料看看,简单使用应该没问题,使用Docker开实例很方便,不像虚拟机那样耗费很多资源
    要不开通个阿里云之类的,在云平台上面玩儿,这个价钱不清楚,可以去官网看看
MarsJ

MarsJ 回答了问题 • 2017-10-20 15:53 • 1 个回复 不感兴趣

kylin 2.1 对应的spark版本啥多少的?

赞同来自:

我这边使用Spark 1.6是支持的,没有试过更高版本
我这边使用Spark 1.6是支持的,没有试过更高版本
从推送到kafka,到最后出去统计结果,中间有很多事情要做。
比如 
spark 接收 kafka数据
spark 如何处理数据
处理完后如何保存数据
如何推送到前端显示
 
从推送到kafka,到最后出去统计结果,中间有很多事情要做。
比如 
spark 接收 kafka数据
spark 如何处理数据
处理完后如何保存数据
如何推送到前端显示
 
bryanyang

bryanyang 回答了问题 • 2018-05-19 11:22 • 2 个回复 不感兴趣

Hive初始化mysql不起作用

赞同来自:

1. 该文是使用 Centos 作为安装环境,请确认是否一致
2. 如果不是用自动化 script,而是手动按照指令操作,请确保环境变数设置正常
3. 错误讯息建议贴完整的,单贴片段很难确认错误.
4. 其他各种报错的处理方式可以参考这篇 https://ww... 显示全部 »
1. 该文是使用 Centos 作为安装环境,请确认是否一致
2. 如果不是用自动化 script,而是手动按照指令操作,请确保环境变数设置正常
3. 错误讯息建议贴完整的,单贴片段很难确认错误.
4. 其他各种报错的处理方式可以参考这篇 https://www.jianshu.com/p/d9cb284f842d
 
 
3
推荐
2708
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

5
推荐
1814
浏览

《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样

前言作为数据分析师,每天都有大量的数据需要处理,我们会根据业务的要求做各种复杂的报表,包括了分组、排序、过滤、转置、差分、填充、移动、合并、分裂、分布、去重、找重、填充 等等的操作。有时为了计算一个...

R语言中文社区 发表了文章 • 2017-09-28 09:59

11
推荐
3267
浏览

从大数据舆情传播角度看《三生三世十里桃花》

前不久,看到知乎上一个知友提到了一个问题,觉得有点意思,于是心血来潮写了一个回答,现在粘贴复制到这里:不扯犊子,就直接以题主的举例来上干货,分析的对象是目前大红大紫的《三生三世十里桃花》(以下简称“...

高长宽 发表了文章 • 2017-02-22 13:48

5
推荐
1341
浏览

【PPT干货】一篇神一样的数据分析解读,看完我.....

数据君6年前写的数据分析交流资料,删除部分,分享给大家!想成为数据分析方面的专家不易:1、要会技术存储、统计、机器学习、报表、分析、展示、可视化、编程等2、懂市场细分、营销、产品、用户行为、流失、欺诈...

Jmarry 发表了文章 • 2017-02-22 09:37

15
推荐
2843
浏览

从零开始,构建数据化运营体系

数据化运营是一个近年来兴起的概念,它在运营的基础上,提出了以数据驱动决策的口号。在了解数据化运营前,运营们有没有过如下的问题:不同渠道,效果究竟是好是坏?活跃数下降了,到底是因为什么原因?这次活动...

秦路 发表了文章 • 2017-02-06 17:34

7
推荐
2637
浏览

【20万字500页年刊下载】2016年天善大数据社区年刊精华版

继 2015年天善智能发布了 《2015年 BI 系列技术博文与问答精选年刊》 和 《2015年社区博文与 Friday BI Fly 活动记录精选年刊》 后,2017年1月我们正式发布2016年社区年刊。本年刊涵盖了2016 年天...

天善智能 发表了文章 • 2017-01-26 13:36

6
推荐
6312
浏览

人人可用的数据分析认知计算产品 IBM Watson Analytics 试用体验

在这篇文章中 《 蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson 》我介绍到了 IBM Watson 在人工智能领域的布局和变革。那么本篇文章就带大家走进 IBM Watson 旗下认知计算、预测分析的云...

lvpin 发表了文章 • 2017-01-21 18:08

9
推荐
5812
浏览

蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson

2016年是人工智能走向大众的元年大数据的火热还未退去,人工智能在2016年和2017年交替之际就被刷爆了。从 2016年12月29日到2017年1月4日,一位标注为韩国九段的神秘棋手 Master 在一周之内完胜包括中日韩朴廷桓、...

lvpin 发表了文章 • 2017-01-16 11:17

0
投票
1
回答
1682
浏览
7
推荐
2628
浏览

政府大数据是不是一个伪命题?面临的问题和阻力在哪里?

背景 2015年经李克强总理签批,国务院印发《促进大数据发展行动纲要》,中国政府已经开始系统部署大数据发展工作。《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模...

lvpin 发表了文章 • 2016-12-28 18:15

1
推荐
2169
浏览

Friday BI Fly | 2016年10月21日晚8点半微信直播交流在实践中挖掘数据的价值第36场 图文版记录

公告:周五BI飞起来,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴,锁定在每周五晚20:30,不见不散!未来几期的微信直播活动分享主题将包括在大数据、大变革、大成长、游戏行业数据仓库储存模型。...

天善智能 发表了文章 • 2016-10-24 10:30

3
推荐
5411
浏览

技术|深入浅出解析大数据Lambda架构

前言   Hadoop的出现让人们尝到了大数据技术的甜头,它的批处理能力已经被工业界充分认可,但是它的延迟性也一直为大家所诟病。随着各行各业的发展,越来越多的业务要求大数据系统既可以处理历史数据,...

星环科技 发表了文章 • 2016-10-11 11:32

3
推荐
2712
浏览

R实现地理位置与经纬度相互转换

本实例要实现目标通过输入城市名或者地名,然后找出其经度纬度值,以及通过可视化展现其线路流向以及周边地图展示本实例参考文章主要来自金大侠博客:http://user.qzone.qq.com/675229288/mainaddress_list数据:...

华青莲 发表了文章 • 2016-10-10 19:27

0
推荐
1144
浏览

百度外卖联合搜狐新闻客户端发布十一大数据 异地点单量激增

 国庆长假刚刚结束,朋友圈的旅游摄影大赛也落下帷幕。在这难得的休闲时光里,有人选择天南海北畅游一番,也有人选择宅在家中享受清闲,但无论“旅游族”还是“御宅族”都将“吃遍美食”的主题贯穿了整个假期。  今...

在学古筝的程序员 发表了文章 • 2016-10-08 10:59

0
投票
2
已解决
2801
浏览
0
投票
2
已解决
1887
浏览

Hive初始化mysql不起作用

哆啦A梦 回复了问题 • 2018-05-21 09:20
0
投票
4
已解决
6756
浏览
0
投票
0
回答
830
浏览
0
投票
1
已解决
870
浏览

kylin 2.1 对应的spark版本啥多少的?

MarsJ 回复了问题 • 2017-10-20 15:53
0
投票
0
回答
661
浏览
0
投票
1
回答
799
浏览
0
投票
1
已解决
1081
浏览
0
推荐
559
浏览

利用 Spark 和 scikit-learn 将你的模型训练加快 100 倍

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | AI开发者(okweiwu)作者 | skura在 Ibotta,我们训练了许多机器学习模型。这些模型为我们的推荐系统、搜索引...

数智物语 发表了文章 • 2019-09-24 16:28

0
推荐
471
浏览

Spark SQL 概述

推荐文章 https://blog.csdn.net/bingdianone/article/details/84134868大数据中的sql之前使用范围最广的是hadoop体系的中的hive sqlhive sql 原理是将sql转换为MapReduce任务,所有效率不高,后面做了改进可以运...

攻城的狮子 发表了文章 • 2019-09-03 13:43

0
推荐
448
浏览

Spark概述及安装

推荐文章https://blog.csdn.net/bingdianone/article/details/84105561#Spark_1hadoop的生态圈Hive构建在HDFS上, 原理是将sql转mapreduceMahout,R语言机器学习; Pig 类似Hive 讲pig语言转 MapReduce Oozie工作...

攻城的狮子 发表了文章 • 2019-09-03 10:11

0
推荐
485
浏览

数据挖掘之Spark学习

阅读路线:Hadoop与Spark比较Spark的安装Spark知识点一、Hadoop与Spark比较1.简单的比较刚开始学习Spark的时候,自己总是会想当然的理解两者之间的关系。Hadoop和Spark的处理任务有很多是一样的,比如说他们都是有...

DataFrog 发表了文章 • 2019-08-28 19:31

0
推荐
476
浏览

30分钟理解Spark的基本原理

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。作者 | 梁云1991转载自Python与算法之美(ID:Python_Ai_Road)01Spark优势特点作为大数据计算框架 MapReduce 的继任者,Sp...

数智物语 发表了文章 • 2019-07-17 17:38

0
推荐
1661
浏览

Sparklyr与Docker的推荐系统实战

概述大数据时代,做数据分析的人才辈出,Java、Scala、Go、Julia、Python、JavaScript都不断涌现出很多数据分析的新工具,然而对于数据分析来说,这些工具都不是分析的核心,分析的核心在于对市场业务、对具体数...

R语言中文社区 发表了文章 • 2019-04-08 10:03

0
推荐
856
浏览

sparklyr 1.0发布,有哪些新功能?

作者:Javier Luraschi翻译:黄小伟,10年资深数据矿工。目前就职杭州有赞,欢迎加入有赞分析团队sparklyr 1.0目前已经可以通过CRAN直接下载、安装使用!它提供了针对Apache Spark的接口,支持dplyr、MLlib、stre...

R语言中文社区 发表了文章 • 2019-03-18 09:39

1
推荐
1855
浏览

spark中df, rdd, list 转换

df to rdd: df.rdd.map(list) df.rdd.map(tuple) df.rdd.map(lambda x: list(x[0])) rdd to list: rdd1.collect() df to list: df.rdd.map(list).collect() df.rdd.map(tuple).collect() rd...

safa 发表了文章 • 2019-01-11 15:19

1
推荐
922
浏览

通过jdbc读取OBIEE数据--Spark示例

最近在用Spark同步数据的时候想到,是否可以直接从已有的OBIEE读取数据,OBIEE上面有完整的语义层,读取数据就比较方便了.想到以前Rittmanmead有篇blog提到,如何使用jdbc驱动清除缓存的功能(https://www.rittmanmea...

seng 发表了文章 • 2018-12-06 17:01

1
推荐
1248
浏览

Spark Structured Streaming的一些link

最近在测试相关内容, 以下列了一些我觉得有用的link官方文档Spark Structured Streaming Programming Guide https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html https://spark.a...

seng 发表了文章 • 2018-11-09 15:06

1
推荐
755
浏览

无缝对接Spark与R:Sparklyr系列—探讨属于数据科学家的Spark

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.tian-yuan@qq.com为什么Spark需要与R对接?解决这个问题...

R语言中文社区 发表了文章 • 2018-10-30 15:14

0
推荐
2017
浏览

SparkStreaming下Python报net.jpountz.lz4.LZ4BlockInputStream的解决

这几天在测试SparkStreaming,连接Kafka一直报这个错, 18/08/30 21:09:00 ERROR Utils: Uncaught exception in thread stdout writer for python java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStre...

seng 发表了文章 • 2018-08-30 21:30

0
推荐
1429
浏览

Spark笔记2--Dataset保存为parquet格式遇到的问题

spark天然支持parquet,且其推荐的存储格式就是parquet,但存储时,对其列名有一定的要求:1.列名称不能包含" ,;{}()\n\t=" SparkSession sparkSession = SparkSession.builder().appName("Test")....

_缘君_ 发表了文章 • 2018-08-17 15:49

1
推荐
1896
浏览

Spark笔记1--以表头创建空的dataset

最近上手Spark相关的项目,实践过程中遇到的几个问题,来此记录下。1.引入maven包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId>...

_缘君_ 发表了文章 • 2018-08-17 14:49

推荐
浏览


qzq1x4 发表了文章 •

  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,

拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,

因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法