Spark

Spark

0
投票
6
回答
3396
浏览
0
推荐
25
浏览

助力数字经济发展,大数据人才应用能力培养研讨会在西安顺利召开

2021年4月28日,由信息技术新工科产学研联盟【新工科联盟】指导,西安交通大学、长安大学、西安理工大学、西安财经大学、欧亚学院等支持,美林数据主办的“高校大数据人才应用能力培养研讨会”在西安举行,本次大会...

Tempodata 发表了文章 • 1 天前

0
推荐
52
浏览

安利一款神奇——教你轻松下载百度网盘超大文件

前言玩过百度网盘的都应该清楚它的强大,小编就是靠着百度网盘那强大的功能以及变态的存储空间才获得许多具有纪念价值的东西,比如某些Hacker资料,你懂的。但是小编一直以来都有一个心结未解开,那就是为毛每次...

dcpeng 发表了文章 • 2021-04-25 18:47

0
投票
1
回答
363
浏览
0
投票
2
已解决
2069
浏览

spark sql 能建索引吗?

TyrenXu 回复了问题 • 2021-03-22 16:16
0
推荐
164
浏览

左手用工荒,右手培养难,大数据人才从哪来?

大数据、数据分析、算法工程师、数据挖掘工程师、可视化工程师……这些岗位常年稳居各大招聘网站的榜首位置?随便哪个网站,各类岗位需求都在10万+以上,且薪资普遍高于其他岗位类型。大数据...

Tempodata 发表了文章 • 2021-03-15 14:57

0
推荐
297
浏览

大话数据挖掘之数据挖掘简介

人物介绍许教授:国内数据挖掘专家、某985高校智能信息处理学术带头人万总:某超市集团营销副总李部长:某钢铁集团生产部部长 某985高校管理学院第五届EMBA班的《数据挖掘及其应用》课程上。国内数据挖掘专...

Tempodata 发表了文章 • 2021-02-26 10:31

0
推荐
351
浏览

BI工具怎么选?

随着数字化的发展,企业的数据量呈现出指数级增长的趋势,越来越多的数据让传统的数据分析工具,例如EXCEL,变得难以满足商业需求。于是BI工具成为了企业在商业数据分析中新的选择。 BI又叫做商务智能,可以...

Tempodata 发表了文章 • 2021-02-05 18:26

0
推荐
234
浏览

大数据时代,还在用老一套方式管理采购与供应商吗?

欧洲供应链顶级物流专家、克兰菲尔德大学物流与运输研究中心主席马丁·克里斯托弗(Martin·Christopher)曾于1992年深刻指出:“21世纪的竞争不再是企业和企业之间的竞争,而是供应链和供应链之间的竞争。”1月26日...

Tempodata 发表了文章 • 2021-01-29 11:17

0
推荐
496
浏览

智能制造与大数据:数据分析实现智能化

前面《智能制造与大数据——数据共享实现网络化》一文围绕智能制造发展的第二个阶段——“网络化”展开阐述,重点介绍通过主数据标准制定及数据处理等技术保障共享数据的一致性与完整性,从而实现网络化协同的目标。制...

Tempodata 发表了文章 • 2020-12-25 16:01

0
推荐
541
浏览

标准信息公共服务:某市标准技术研究院数据治理项目

某市标准技术研究院是XX市唯一专业从事标准化科研、服务和应用的准公益类科研事业单位。该院以行业标准建设及对外提供信息与技术服务为主要业务,数据既是其业务的输入(生产要素),也是产...

Tempodata 发表了文章 • 2020-12-05 13:49

0
推荐
222
浏览

Ubuntu远程连接显示错误Network error Connection refused解决方法

之前在通过Filezilla往虚拟机或者服务器上传送文件的时候都是十分顺利的,不过最近老是遇到“错误:Network error: Connection refused”,如下图所示。此外还有“错误: 认证失败。”的错误,如下图所示,从而导致“错...

dcpeng 发表了文章 • 2020-12-05 10:57

0
推荐
743
浏览

【数学之美】你知道一根绳子有多长吗?

如果给你一根绳子,问你这根绳子有多长,你会怎么做?这似乎是个再简单不过的问题。把绳子拉直,用尺子从一头量到另一头。好了,结果已经出来了。但量出来的数值真的就是这根绳子的长度吗?答案远没有这么简单。...

Tempodata 发表了文章 • 2020-12-04 14:13

0
推荐
359
浏览

解开关于人工智能的六个迷思

“人工智能将自动执行所有工作并让人类失业。”“人工智能只是一种虚构的技术。”“机器人将占领整个世界。”围绕人工智能的炒作给主流媒体、董事会议和各企业机构留下了许多迷思。有人担心“万能”的人工智能将占领全世...

Tempodata 发表了文章 • 2020-11-24 10:57

0
推荐
429
浏览

10万级etl批量处理作业调度工具Taskctl Web应用版0元永久授权使用

软件下载:关注公众号:【Taskctl】关键字回复 "领取" 或 "软件" 即可获得认识 Taskctl-webTASKCTL 遵循软件产品标准化的原则,以“专业、专注”为设计理念,结合ETL 调度领域自身的...

taskctl官方账号 发表了文章 • 2020-11-24 10:11

条新动态, 点击查看
同程吴文波:spark做olap?

天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。

王东:greenplum和spark选型如何取舍呢?

同程吴文波:真有这样的方案哦

小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说... 显示全部 »
同程吴文波:spark做olap?

天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。

王东:greenplum和spark选型如何取舍呢?

同程吴文波:真有这样的方案哦

小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说11R版本的cognos会支持hadoop。

锋:spark现在是不是发展很快。

小小蜗牛爬上墙:看来从传统数据仓库往大数据平台迁移任重道远呀。

天天向上:还是要找到价值点,不能盲目的上大数据。

春宇:传统数据仓库和大数据平台分工不同,列存,MPP能够解决的事情,不见得非得挪到Hadoop上去。

同程吴文波:@大连-K12-王东 怎么想到用spark做olap?

春宇:现在就是觉得系统太多,企业统一化的数据视图更难画了

大米:主要的生产数据还是用主流关系数据库,分析用hadoop是这样理解吗?

王东:@同程吴文波 我就是觉得数据层的东西太多,开发维护成本有点高,所以想用spark解决olap和大数据分析等各种场景

同程吴文波:@大连-K12-王东 试试Hadoop+kylin 或spark+cassandra等组合

王东:我们也打算围绕spark做呢,但是这块儿没实际操作过,比较担心olap的响应速度。

Shadow 杨:@大连-K12-王东 [发呆]多大的数据量,数据量不到一定程度,根本发挥不出来。

王东:@Shadow 杨 事实表千万级别,维度表特别多有上百。

同程吴文波:@大连-K12-王东 你的这些用普通db来构建olap就好 

Shadow 杨:@同程吴文波 同意你

天天向上:普通的就可以啊,微软的sass就搞定了。

王东:事实表千万级别greenplum行吗?

同程吴文波:@大连-K12-王东 gp是可以搞定的。但是你的那个数据量用SSAS也就行的。使用SSD 3.2T的+128G内存 或 256G就OK

王东:cognos和ssas是一个量级的么?

春宇:Cognos你用什么?PowerCube?Dynamic Cube?还是TM1?

王东:cognos也没实际用过,这几个cube啥区别啊

春宇:@大连-K12-王东 话题太长,可单聊,但就性价比而言,还是建议你选择SSAS或者开源的OLAP引擎。
collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。
collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。
Bob

Bob 回答了问题 • 2016-06-14 13:56 • 2 个回复 不感兴趣

spark sql 能建索引吗?

赞同来自:

可以试试DataFrame + dfZipWithIndex的组合方式。看看能不能提升些性能
可以试试DataFrame + dfZipWithIndex的组合方式。看看能不能提升些性能
多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
多学习,cloudera公司的官网上就有包含所有大数据技术的虚拟机,供学习使用。
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
val a = "A:b,c,d" val b = a.split(":") val c = b{0} val d = b{1} val e = d.split(",") val f = e.flat... 显示全部 »
val a = "A:b,c,d" val b = a.split(":") val c = b{0} val d = b{1} val e = d.split(",") val f = e.flatMap(s=>List((c,s))) println(f.mkString(","))
 
regan

regan 回答了问题 • 2017-04-05 10:00 • 1 个回复 不感兴趣

spark中如何看有多少个并发的task啊

赞同来自:

看有多少个partition就有多少个并发的任务,webui也可以看

34913
 
看有多少个partition就有多少个并发的任务,webui也可以看

34913
 
regan

regan 回答了问题 • 2017-04-06 10:42 • 2 个回复 不感兴趣

spark中如何看有多少个并发的task啊

赞同来自:

你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
... 显示全部 »
你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
第二中方式是你可以通过SparkUI查看

34999
 
 
 程序的并行度是由partitions的大小决定的,一个partition对应一个task。可以通过repartions或coalease进行合理的设置
Microsoft R Server 收费
Microsoft R Server 收费
使用rdd上的randomSplit方法,将一个RDD随机拆分成多个RDD,randomSplit方法返回一个rdd数组,遍历数组,取出每个rdd,toDF后,使用jdbc方法写入数据库,遍历过程中制定一个随机的选库策略,这样就将rdd内容写入到了相同的 数据... 显示全部 »
使用rdd上的randomSplit方法,将一个RDD随机拆分成多个RDD,randomSplit方法返回一个rdd数组,遍历数组,取出每个rdd,toDF后,使用jdbc方法写入数据库,遍历过程中制定一个随机的选库策略,这样就将rdd内容写入到了相同的 数据库不同的表中了。你具体的需求按照这个思路去应该可以实现。
程序本地写,测试时候发到你的服务器上去跑。
程序本地写,测试时候发到你的服务器上去跑。
你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少,导致并行度不够,故写入速度慢。意见是尝试吧分区数调整... 显示全部 »
你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少,导致并行度不够,故写入速度慢。意见是尝试吧分区数调整为5或10再试试
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家... 显示全部 »
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家自主学习使用,这个估计要看具体情况;
    公司有没有闲置的机器,都可以利用起来
2. 个人
    个人电脑安装VirtualBox之类的虚拟机,开3个虚拟机玩儿就够了,电脑的话配置也就内存8G以上应该足够了,CPU差不多就行了,直接装Linux就行了;
    可以使用Docker,可以简单的把他看成虚拟机,找些资料看看,简单使用应该没问题,使用Docker开实例很方便,不像虚拟机那样耗费很多资源
    要不开通个阿里云之类的,在云平台上面玩儿,这个价钱不清楚,可以去官网看看
MarsJ

MarsJ 回答了问题 • 2017-10-20 15:53 • 1 个回复 不感兴趣

kylin 2.1 对应的spark版本啥多少的?

赞同来自:

我这边使用Spark 1.6是支持的,没有试过更高版本
我这边使用Spark 1.6是支持的,没有试过更高版本
从推送到kafka,到最后出去统计结果,中间有很多事情要做。
比如 
spark 接收 kafka数据
spark 如何处理数据
处理完后如何保存数据
如何推送到前端显示
 
从推送到kafka,到最后出去统计结果,中间有很多事情要做。
比如 
spark 接收 kafka数据
spark 如何处理数据
处理完后如何保存数据
如何推送到前端显示
 
bryanyang

bryanyang 回答了问题 • 2018-05-19 11:22 • 2 个回复 不感兴趣

Hive初始化mysql不起作用

赞同来自:

1. 该文是使用 Centos 作为安装环境,请确认是否一致
2. 如果不是用自动化 script,而是手动按照指令操作,请确保环境变数设置正常
3. 错误讯息建议贴完整的,单贴片段很难确认错误.
4. 其他各种报错的处理方式可以参考这篇 https://ww... 显示全部 »
1. 该文是使用 Centos 作为安装环境,请确认是否一致
2. 如果不是用自动化 script,而是手动按照指令操作,请确保环境变数设置正常
3. 错误讯息建议贴完整的,单贴片段很难确认错误.
4. 其他各种报错的处理方式可以参考这篇 https://www.jianshu.com/p/d9cb284f842d
 
 
3
推荐
3010
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

5
推荐
2148
浏览

《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样

前言作为数据分析师,每天都有大量的数据需要处理,我们会根据业务的要求做各种复杂的报表,包括了分组、排序、过滤、转置、差分、填充、移动、合并、分裂、分布、去重、找重、填充 等等的操作。有时为了计算一个...

R语言中文社区 发表了文章 • 2017-09-28 09:59

11
推荐
3684
浏览

从大数据舆情传播角度看《三生三世十里桃花》

前不久,看到知乎上一个知友提到了一个问题,觉得有点意思,于是心血来潮写了一个回答,现在粘贴复制到这里:不扯犊子,就直接以题主的举例来上干货,分析的对象是目前大红大紫的《三生三世十里桃花》(以下简称“...

高长宽 发表了文章 • 2017-02-22 13:48

5
推荐
1750
浏览

【PPT干货】一篇神一样的数据分析解读,看完我.....

数据君6年前写的数据分析交流资料,删除部分,分享给大家!想成为数据分析方面的专家不易:1、要会技术存储、统计、机器学习、报表、分析、展示、可视化、编程等2、懂市场细分、营销、产品、用户行为、流失、欺诈...

Jmarry 发表了文章 • 2017-02-22 09:37

15
推荐
3537
浏览

从零开始,构建数据化运营体系

数据化运营是一个近年来兴起的概念,它在运营的基础上,提出了以数据驱动决策的口号。在了解数据化运营前,运营们有没有过如下的问题:不同渠道,效果究竟是好是坏?活跃数下降了,到底是因为什么原因?这次活动...

秦路 发表了文章 • 2017-02-06 17:34

7
推荐
3003
浏览

【20万字500页年刊下载】2016年天善大数据社区年刊精华版

继 2015年天善智能发布了 《2015年 BI 系列技术博文与问答精选年刊》 和 《2015年社区博文与 Friday BI Fly 活动记录精选年刊》 后,2017年1月我们正式发布2016年社区年刊。本年刊涵盖了2016 年天...

天善智能 发表了文章 • 2017-01-26 13:36

6
推荐
6840
浏览

人人可用的数据分析认知计算产品 IBM Watson Analytics 试用体验

在这篇文章中 《 蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson 》我介绍到了 IBM Watson 在人工智能领域的布局和变革。那么本篇文章就带大家走进 IBM Watson 旗下认知计算、预测分析的云...

lvpin 发表了文章 • 2017-01-21 18:08

9
推荐
6351
浏览

蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson

2016年是人工智能走向大众的元年大数据的火热还未退去,人工智能在2016年和2017年交替之际就被刷爆了。从 2016年12月29日到2017年1月4日,一位标注为韩国九段的神秘棋手 Master 在一周之内完胜包括中日韩朴廷桓、...

lvpin 发表了文章 • 2017-01-16 11:17

0
投票
1
回答
3449
浏览
7
推荐
3106
浏览

政府大数据是不是一个伪命题?面临的问题和阻力在哪里?

背景 2015年经李克强总理签批,国务院印发《促进大数据发展行动纲要》,中国政府已经开始系统部署大数据发展工作。《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模...

lvpin 发表了文章 • 2016-12-28 18:15

1
推荐
2499
浏览

Friday BI Fly | 2016年10月21日晚8点半微信直播交流在实践中挖掘数据的价值第36场 图文版记录

公告:周五BI飞起来,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴,锁定在每周五晚20:30,不见不散!未来几期的微信直播活动分享主题将包括在大数据、大变革、大成长、游戏行业数据仓库储存模型。...

天善智能 发表了文章 • 2016-10-24 10:30

3
推荐
6735
浏览

技术|深入浅出解析大数据Lambda架构

前言   Hadoop的出现让人们尝到了大数据技术的甜头,它的批处理能力已经被工业界充分认可,但是它的延迟性也一直为大家所诟病。随着各行各业的发展,越来越多的业务要求大数据系统既可以处理历史数据,...

星环科技 发表了文章 • 2016-10-11 11:32

3
推荐
3162
浏览

R实现地理位置与经纬度相互转换

本实例要实现目标通过输入城市名或者地名,然后找出其经度纬度值,以及通过可视化展现其线路流向以及周边地图展示本实例参考文章主要来自金大侠博客:http://user.qzone.qq.com/675229288/mainaddress_list数据:...

华青莲 发表了文章 • 2016-10-10 19:27

0
推荐
1403
浏览

百度外卖联合搜狐新闻客户端发布十一大数据 异地点单量激增

 国庆长假刚刚结束,朋友圈的旅游摄影大赛也落下帷幕。在这难得的休闲时光里,有人选择天南海北畅游一番,也有人选择宅在家中享受清闲,但无论“旅游族”还是“御宅族”都将“吃遍美食”的主题贯穿了整个假期。  今...

在学古筝的程序员 发表了文章 • 2016-10-08 10:59

0
投票
1
回答
363
浏览
0
投票
2
已解决
2069
浏览

spark sql 能建索引吗?

TyrenXu 回复了问题 • 2021-03-22 16:16
0
投票
2
已解决
5089
浏览
0
投票
2
已解决
3211
浏览

Hive初始化mysql不起作用

哆啦A梦 回复了问题 • 2018-05-21 09:20
0
投票
4
已解决
8990
浏览
0
投票
0
回答
1551
浏览
0
投票
1
已解决
1293
浏览

kylin 2.1 对应的spark版本啥多少的?

MarsJ 回复了问题 • 2017-10-20 15:53
0
投票
0
回答
1544
浏览
0
投票
1
回答
1424
浏览
0
推荐
988
浏览

利用 Spark 和 scikit-learn 将你的模型训练加快 100 倍

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | AI开发者(okweiwu)作者 | skura在 Ibotta,我们训练了许多机器学习模型。这些模型为我们的推荐系统、搜索引...

数智物语 发表了文章 • 2019-09-24 16:28

0
推荐
1166
浏览

Spark SQL 概述

推荐文章 https://blog.csdn.net/bingdianone/article/details/84134868大数据中的sql之前使用范围最广的是hadoop体系的中的hive sqlhive sql 原理是将sql转换为MapReduce任务,所有效率不高,后面做了改进可以运...

攻城的狮子 发表了文章 • 2019-09-03 13:43

0
推荐
744
浏览

Spark概述及安装

推荐文章https://blog.csdn.net/bingdianone/article/details/84105561#Spark_1hadoop的生态圈Hive构建在HDFS上, 原理是将sql转mapreduceMahout,R语言机器学习; Pig 类似Hive 讲pig语言转 MapReduce Oozie工作...

攻城的狮子 发表了文章 • 2019-09-03 10:11

0
推荐
740
浏览

数据挖掘之Spark学习

阅读路线:Hadoop与Spark比较Spark的安装Spark知识点一、Hadoop与Spark比较1.简单的比较刚开始学习Spark的时候,自己总是会想当然的理解两者之间的关系。Hadoop和Spark的处理任务有很多是一样的,比如说他们都是有...

DataFrog 发表了文章 • 2019-08-28 19:31

0
推荐
759
浏览

30分钟理解Spark的基本原理

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。作者 | 梁云1991转载自Python与算法之美(ID:Python_Ai_Road)01Spark优势特点作为大数据计算框架 MapReduce 的继任者,Sp...

数智物语 发表了文章 • 2019-07-17 17:38

0
推荐
2041
浏览

Sparklyr与Docker的推荐系统实战

概述大数据时代,做数据分析的人才辈出,Java、Scala、Go、Julia、Python、JavaScript都不断涌现出很多数据分析的新工具,然而对于数据分析来说,这些工具都不是分析的核心,分析的核心在于对市场业务、对具体数...

R语言中文社区 发表了文章 • 2019-04-08 10:03

0
推荐
1180
浏览

sparklyr 1.0发布,有哪些新功能?

作者:Javier Luraschi翻译:黄小伟,10年资深数据矿工。目前就职杭州有赞,欢迎加入有赞分析团队sparklyr 1.0目前已经可以通过CRAN直接下载、安装使用!它提供了针对Apache Spark的接口,支持dplyr、MLlib、stre...

R语言中文社区 发表了文章 • 2019-03-18 09:39

1
推荐
3834
浏览

spark中df, rdd, list 转换

df to rdd: df.rdd.map(list) df.rdd.map(tuple) df.rdd.map(lambda x: list(x[0])) rdd to list: rdd1.collect() df to list: df.rdd.map(list).collect() df.rdd.map(tuple).collect() rd...

safa 发表了文章 • 2019-01-11 15:19

1
推荐
1388
浏览

通过jdbc读取OBIEE数据--Spark示例

最近在用Spark同步数据的时候想到,是否可以直接从已有的OBIEE读取数据,OBIEE上面有完整的语义层,读取数据就比较方便了.想到以前Rittmanmead有篇blog提到,如何使用jdbc驱动清除缓存的功能(https://www.rittmanmea...

seng 发表了文章 • 2018-12-06 17:01

1
推荐
1618
浏览

Spark Structured Streaming的一些link

最近在测试相关内容, 以下列了一些我觉得有用的link官方文档Spark Structured Streaming Programming Guide https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html https://spark.a...

seng 发表了文章 • 2018-11-09 15:06

1
推荐
1081
浏览

无缝对接Spark与R:Sparklyr系列—探讨属于数据科学家的Spark

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.tian-yuan@qq.com为什么Spark需要与R对接?解决这个问题...

R语言中文社区 发表了文章 • 2018-10-30 15:14

0
推荐
2733
浏览

SparkStreaming下Python报net.jpountz.lz4.LZ4BlockInputStream的解决

这几天在测试SparkStreaming,连接Kafka一直报这个错, 18/08/30 21:09:00 ERROR Utils: Uncaught exception in thread stdout writer for python java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStre...

seng 发表了文章 • 2018-08-30 21:30

0
推荐
1874
浏览

Spark笔记2--Dataset保存为parquet格式遇到的问题

spark天然支持parquet,且其推荐的存储格式就是parquet,但存储时,对其列名有一定的要求:1.列名称不能包含" ,;{}()\n\t=" SparkSession sparkSession = SparkSession.builder().appName("Test")....

_缘君_ 发表了文章 • 2018-08-17 15:49

1
推荐
2870
浏览

Spark笔记1--以表头创建空的dataset

最近上手Spark相关的项目,实践过程中遇到的几个问题,来此记录下。1.引入maven包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId>...

_缘君_ 发表了文章 • 2018-08-17 14:49

推荐
浏览


qzq1x4 发表了文章 •

  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,

拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,

因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法