Spark

投票

回答

2678

浏览

各位前辈，小弟想参与BI的项目

BIEE 机器学习数据分析数据挖掘数据仓库人工智能大数据 ETL 商业智能

yaogunjita 发起了问题 • 2017-02-17 10:30

投票

回答

6902

浏览

求问，有人知道随机森林里面子树变量个数选择上有什么讲究吗？

统计学大数据

rahjjhgff 发起了问题 • 2018-04-04 16:59

推荐

2647

浏览

手机自动化测试IDE ----- 手把手教你用Airtest模拟器来连接手机

大家好，我是IT共享者，人称皮皮。上篇文章讲了Airtest的安装和IDE控件详解相关知识，手机自动化测试IDE-----Airtest基本操作方法、手机自动化测试IDE ----- Airtest的安装和IDE控件详解，这篇文章来给大家分享用...

dcpeng 发表了文章 • 2021-06-30 09:37

推荐

1437

浏览

干货|Sqlite数据库知识必知必会（上篇）

大家好，我是IT共享者，人称皮皮。前面几天给大家分享了MySQL数据库知识，没来得及看的小伙伴可以前往：Mysql查询语句进阶知识集锦，一篇文章教会你进行Mysql数据库和数据表的基本操作，关于数据库的安装可以参考...

dcpeng 发表了文章 • 2021-06-05 21:29

投票

回答

4993

浏览

需要做数据汇报，有什么好的工具推荐？

贡献

商业智能大数据数据分析

数据人回复了问题 • 2021-05-08 13:40

推荐

987

浏览

安利一款神奇——教你轻松下载百度网盘超大文件

前言玩过百度网盘的都应该清楚它的强大，小编就是靠着百度网盘那强大的功能以及变态的存储空间才获得许多具有纪念价值的东西，比如某些Hacker资料，你懂的。但是小编一直以来都有一个心结未解开，那就是为毛每次...

dcpeng 发表了文章 • 2021-04-25 18:47

投票

回答

2197

浏览

HDP中Metrics Collector服务启动后立即终止

Spark Hive HBASE Hadoop 大数据

袁某某发起了问题 • 2020-12-16 11:30

投票

已解决

2935

浏览

spark sql 能建索引吗？

贡献

Spark

TyrenXu 回复了问题 • 2021-03-22 16:16

推荐

1366

浏览

Ubuntu远程连接显示错误Network error Connection refused解决方法

之前在通过Filezilla往虚拟机或者服务器上传送文件的时候都是十分顺利的，不过最近老是遇到“错误:Network error: Connection refused”，如下图所示。此外还有“错误: 认证失败。”的错误，如下图所示，从而导致“错...

dcpeng 发表了文章 • 2020-12-05 10:57

推荐

1852

浏览

10万级etl批量处理作业调度工具Taskctl Web应用版0元永久授权使用

软件下载：关注公众号：【Taskctl】关键字回复 "领取" 或 "软件" 即可获得认识 Taskctl-webTASKCTL 遵循软件产品标准化的原则，以“专业、专注”为设计理念，结合ETL 调度领域自身的...

ETL批量调度-Taskctl 发表了文章 • 2020-11-24 10:11

投票

回答

2244

浏览

有条hiveSql走Tez引擎, 针对mr的配置应该不会生效了吧?

贡献

Hive 大数据

meituan 回复了问题 • 2020-09-24 14:09

投票

回答

1424

浏览

SQL Server Data Tools通过HDFS文件源读取Hadoop文件

Hadoop SSIS ETL

LeoGYQ 回复了问题 • 2020-08-14 11:22

推荐

1404

浏览

ETL基础知识有哪些？3分钟让你轻松搞定

ETL发展的历史背景随着企业的发展，各业务线、产品线、部门都会承建各种信息化系统方便开展自己的业务。随着信息化建设的不断深入，由于业务系统之间各自为政、相互独立造成的数据孤岛”现象尤为普遍，业务不集成...

ETL批量调度-Taskctl 发表了文章 • 2020-08-03 16:07

推荐

1408

浏览

元数据是什么？举例告诉你哪种方式更适合元数据的录入

元数据，一个简单的定义是描述数据的数据。在企业中，无论哪里有数据，都有相应的元数据。只有存在完整而准确的元数据，我们才能更好地理解数据并充分利用数据的价值。为了让大家更好地了解什么是元数据，TaskCtl...

ETL批量调度-Taskctl 发表了文章 • 2020-07-28 17:12

推荐

1077

浏览

大数据与批量调度的紧密关系

当大数据在手机端花枝招展地跳跃时，你很自豪地说，我知道它是怎么来的，它是从网络另一端来的。可当碰到一个刨根问底的家伙，他又问，那网络另一端的数据又是怎么来的，你是否一脸蒙逼？不，你可能说，作为一枚I...

ETL批量调度-Taskctl 发表了文章 • 2020-07-21 15:26

天善智能回答了问题 • 2015-12-06 19:19 • 4 个回复不感兴趣

关于使用spark做olap靠谱么？有没有成熟案例？

同程吴文波：spark做olap？

天天向上：@大连-K12-王东 spark现在还是一种计算框架　。。

王东：greenplum和spark选型如何取舍呢？

同程吴文波：真有这样的方案哦

小小蜗牛爬上墙：olap用cognos，ibm推广较好的，据说... 显示全部 »

同程吴文波：spark做olap？

天天向上：@大连-K12-王东 spark现在还是一种计算框架　。。

王东：greenplum和spark选型如何取舍呢？

同程吴文波：真有这样的方案哦

小小蜗牛爬上墙：olap用cognos，ibm推广较好的，据说11R版本的cognos会支持hadoop。

锋：spark现在是不是发展很快。

小小蜗牛爬上墙：看来从传统数据仓库往大数据平台迁移任重道远呀。

天天向上：还是要找到价值点，不能盲目的上大数据。

春宇：传统数据仓库和大数据平台分工不同，列存，MPP能够解决的事情，不见得非得挪到Hadoop上去。

同程吴文波：@大连-K12-王东怎么想到用spark做olap？

春宇：现在就是觉得系统太多，企业统一化的数据视图更难画了

大米：主要的生产数据还是用主流关系数据库，分析用hadoop是这样理解吗？

王东：@同程吴文波我就是觉得数据层的东西太多，开发维护成本有点高，所以想用spark解决olap和大数据分析等各种场景

同程吴文波：@大连-K12-王东试试Hadoop+kylin 或spark+cassandra等组合

王东：我们也打算围绕spark做呢，但是这块儿没实际操作过，比较担心olap的响应速度。

Shadow 杨：@大连-K12-王东 [发呆]多大的数据量，数据量不到一定程度，根本发挥不出来。

王东：@Shadow 杨事实表千万级别，维度表特别多有上百。

同程吴文波：@大连-K12-王东你的这些用普通db来构建olap就好

Shadow 杨：@同程吴文波同意你

天天向上：普通的就可以啊，微软的sass就搞定了。

王东：事实表千万级别greenplum行吗？

同程吴文波：@大连-K12-王东 gp是可以搞定的。但是你的那个数据量用SSAS也就行的。使用SSD 3.2T的+128G内存或 256G就OK

王东：cognos和ssas是一个量级的么？

春宇：Cognos你用什么？PowerCube?Dynamic Cube?还是TM1？

王东：cognos也没实际用过，这几个cube啥区别啊

春宇：@大连-K12-王东话题太长，可单聊，但就性价比而言，还是建议你选择SSAS或者开源的OLAP引擎。

MarsJ 回答了问题 • 2016-04-08 15:36 • 2 个回复不感兴趣

spark collect()，当数据量比较大时，卡死怎么解决？

collect是直接将执行collect的这个RDD是数据加载到内存中执行，如果数据量太大必然会卡死，所以唯一能建议的就是合理使用collect，不要滥用。

Bob 回答了问题 • 2016-06-14 13:56 • 2 个回复不感兴趣

spark sql 能建索引吗？

可以试试DataFrame + dfZipWithIndex的组合方式。看看能不能提升些性能

Bob 回答了问题 • 2017-03-14 13:24 • 2 个回复不感兴趣

国内大多互联网公司的大数据工程师实习都是需要大数据项目经验，怎么样在自己研究方向不是数据科学和ml相关的情况下接触到hadoop，spark相关项目呢？

多学习，cloudera公司的官网上就有包含所有大数据技术的虚拟机，供学习使用。
多逛大数据的问答社区
主动参与到其他的项目，哪怕是打杂都是可以的。学习这些项目的实际运作流程

regan 回答了问题 • 2017-03-27 18:18 • 1 个回复不感兴趣

spark 一条数据格式为A:b,c,d 变成 (k,v) (A,b)(A,c)(A,d)

val a = "A:b,c,d" val b = a.split(":") val c = b{0} val d = b{1} val e = d.split(",") val f = e.flat... 显示全部 »

regan 回答了问题 • 2017-04-05 10:00 • 1 个回复不感兴趣

spark中如何看有多少个并发的task啊

看有多少个partition就有多少个并发的任务，webui也可以看

34913

regan 回答了问题 • 2017-04-06 10:42 • 2 个回复不感兴趣

spark中如何看有多少个并发的task啊

你可以通过rdd.partitions.size在程序里面查看，比较方便的是你可以在spark-shell中
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
... 显示全部 »

谢佳标回答了问题 • 2017-04-06 19:31 • 1 个回复不感兴趣

Microsoft R Server for Hadoop 与 R的sparklyr有什么区别？

Microsoft R Server 收费

regan 回答了问题 • 2017-06-16 10:11 • 1 个回复不感兴趣

spark 里面，如何并行插入数据到数据库的不同表，表结构一样

使用rdd上的randomSplit方法，将一个RDD随机拆分成多个RDD，randomSplit方法返回一个rdd数组，遍历数组，取出每个rdd，toDF后，使用jdbc方法写入数据库，遍历过程中制定一个随机的选库策略，这样就将rdd内容写入到了相同的数据... 显示全部 »

regan 回答了问题 • 2017-08-30 10:24 • 1 个回复不感兴趣

请问一下，你们做hadoop mr的时候是在本地开发还是在虚拟机上开发的？

程序本地写，测试时候发到你的服务器上去跑。

regan 回答了问题 • 2017-08-30 10:23 • 2 个回复不感兴趣

spark从mysql读取数据，根据日期放在hive里面，产生了好多小文件，现在通过DataSet.coalesce()合并小文件，导致写入速度非常慢，各位大神有啥其他方法

你的目的是减少文件的个数，设置合理的分区数就可以了，例如设置分区数为5，对应5个文件。coalesce和repartitions都能设置分区数量，其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少，导致并行度不够，故写入速度慢。意见是尝试吧分区数调整... 显示全部 »

liutangwow 回答了问题 • 2017-08-09 13:31 • 2 个回复不感兴趣

像spark hadoop这些大数据相关的怎么自我学习，比如说集群个人电脑条件也不满足有没有什么云平台可以提供实验环境？

目前我好想没有听说过有这样的平台，要学习的话，我觉得有这样的几个建议：
1. 公司支持
公司技术迭代，需要使用Hadoop、Spark，那肯定会提供测试环境等一切资源，那就很方便了；
公司没有需求，那是否可以和上级领导反馈下，申请测试环境供大家... 显示全部 »

MarsJ 回答了问题 • 2017-10-20 15:53 • 1 个回复不感兴趣

kylin 2.1 对应的spark版本啥多少的？

我这边使用Spark 1.6是支持的，没有试过更高版本

天桥下的郑成功回答了问题 • 2018-03-03 14:53 • 2 个回复不感兴趣

请教一下大家：假设我有一个spark streaming提供实时求和计算服务，前端往作为数据源的kafka里推送了一条“3+2”，那么结果“5”如何返回给前端，大家都是怎么实现的？

从推送到kafka，到最后出去统计结果，中间有很多事情要做。
比如
spark 接收 kafka数据
spark 如何处理数据
处理完后如何保存数据
如何推送到前端显示

bryanyang 回答了问题 • 2018-05-19 11:22 • 2 个回复不感兴趣

Hive初始化mysql不起作用

1. 该文是使用 Centos 作为安装环境，请确认是否一致
2. 如果不是用自动化 script，而是手动按照指令操作，请确保环境变数设置正常
3. 错误讯息建议贴完整的，单贴片段很难确认错误．
4. 其他各种报错的处理方式可以参考这篇 https://ww... 显示全部 »

投票

回答

2197

浏览

HDP中Metrics Collector服务启动后立即终止

Spark Hive HBASE Hadoop 大数据

袁某某发起了问题 • 2020-12-16 11:30

投票

已解决

2935

浏览

spark sql 能建索引吗？

Spark

TyrenXu 回复了问题 • 2021-03-22 16:16

投票

已解决

5860

浏览

spark collect()，当数据量比较大时，卡死怎么解决？

Spark 大数据

新叶回复了问题 • 2019-09-05 10:52

投票

已解决

4029

浏览

Hive初始化mysql不起作用

Spark

哆啦A梦回复了问题 • 2018-05-21 09:20

投票

已解决

10225

浏览

关于使用spark做olap靠谱么？有没有成熟案例？

Spark OLAP 大数据

我叫小根回复了问题 • 2018-05-14 11:03

投票

已解决

3032

浏览

请教一下大家：假设我有一个spark streaming提供实时求和计算服务，前端往作为数据源的kafka里推送了一条“3+2”，那么结果“5”如何返回给前端，大家都是怎么实现的？

Spark

13338666873 回复了问题 • 2018-05-08 15:45

投票

已解决

3174

浏览

spark从mysql读取数据，根据日期放在hive里面，产生了好多小文件，现在通过DataSet.coalesce()合并小文件，导致写入速度非常慢，各位大神有啥其他方法

数据挖掘数据分析数据 MYSQL Spark

天桥下的郑成功回复了问题 • 2018-03-03 14:55

投票

回答

2263

浏览

请教一下如何在anaconda-navigator上安装pyspark？

Spark

p2ng 发起了问题 • 2018-01-09 16:59

投票

已解决

2868

浏览

国内大多互联网公司的大数据工程师实习都是需要大数据项目经验，怎么样在自己研究方向不是数据科学和ml相关的情况下接触到hadoop，spark相关项目呢？

Hadoop Spark

leisinanren 回复了问题 • 2018-01-09 13:51

投票

已解决

1902

浏览

kylin 2.1 对应的spark版本啥多少的？

kylin Spark

MarsJ 回复了问题 • 2017-10-20 15:53

投票

回答

2034

浏览

请问spark history server配置的日志跟用log4j配置的日志有什么区别啊？

Spark

johnnytian35 发起了问题 • 2017-10-19 09:32

投票

回答

2211

浏览

请问要用rhadoop，sparkR包，必须在linux环境下的R吗？

R语言 Hadoop Spark

regan 回复了问题 • 2017-08-30 10:25

投票

已解决

2320

浏览

请问一下，你们做hadoop mr的时候是在本地开发还是在虚拟机上开发的？

人工智能数据分析 MYSQL Hadoop Spark

regan 回复了问题 • 2017-08-30 10:24

投票

已解决

3175

浏览

像spark hadoop这些大数据相关的怎么自我学习，比如说集群个人电脑条件也不满足有没有什么云平台可以提供实验环境？

Spark Hadoop 大数据

regan 回复了问题 • 2017-08-30 10:19

投票

回答

2376

浏览

谁有spark+kafka+flume日志系统的文档（需求分析、概要设计，详细设计等等）

Spark

regan 回复了问题 • 2017-07-02 11:37

推荐

2218

浏览

利用 Spark 和 scikit-learn 将你的模型训练加快 100 倍

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。来源 | AI开发者（okweiwu）作者 | skura在 Ibotta，我们训练了许多机器学习模型。这些模型为我们的推荐系统、搜索引...

数智物语发表了文章 • 2019-09-24 16:28

推荐

2001

浏览

Spark SQL 概述

推荐文章 https://blog.csdn.net/bingdianone/article/details/84134868大数据中的sql之前使用范围最广的是hadoop体系的中的hive sqlhive sql 原理是将sql转换为MapReduce任务，所有效率不高，后面做了改进可以运...

攻城的狮子发表了文章 • 2019-09-03 13:43

推荐

1442

浏览

Spark概述及安装

推荐文章https://blog.csdn.net/bingdianone/article/details/84105561#Spark_1hadoop的生态圈Hive构建在HDFS上，原理是将sql转mapreduceMahout，R语言机器学习； Pig 类似Hive 讲pig语言转 MapReduce Oozie工作...

攻城的狮子发表了文章 • 2019-09-03 10:11

推荐

1410

浏览

数据挖掘之Spark学习

阅读路线:Hadoop与Spark比较Spark的安装Spark知识点一、Hadoop与Spark比较1.简单的比较刚开始学习Spark的时候，自己总是会想当然的理解两者之间的关系。Hadoop和Spark的处理任务有很多是一样的，比如说他们都是有...

DataFrog 发表了文章 • 2019-08-28 19:31

推荐

1478

浏览

30分钟理解Spark的基本原理

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。作者 | 梁云1991转载自Python与算法之美（ID:Python_Ai_Road）01Spark优势特点作为大数据计算框架 MapReduce 的继任者，Sp...

数智物语发表了文章 • 2019-07-17 17:38

推荐

2653

浏览

Sparklyr与Docker的推荐系统实战

概述大数据时代，做数据分析的人才辈出，Java、Scala、Go、Julia、Python、JavaScript都不断涌现出很多数据分析的新工具，然而对于数据分析来说，这些工具都不是分析的核心，分析的核心在于对市场业务、对具体数...

R语言中文社区发表了文章 • 2019-04-08 10:03

推荐

1938

浏览

sparklyr 1.0发布，有哪些新功能？

作者：Javier Luraschi翻译：黄小伟，10年资深数据矿工。目前就职杭州有赞，欢迎加入有赞分析团队sparklyr 1.0目前已经可以通过CRAN直接下载、安装使用！它提供了针对Apache Spark的接口，支持dplyr、MLlib、stre...

R语言中文社区发表了文章 • 2019-03-18 09:39

推荐

9053

浏览

spark中df, rdd, list 转换

df to rdd: df.rdd.map(list) df.rdd.map(tuple) df.rdd.map(lambda x: list(x[0])) rdd to list: rdd1.collect() df to list: df.rdd.map(list).collect() df.rdd.map(tuple).collect() rd...

safa 发表了文章 • 2019-01-11 15:19

推荐

2130

浏览

通过jdbc读取OBIEE数据--Spark示例

最近在用Spark同步数据的时候想到,是否可以直接从已有的OBIEE读取数据,OBIEE上面有完整的语义层,读取数据就比较方便了.想到以前Rittmanmead有篇blog提到，如何使用jdbc驱动清除缓存的功能(https://www.rittmanmea...

seng 发表了文章 • 2018-12-06 17:01

推荐

2449

浏览

Spark Structured Streaming的一些link

最近在测试相关内容, 以下列了一些我觉得有用的link官方文档Spark Structured Streaming Programming Guide https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html https://spark.a...

seng 发表了文章 • 2018-11-09 15:06

推荐

1838

浏览

无缝对接Spark与R：Sparklyr系列—探讨属于数据科学家的Spark

作者：黄天元，复旦大学博士在读，目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验，推广并加深R语言在业界的应用。邮箱：huang.tian-yuan@qq.com为什么Spark需要与R对接？解决这个问题...

R语言中文社区发表了文章 • 2018-10-30 15:14

推荐

3963

浏览

SparkStreaming下Python报net.jpountz.lz4.LZ4BlockInputStream的解决

这几天在测试SparkStreaming,连接Kafka一直报这个错, 18/08/30 21:09:00 ERROR Utils: Uncaught exception in thread stdout writer for python java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStre...

seng 发表了文章 • 2018-08-30 21:30

推荐

2856

浏览

Spark笔记2--Dataset保存为parquet格式遇到的问题

spark天然支持parquet，且其推荐的存储格式就是parquet，但存储时，对其列名有一定的要求：1.列名称不能包含" ,;{}()\n\t=" SparkSession sparkSession = SparkSession.builder().appName("Test")....

_缘君_ 发表了文章 • 2018-08-17 15:49

推荐

4494

浏览

Spark笔记1--以表头创建空的dataset

最近上手Spark相关的项目，实践过程中遇到的几个问题，来此记录下。1.引入maven包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId>...

_缘君_ 发表了文章 • 2018-08-17 14:49

推荐

浏览

qzq1x4 发表了文章 •

更多...

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，

拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，

因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

话题描述

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的... 查看全部

根话题

大数据

最佳回复者

: MarsJ
获得 8 次赞同, 3 次感谢

: regan
获得 3 次赞同, 9 次感谢

: Bob
获得 12 次赞同, 4 次感谢

: 牟瑞
获得 5 次赞同, 0 次感谢

: R语言中文社区
获得 2 次赞同, 0 次感谢

Spark

话题描述

相关话题

根话题

最佳回复者

831 人关注该话题