Spark
各位前辈,小弟想参与BI的项目
求问,有人知道随机森林里面子树变量个数选择上有什么讲究吗?
手机自动化测试IDE ----- 手把手教你用Airtest模拟器来连接手机
dcpeng 发表了文章 • 2021-06-30 09:37
干货|Sqlite数据库知识必知必会(上篇)
dcpeng 发表了文章 • 2021-06-05 21:29
需要做数据汇报,有什么好的工具推荐?
安利一款神奇——教你轻松下载百度网盘超大文件
dcpeng 发表了文章 • 2021-04-25 18:47
HDP中Metrics Collector服务启动后立即终止
spark sql 能建索引吗?
Ubuntu远程连接显示错误Network error Connection refused解决方法
dcpeng 发表了文章 • 2020-12-05 10:57
10万级etl批量处理作业调度工具Taskctl Web应用版0元永久授权使用
ETL批量调度-Taskctl 发表了文章 • 2020-11-24 10:11
有条hiveSql走Tez引擎, 针对mr的配置应该不会生效了吧?
SQL Server Data Tools通过HDFS文件源读取Hadoop文件
ETL基础知识有哪些?3分钟让你轻松搞定
ETL批量调度-Taskctl 发表了文章 • 2020-08-03 16:07
元数据是什么?举例告诉你哪种方式更适合元数据的录入
ETL批量调度-Taskctl 发表了文章 • 2020-07-28 17:12
大数据与批量调度的紧密关系
ETL批量调度-Taskctl 发表了文章 • 2020-07-21 15:26
天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。
王东:greenplum和spark选型如何取舍呢?
同程吴文波:真有这样的方案哦
小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说... 显示全部 »
天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。
王东:greenplum和spark选型如何取舍呢?
同程吴文波:真有这样的方案哦
小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说11R版本的cognos会支持hadoop。
锋:spark现在是不是发展很快。
小小蜗牛爬上墙:看来从传统数据仓库往大数据平台迁移任重道远呀。
天天向上:还是要找到价值点,不能盲目的上大数据。
春宇:传统数据仓库和大数据平台分工不同,列存,MPP能够解决的事情,不见得非得挪到Hadoop上去。
同程吴文波:@大连-K12-王东 怎么想到用spark做olap?
春宇:现在就是觉得系统太多,企业统一化的数据视图更难画了
大米:主要的生产数据还是用主流关系数据库,分析用hadoop是这样理解吗?
王东:@同程吴文波 我就是觉得数据层的东西太多,开发维护成本有点高,所以想用spark解决olap和大数据分析等各种场景
同程吴文波:@大连-K12-王东 试试Hadoop+kylin 或spark+cassandra等组合
王东:我们也打算围绕spark做呢,但是这块儿没实际操作过,比较担心olap的响应速度。
Shadow 杨:@大连-K12-王东 [发呆]多大的数据量,数据量不到一定程度,根本发挥不出来。
王东:@Shadow 杨 事实表千万级别,维度表特别多有上百。
同程吴文波:@大连-K12-王东 你的这些用普通db来构建olap就好
Shadow 杨:@同程吴文波 同意你
天天向上:普通的就可以啊,微软的sass就搞定了。
王东:事实表千万级别greenplum行吗?
同程吴文波:@大连-K12-王东 gp是可以搞定的。但是你的那个数据量用SSAS也就行的。使用SSD 3.2T的+128G内存 或 256G就OK
王东:cognos和ssas是一个量级的么?
春宇:Cognos你用什么?PowerCube?Dynamic Cube?还是TM1?
王东:cognos也没实际用过,这几个cube啥区别啊
春宇:@大连-K12-王东 话题太长,可单聊,但就性价比而言,还是建议你选择SSAS或者开源的OLAP引擎。
Bob 回答了问题 • 2017-03-14 13:24 • 2 个回复
国内大多互联网公司的大数据工程师实习都是需要大数据项目经验,怎么样在自己研究方向不是数据科学和ml相关的情况下接触到hadoop,spark相关项目呢?
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
多逛大数据的问答社区
主动参与到其他的项目,哪怕是打杂都是可以的。学习这些项目的实际运作流程
34913
34913
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
... 显示全部 »
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
第二中方式是你可以通过SparkUI查看
34999
程序的并行度是由partitions的大小决定的,一个partition对应一个task。可以通过repartions或coalease进行合理的设置
regan 回答了问题 • 2017-08-30 10:23 • 2 个回复
spark从mysql读取数据,根据日期放在hive里面,产生了好多小文件,现在通过DataSet.coalesce()合并小文件,导致写入速度非常慢,各位大神有啥其他方法
liutangwow 回答了问题 • 2017-08-09 13:31 • 2 个回复
像spark hadoop这些大数据相关的怎么自我学习,比如说集群 个人电脑条件也不满足 有没有什么云平台可以提供实验环境?
1. 公司支持
公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家... 显示全部 »
1. 公司支持
公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家自主学习使用,这个估计要看具体情况;
公司有没有闲置的机器,都可以利用起来
2. 个人
个人电脑安装VirtualBox之类的虚拟机,开3个虚拟机玩儿就够了,电脑的话配置也就内存8G以上应该足够了,CPU差不多就行了,直接装Linux就行了;
可以使用Docker,可以简单的把他看成虚拟机,找些资料看看,简单使用应该没问题,使用Docker开实例很方便,不像虚拟机那样耗费很多资源
要不开通个阿里云之类的,在云平台上面玩儿,这个价钱不清楚,可以去官网看看
天桥下的郑成功 回答了问题 • 2018-03-03 14:53 • 2 个回复
请教一下大家:假设我有一个spark streaming提供实时求和计算服务,前端往作为数据源的kafka里推送了一条“3+2”,那么结果“5”如何返回给前端,大家都是怎么实现的?
比如
spark 接收 kafka数据
spark 如何处理数据
处理完后如何保存数据
如何推送到前端显示
比如
spark 接收 kafka数据
spark 如何处理数据
处理完后如何保存数据
如何推送到前端显示
2. 如果不是用自动化 script,而是手动按照指令操作,请确保环境变数设置正常
3. 错误讯息建议贴完整的,单贴片段很难确认错误.
4. 其他各种报错的处理方式可以参考这篇 https://ww... 显示全部 »
2. 如果不是用自动化 script,而是手动按照指令操作,请确保环境变数设置正常
3. 错误讯息建议贴完整的,单贴片段很难确认错误.
4. 其他各种报错的处理方式可以参考这篇 https://www.jianshu.com/p/d9cb284f842d
《人人都会数据分析》20万字电子版
面包君 发表了文章 • 2018-01-03 15:15
《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样
R语言中文社区 发表了文章 • 2017-09-28 09:59
百元问答第1期:大数据时代下,商业智能从业人员(BIer)光明之路在何方?
从大数据舆情传播角度看《三生三世十里桃花》
高长宽 发表了文章 • 2017-02-22 13:48
【PPT干货】一篇神一样的数据分析解读,看完我.....
Jmarry 发表了文章 • 2017-02-22 09:37
从零开始,构建数据化运营体系
秦路 发表了文章 • 2017-02-06 17:34
【20万字500页年刊下载】2016年天善大数据社区年刊精华版
天善智能 发表了文章 • 2017-01-26 13:36
人人可用的数据分析认知计算产品 IBM Watson Analytics 试用体验
lvpin 发表了文章 • 2017-01-21 18:08
蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson
lvpin 发表了文章 • 2017-01-16 11:17
如何基于大数据Hadoop hive来做数据仓库的设计
政府大数据是不是一个伪命题?面临的问题和阻力在哪里?
lvpin 发表了文章 • 2016-12-28 18:15
Friday BI Fly | 2016年10月21日晚8点半微信直播交流在实践中挖掘数据的价值第36场 图文版记录
天善智能 发表了文章 • 2016-10-24 10:30
技术|深入浅出解析大数据Lambda架构
星环科技 发表了文章 • 2016-10-11 11:32
R实现地理位置与经纬度相互转换
华青莲 发表了文章 • 2016-10-10 19:27
百度外卖联合搜狐新闻客户端发布十一大数据 异地点单量激增
在学古筝的程序员 发表了文章 • 2016-10-08 10:59
HDP中Metrics Collector服务启动后立即终止
spark sql 能建索引吗?
spark collect(),当数据量比较大时,卡死怎么解决?
Hive初始化mysql不起作用
关于使用spark做olap靠谱么?有没有成熟案例?
请教一下大家:假设我有一个spark streaming提供实时求和计算服务,前端往作为数据源的kafka里推送了一条“3+2”,那么结果“5”如何返回给前端,大家都是怎么实现的?
spark从mysql读取数据,根据日期放在hive里面,产生了好多小文件,现在通过DataSet.coalesce()合并小文件,导致写入速度非常慢,各位大神有啥其他方法
请教一下如何在anaconda-navigator上安装pyspark?
国内大多互联网公司的大数据工程师实习都是需要大数据项目经验,怎么样在自己研究方向不是数据科学和ml相关的情况下接触到hadoop,spark相关项目呢?
kylin 2.1 对应的spark版本啥多少的?
请问spark history server配置的日志跟用log4j配置的日志有什么区别啊?
请问 要用rhadoop,sparkR包,必须在linux环境下的R吗?
请问一下,你们做hadoop mr的时候是在本地开发还是在虚拟机上开发的?
像spark hadoop这些大数据相关的怎么自我学习,比如说集群 个人电脑条件也不满足 有没有什么云平台可以提供实验环境?
谁有spark+kafka+flume日志系统的文档(需求分析、概要设计,详细设计等等)
利用 Spark 和 scikit-learn 将你的模型训练加快 100 倍
数智物语 发表了文章 • 2019-09-24 16:28
Spark SQL 概述
攻城的狮子 发表了文章 • 2019-09-03 13:43
Spark概述及安装
攻城的狮子 发表了文章 • 2019-09-03 10:11
数据挖掘之Spark学习
DataFrog 发表了文章 • 2019-08-28 19:31
30分钟理解Spark的基本原理
数智物语 发表了文章 • 2019-07-17 17:38
Sparklyr与Docker的推荐系统实战
R语言中文社区 发表了文章 • 2019-04-08 10:03
sparklyr 1.0发布,有哪些新功能?
R语言中文社区 发表了文章 • 2019-03-18 09:39
spark中df, rdd, list 转换
safa 发表了文章 • 2019-01-11 15:19
通过jdbc读取OBIEE数据--Spark示例
seng 发表了文章 • 2018-12-06 17:01
Spark Structured Streaming的一些link
seng 发表了文章 • 2018-11-09 15:06
无缝对接Spark与R:Sparklyr系列—探讨属于数据科学家的Spark
R语言中文社区 发表了文章 • 2018-10-30 15:14
SparkStreaming下Python报net.jpountz.lz4.LZ4BlockInputStream的解决
seng 发表了文章 • 2018-08-30 21:30
Spark笔记2--Dataset保存为parquet格式遇到的问题
_缘君_ 发表了文章 • 2018-08-17 15:49
Spark笔记1--以表头创建空的dataset
_缘君_ 发表了文章 • 2018-08-17 14:49
拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,
因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法