大数据

投票

回答

2998

浏览

各位前辈，小弟想参与BI的项目

BIEE 机器学习数据分析数据挖掘数据仓库人工智能大数据 ETL 商业智能

yaogunjita 发起了问题 • 2017-02-17 10:30

投票

回答

2558

浏览

Kylin事实表里的数据怎样更新

kylin

jjf 发起了问题 • 2018-04-28 14:07

投票

回答

7076

浏览

求问，有人知道随机森林里面子树变量个数选择上有什么讲究吗？

统计学大数据

rahjjhgff 发起了问题 • 2018-04-04 16:59

推荐

3206

浏览

手机自动化测试IDE ----- 手把手教你用Airtest模拟器来连接手机

大家好，我是IT共享者，人称皮皮。上篇文章讲了Airtest的安装和IDE控件详解相关知识，手机自动化测试IDE-----Airtest基本操作方法、手机自动化测试IDE ----- Airtest的安装和IDE控件详解，这篇文章来给大家分享用...

dcpeng 发表了文章 • 2021-06-30 09:37

推荐

1574

浏览

干货|Sqlite数据库知识必知必会（上篇）

大家好，我是IT共享者，人称皮皮。前面几天给大家分享了MySQL数据库知识，没来得及看的小伙伴可以前往：Mysql查询语句进阶知识集锦，一篇文章教会你进行Mysql数据库和数据表的基本操作，关于数据库的安装可以参考...

dcpeng 发表了文章 • 2021-06-05 21:29

投票

回答

5078

浏览

需要做数据汇报，有什么好的工具推荐？

贡献

商业智能大数据数据分析

数据人回复了问题 • 2021-05-08 13:40

推荐

1082

浏览

安利一款神奇——教你轻松下载百度网盘超大文件

前言玩过百度网盘的都应该清楚它的强大，小编就是靠着百度网盘那强大的功能以及变态的存储空间才获得许多具有纪念价值的东西，比如某些Hacker资料，你懂的。但是小编一直以来都有一个心结未解开，那就是为毛每次...

dcpeng 发表了文章 • 2021-04-25 18:47

投票

回答

2317

浏览

HDP中Metrics Collector服务启动后立即终止

Spark Hive HBASE Hadoop 大数据

袁某某发起了问题 • 2020-12-16 11:30

投票

已解决

2980

浏览

spark sql 能建索引吗？

贡献

Spark

TyrenXu 回复了问题 • 2021-03-22 16:16

推荐

1438

浏览

Ubuntu远程连接显示错误Network error Connection refused解决方法

之前在通过Filezilla往虚拟机或者服务器上传送文件的时候都是十分顺利的，不过最近老是遇到“错误:Network error: Connection refused”，如下图所示。此外还有“错误: 认证失败。”的错误，如下图所示，从而导致“错...

dcpeng 发表了文章 • 2020-12-05 10:57

推荐

1987

浏览

10万级etl批量处理作业调度工具Taskctl Web应用版0元永久授权使用

软件下载：关注公众号：【Taskctl】关键字回复 "领取" 或 "软件" 即可获得认识 Taskctl-webTASKCTL 遵循软件产品标准化的原则，以“专业、专注”为设计理念，结合ETL 调度领域自身的...

ETL批量调度-Taskctl 发表了文章 • 2020-11-24 10:11

投票

回答

2299

浏览

有条hiveSql走Tez引擎, 针对mr的配置应该不会生效了吧?

贡献

Hive 大数据

meituan 回复了问题 • 2020-09-24 14:09

投票

回答

1480

浏览

SQL Server Data Tools通过HDFS文件源读取Hadoop文件

Hadoop SSIS ETL

LeoGYQ 回复了问题 • 2020-08-14 11:22

推荐

1488

浏览

ETL基础知识有哪些？3分钟让你轻松搞定

ETL发展的历史背景随着企业的发展，各业务线、产品线、部门都会承建各种信息化系统方便开展自己的业务。随着信息化建设的不断深入，由于业务系统之间各自为政、相互独立造成的数据孤岛”现象尤为普遍，业务不集成...

ETL批量调度-Taskctl 发表了文章 • 2020-08-03 16:07

推荐

1486

浏览

元数据是什么？举例告诉你哪种方式更适合元数据的录入

元数据，一个简单的定义是描述数据的数据。在企业中，无论哪里有数据，都有相应的元数据。只有存在完整而准确的元数据，我们才能更好地理解数据并充分利用数据的价值。为了让大家更好地了解什么是元数据，TaskCtl...

ETL批量调度-Taskctl 发表了文章 • 2020-07-28 17:12

天善智能回答了问题 • 2015-12-06 19:19 • 4 个回复不感兴趣

关于使用spark做olap靠谱么？有没有成熟案例？

同程吴文波：spark做olap？

天天向上：@大连-K12-王东 spark现在还是一种计算框架　。。

王东：greenplum和spark选型如何取舍呢？

同程吴文波：真有这样的方案哦

小小蜗牛爬上墙：olap用cognos，ibm推广较好的，据说... 显示全部 »

同程吴文波：spark做olap？

天天向上：@大连-K12-王东 spark现在还是一种计算框架　。。

王东：greenplum和spark选型如何取舍呢？

同程吴文波：真有这样的方案哦

小小蜗牛爬上墙：olap用cognos，ibm推广较好的，据说11R版本的cognos会支持hadoop。

锋：spark现在是不是发展很快。

小小蜗牛爬上墙：看来从传统数据仓库往大数据平台迁移任重道远呀。

天天向上：还是要找到价值点，不能盲目的上大数据。

春宇：传统数据仓库和大数据平台分工不同，列存，MPP能够解决的事情，不见得非得挪到Hadoop上去。

同程吴文波：@大连-K12-王东怎么想到用spark做olap？

春宇：现在就是觉得系统太多，企业统一化的数据视图更难画了

大米：主要的生产数据还是用主流关系数据库，分析用hadoop是这样理解吗？

王东：@同程吴文波我就是觉得数据层的东西太多，开发维护成本有点高，所以想用spark解决olap和大数据分析等各种场景

同程吴文波：@大连-K12-王东试试Hadoop+kylin 或spark+cassandra等组合

王东：我们也打算围绕spark做呢，但是这块儿没实际操作过，比较担心olap的响应速度。

Shadow 杨：@大连-K12-王东 [发呆]多大的数据量，数据量不到一定程度，根本发挥不出来。

王东：@Shadow 杨事实表千万级别，维度表特别多有上百。

同程吴文波：@大连-K12-王东你的这些用普通db来构建olap就好

Shadow 杨：@同程吴文波同意你

天天向上：普通的就可以啊，微软的sass就搞定了。

王东：事实表千万级别greenplum行吗？

同程吴文波：@大连-K12-王东 gp是可以搞定的。但是你的那个数据量用SSAS也就行的。使用SSD 3.2T的+128G内存或 256G就OK

王东：cognos和ssas是一个量级的么？

春宇：Cognos你用什么？PowerCube?Dynamic Cube?还是TM1？

王东：cognos也没实际用过，这几个cube啥区别啊

春宇：@大连-K12-王东话题太长，可单聊，但就性价比而言，还是建议你选择SSAS或者开源的OLAP引擎。

MarsJ 回答了问题 • 2016-04-08 15:36 • 2 个回复不感兴趣

spark collect()，当数据量比较大时，卡死怎么解决？

collect是直接将执行collect的这个RDD是数据加载到内存中执行，如果数据量太大必然会卡死，所以唯一能建议的就是合理使用collect，不要滥用。

沐怀远回答了问题 • 2016-12-22 09:15 • 3 个回复不感兴趣

请问一下，hive有没有客户端或可视化工具。我在网上找了一下，没有找到

SQuirrel Sql Client ,这个可以在Windows下对hive进行操作。或者下载Windows下的Hadoop，然后解压就行

Bob 回答了问题 • 2017-03-28 15:53 • 3 个回复不感兴趣

大数据实时解决方案

1.在数据源方面则尽量去实时收集。可以让他们主动向你的消息队列中写入数据，也可以部署flume去主动收集他们的日志数据。
2.数据进入到消息队列以后，用flume消费kafka，存储原始数据到hdfs中，保留原始数据作为存档
其次消费kafka的数据并输出到h... 显示全部 »

Bob 回答了问题 • 2017-03-30 13:55 • 2 个回复不感兴趣

做大数据大家比较关心哪个方面？优先保证hadoop整个集群的正常运转？快速开发map/reduce？保证数据分析的速度？保证数据分析的准确性？

1.能不能达到领导的目标和期望
2.从技术、人力等方面的投入产出是否符合现状
3.整套体系运行起来后的维护人力、时间方面是否是可承受范围
4.对现有的运营效率是否有提升
5.大数据应用有没有扩大到当前系统研发、数据分析和挖掘等方方面面

whbjob 回答了问题 • 2017-04-01 12:10 • 11 个回复不感兴趣

百元问答第1期：大数据时代下，商业智能从业人员（BIer）光明之路在何方？

商业智能是传统数据仓库解决方案的延伸，不同的分工也是依据经典数据仓库的设计而来。其中主要设计到数据库、ETL、存储计算、可视化，还有业务专家角色的分析师团队。元数据管理、测试校验、监控部署，架构建模，不同的团队也会选择性地部分构架。

在传统的工作模式下，即便... 显示全部 »

商业智能是传统数据仓库解决方案的延伸，不同的分工也是依据经典数据仓库的设计而来。其中主要设计到数据库、ETL、存储计算、可视化，还有业务专家角色的分析师团队。元数据管理、测试校验、监控部署，架构建模，不同的团队也会选择性地部分构架。

在传统的工作模式下，即便是ETL也会有不同的分工。Stage/ODS/Mart/DW多层次设计，多维数据建模，可以说完整地分工下来，没有哪个团队按照38个子系统来全面进行。

新的时代已经到来，HADOOP模式下，很多案例粗暴地将所有层次和子系统混杂。用集群的计算能力替代架构设计及分工的作用，这种模式失败的案例居多，但始终是大势所趋。

在这种环境下，传统BI领域的从业者何去何从？

我先简单自我介绍下。十二年正式工作经验，从数据库到数据仓库，从业务到技术，从开发到管理都做过。尽管对于现在大数据相关的技术也有涉猎，但我更加符合一个传统BI从业者的角色。

新的技术浪潮来临，我们会受到冲击吗？

这是毫无疑问的。现在很多案例采用HADOOP架构，不再细致分成，那么以往数据库角色/ETL/存储计算等分工的同学，根本没有条件加入到这种技术选型的团队中。

如果开源大趋势在五年之内成形，这些人现在的工作能力会丧失大部分价值。

直接的体现就是传统架构的团队越来越少，机会越来越难找。新式架构的团队无法进入其中。简而言之，就是饭碗会出现问题。

这么严峻的问题，我给出第一条个人建议：不要给自己设限。

传统数据仓库从业人员，并非ETL工程师，并非建模人员，并非单纯的业务专家。如果已经看出开源是大趋势，就立刻拥抱开源。立即学习、立即尝试、立即应用。需要你做HADOOP就去学习做，需要你用SPARK就立即尝试，需要使用机器学习库就立马行动起来。

在这个崭新的大数据领域，及时的转型，可以拥有强大的优势。

别人不考虑数据体系架构的层次，但你们可以考虑到。预先知道哪里有坑，预先知道项目和业务的紧密结。转型是新人没错，但同为新人，你们的优势体现出来了。

有人担心HADOOP没用过，文档多，主要是英文资料阅读有障碍。没错，不同的技术架构需要改变以前的结构，我遇到很多人不熟悉shell，所以掌握fs shell不容易。有人不熟悉开发语言，所以开发MAP/REDUCE困难。有人英文功底不足，所以阅读很多资料困难。

似乎到处都是困难，没有办法克服是吗？

我们应该回顾下十年前做开始做数据仓库时的局面，真比现在简单吗？

数据仓库的架构没有成形，组件式的ETL遭遇数据量大的问题，莫名其妙的字符集问题，服务器硬件资源极度欠缺的挑战，网络速度极慢还得分电信网通！

这些问题克服的过程中，不需要查询英文资料吗？是不是几乎找不到已有的成功案例参考？是不是也会涉及到不同的开发语言来编写脚本？

现在这些困难，十年前明明已经经历过了！

不同的是现在信息更加发达，大家对压力的反馈有些不一样了。

以前是从业新人，遇到问题就去学习解决，执行力一等一。

现在起码也是个小中层，动口的时间比动手还多，到处听到处说，执行能力反而下滑了。

所以针对这第一条建议，不要给自己定位成某一个角色。即便是和我这样编程能力一般的人，也可以全方位地掌握数据相关能力。这么做，一定会是项目负责人角色，即使是新的技术环境也一样。

第二条建议，重新梳理自己的学习方法。

我们这个年代的人很特别，极有可能成为第一批普遍超过一百岁的人，工作到八十岁，我觉得也不奇怪。

将来还有七十年左右的时间，现在这些大数据的技术，我们是第一批站在这个技术风口上的人。现在学习起来，具备无以伦比的先手优势。

我接触到不少新人，一年前说想学某一块知识，一年后还是想学这块知识。

扯淡。想学的人早都学会转型成功了，动嘴的人一年到头没见行动。看了几本书？翻了多少文档，写了多少笔记，尝试了多少项目？

学习是什么？如果不把这个问题理顺，再过几年就看到很多人不需要转型了。因为机会完全被自己放弃。

一年时间，大数据的任何一个细分领域，作为成年人都有条件从入门者变成中等以上的实践者。其中值得一提的，无非是如何获取高质量的资料。

现在的主流信息是各种电子档，各种视频，各种培训。我比较推崇官方手册，任何计算机相关的资料都是一样的，哪怕只有英文资料。

能把官方手册读完的人，水平差不了。一个领域的应用即便遇到极大的挑战问题，官方手册也是最有资格指明方向的资料。

对于第二条建议，我想说的就是多看资料，详细地看，一遍又一遍地看。多整理笔记，持续不断地整理，大家普遍还有七十年的时间，学习哪个方向时间都是够的。

第三条建议，人以群分。

勤奋的人每天都在努力，懒惰的人一年重复一年。

我感觉现在的社会信息爆炸，有一个很大的作用就是快速给人们划分了层次。

到实际层面来看，就是圈子。越是高端的圈子，越难进入。现在的社会资源，越来越重视知识能力。所以持续学习，是提升圈子品质的一个重要通道。

我接触到很多学霸，他们每天看书学习比其他人时间要长得多。这方面我推崇复旦的思想：“自由而无用的灵魂”，你可以学习没什么商业价值的方向，但不能放弃追求灵魂自由的努力。

先勤奋，然后进入勤奋的圈子，坚持学习，不断改变。大家都看得到现在很多名校学霸只是一个名字，都能引导大量金钱、人力资源配合，他们尚且经常学习到深夜，我们又有什么理由原地等待？

以上是个人一点儿浅薄的想法，希望能给朋友们哪怕一丝的帮助。

regan 回答了问题 • 2017-04-06 10:42 • 2 个回复不感兴趣

spark中如何看有多少个并发的task啊

你可以通过rdd.partitions.size在程序里面查看，比较方便的是你可以在spark-shell中
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
... 显示全部 »

JIELEE 回答了问题 • 2017-05-11 09:38 • 1 个回复不感兴趣

如何学习大数据，不从代码角度考虑？

我不懂写代码，Java都不会，我感觉我在这行里都是混日子，

好像说的悲观了。

我觉的吧，首先，你可以不会java，但一定要会SQL，而且还不只是基本的Selece，需要相对高深的SQL功底。

其次，你得懂业务，感觉当前一种思路是：大数据要抛开业务看... 显示全部 »

饼干君回答了问题 • 2017-06-08 14:17 • 1 个回复不感兴趣

请问谁了解大数据的标签体系如何设计

标签体系不是一个产品功能，而是基于业务需求的一套指标体系，只是这套指标体系中有很多内容是通过计算和数据加工而得到，不是直接采集的。
回答你的问题：
1、用户画像如何设计需要取决于你的画像的业务需求，也就是你为什么要做画像，做了画像要为什么服务？
明确了这些内容... 显示全部 »

regan 回答了问题 • 2017-06-16 10:11 • 1 个回复不感兴趣

spark 里面，如何并行插入数据到数据库的不同表，表结构一样

使用rdd上的randomSplit方法，将一个RDD随机拆分成多个RDD，randomSplit方法返回一个rdd数组，遍历数组，取出每个rdd，toDF后，使用jdbc方法写入数据库，遍历过程中制定一个随机的选库策略，这样就将rdd内容写入到了相同的数据... 显示全部 »

liutangwow 回答了问题 • 2017-08-09 13:31 • 2 个回复不感兴趣

像spark hadoop这些大数据相关的怎么自我学习，比如说集群个人电脑条件也不满足有没有什么云平台可以提供实验环境？

目前我好想没有听说过有这样的平台，要学习的话，我觉得有这样的几个建议：
1. 公司支持
公司技术迭代，需要使用Hadoop、Spark，那肯定会提供测试环境等一切资源，那就很方便了；
公司没有需求，那是否可以和上级领导反馈下，申请测试环境供大家... 显示全部 »

ajam23 回答了问题 • 2017-09-29 10:44 • 1 个回复不感兴趣

kettle把oracle数据插入到HIVE表中，速度很慢，请问如何解决？

导出文本文件直接上传hdfs

Vincent_lu 回答了问题 • 2017-11-20 10:50 • 1 个回复不感兴趣

BIEE可以对透视表的结果进行计算么？

a和b在RPD设置聚合规则是sum时，新建字段c=a/b，默认得到的结果就是sum(a)/sum（b），如果你要sum(a/b)反而要特殊处理，在源写公式

天涯浪子回答了问题 • 2018-03-07 14:55 • 1 个回复不感兴趣

请问下，anaconda安装包现在有2个版本，我装的是python2.7版本的，现在要装python3.6版本的，是不是得先卸载现在的anaconda呢？

不需要，可以共存。3.6的可以通过conda选择所处python环境 win7下python2和python3共存问题 https://ask.hellobi.com/blog/zhangshining52/6434 https://ask.hel... 显示全部 »

我是窦之：工作已经一个月了，回想找工作的种种经历，感慨良多。今年6月离职，脱离工作的日子是新鲜的亦是放松的，西藏一游，洗涤心灵，感慨良多。7月初投了几份简历，面试时方觉所知甚少，机会亦少，值得投入新...

猴子聊人物发表了文章 • 2019-12-23 17:52

更多...

从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。

话题描述

从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。前文提到的... 查看全部

最佳回复者

: 牟瑞
获得 91 次赞同, 11 次感谢

: Bob
获得 39 次赞同, 13 次感谢

: MarsJ
获得 20 次赞同, 13 次感谢

: seng
获得 18 次赞同, 1 次感谢

: GeorgeYao
获得 3 次赞同, 1 次感谢

大数据

话题描述

相关话题

最佳回复者

1860 人关注该话题