
大数据
各位前辈,小弟想参与BI的项目
Kylin事实表里的数据怎样更新
求问,有人知道随机森林里面子树变量个数选择上有什么讲究吗?
手机自动化测试IDE ----- 手把手教你用Airtest模拟器来连接手机
dcpeng 发表了文章 • 2021-06-30 09:37
干货|Sqlite数据库知识必知必会(上篇)
dcpeng 发表了文章 • 2021-06-05 21:29
需要做数据汇报,有什么好的工具推荐?
安利一款神奇——教你轻松下载百度网盘超大文件
dcpeng 发表了文章 • 2021-04-25 18:47
HDP中Metrics Collector服务启动后立即终止
spark sql 能建索引吗?
Ubuntu远程连接显示错误Network error Connection refused解决方法
dcpeng 发表了文章 • 2020-12-05 10:57
10万级etl批量处理作业调度工具Taskctl Web应用版0元永久授权使用
ETL批量调度-Taskctl 发表了文章 • 2020-11-24 10:11
有条hiveSql走Tez引擎, 针对mr的配置应该不会生效了吧?
SQL Server Data Tools通过HDFS文件源读取Hadoop文件
ETL基础知识有哪些?3分钟让你轻松搞定
ETL批量调度-Taskctl 发表了文章 • 2020-08-03 16:07
元数据是什么?举例告诉你哪种方式更适合元数据的录入
ETL批量调度-Taskctl 发表了文章 • 2020-07-28 17:12
天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。
王东:greenplum和spark选型如何取舍呢?
同程吴文波:真有这样的方案哦
小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说... 显示全部 »
天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。
王东:greenplum和spark选型如何取舍呢?
同程吴文波:真有这样的方案哦
小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说11R版本的cognos会支持hadoop。
锋:spark现在是不是发展很快。
小小蜗牛爬上墙:看来从传统数据仓库往大数据平台迁移任重道远呀。
天天向上:还是要找到价值点,不能盲目的上大数据。
春宇:传统数据仓库和大数据平台分工不同,列存,MPP能够解决的事情,不见得非得挪到Hadoop上去。
同程吴文波:@大连-K12-王东 怎么想到用spark做olap?
春宇:现在就是觉得系统太多,企业统一化的数据视图更难画了
大米:主要的生产数据还是用主流关系数据库,分析用hadoop是这样理解吗?
王东:@同程吴文波 我就是觉得数据层的东西太多,开发维护成本有点高,所以想用spark解决olap和大数据分析等各种场景
同程吴文波:@大连-K12-王东 试试Hadoop+kylin 或spark+cassandra等组合
王东:我们也打算围绕spark做呢,但是这块儿没实际操作过,比较担心olap的响应速度。
Shadow 杨:@大连-K12-王东 [发呆]多大的数据量,数据量不到一定程度,根本发挥不出来。
王东:@Shadow 杨 事实表千万级别,维度表特别多有上百。
同程吴文波:@大连-K12-王东 你的这些用普通db来构建olap就好
Shadow 杨:@同程吴文波 同意你
天天向上:普通的就可以啊,微软的sass就搞定了。
王东:事实表千万级别greenplum行吗?
同程吴文波:@大连-K12-王东 gp是可以搞定的。但是你的那个数据量用SSAS也就行的。使用SSD 3.2T的+128G内存 或 256G就OK
王东:cognos和ssas是一个量级的么?
春宇:Cognos你用什么?PowerCube?Dynamic Cube?还是TM1?
王东:cognos也没实际用过,这几个cube啥区别啊
春宇:@大连-K12-王东 话题太长,可单聊,但就性价比而言,还是建议你选择SSAS或者开源的OLAP引擎。
2.数据进入到消息队列以后,用flume消费kafka,存储原始数据到hdfs中,保留原始数据作为存档
其次消费kafka的数据并输出到h... 显示全部 »
2.数据进入到消息队列以后,用flume消费kafka,存储原始数据到hdfs中,保留原始数据作为存档
其次消费kafka的数据并输出到hbase集群中。
hbase集群作为你的目标表,与你的原始表在结构上保持一致。这样你就可以进行update insert等操作。
以上是解决实时数据到集群。
3.围绕数据的应用。
hbase集群的外围组件Phoenix 可以提供类似sql的查询,让你不用写原生java api,通过sql进行数据的查询
你的前端呈现可以通过jdbc的方式访问 Phoenix ,使用sql去查询hbase集群中的数据
整个任务调度体系可以使用oozie或zuse等。
在支撑后续的大数据查询方面可以扩展使用kylin等。因为kylin也是可以进行实时的olap操作。

Bob 回答了问题 • 2017-03-30 13:55 • 2 个回复
做大数据大家比较关心哪个方面?优先保证hadoop整个集群的正常运转?快速开发map/reduce?保证数据分析的速度?保证数据分析的准确性?
2.从技术、人力等方面的投入产出是否符合现状
3.整套体系运行起来后的维护人力、时间方面是否是可承受范围
4.对现有的运营效率是否有提升
5.大数据应用有没有扩大到当前系统研发、数据分析和挖掘等方方面面
2.从技术、人力等方面的投入产出是否符合现状
3.整套体系运行起来后的维护人力、时间方面是否是可承受范围
4.对现有的运营效率是否有提升
5.大数据应用有没有扩大到当前系统研发、数据分析和挖掘等方方面面
在传统的工作模式下,即便... 显示全部 »
在传统的工作模式下,即便是ETL也会有不同的分工。Stage/ODS/Mart/DW多层次设计,多维数据建模,可以说完整地分工下来,没有哪个团队按照38个子系统来全面进行。
新的时代已经到来,HADOOP模式下,很多案例粗暴地将所有层次和子系统混杂。用集群的计算能力替代架构设计及分工的作用,这种模式失败的案例居多,但始终是大势所趋。
在这种环境下,传统BI领域的从业者何去何从?
我先简单自我介绍下。十二年正式工作经验,从数据库到数据仓库,从业务到技术,从开发到管理都做过。尽管对于现在大数据相关的技术也有涉猎,但我更加符合一个传统BI从业者的角色。
新的技术浪潮来临,我们会受到冲击吗?
这是毫无疑问的。现在很多案例采用HADOOP架构,不再细致分成,那么以往数据库角色/ETL/存储计算等分工的同学,根本没有条件加入到这种技术选型的团队中。
如果开源大趋势在五年之内成形,这些人现在的工作能力会丧失大部分价值。
直接的体现就是传统架构的团队越来越少,机会越来越难找。新式架构的团队无法进入其中。简而言之,就是饭碗会出现问题。
这么严峻的问题,我给出第一条个人建议:不要给自己设限。
传统数据仓库从业人员,并非ETL工程师,并非建模人员,并非单纯的业务专家。如果已经看出开源是大趋势,就立刻拥抱开源。立即学习、立即尝试、立即应用。需要你做HADOOP就去学习做,需要你用SPARK就立即尝试,需要使用机器学习库就立马行动起来。
在这个崭新的大数据领域,及时的转型,可以拥有强大的优势。
别人不考虑数据体系架构的层次,但你们可以考虑到。预先知道哪里有坑,预先知道项目和业务的紧密结。转型是新人没错,但同为新人,你们的优势体现出来了。
有人担心HADOOP没用过,文档多,主要是英文资料阅读有障碍。没错,不同的技术架构需要改变以前的结构,我遇到很多人不熟悉shell,所以掌握fs shell不容易。有人不熟悉开发语言,所以开发MAP/REDUCE困难。有人英文功底不足,所以阅读很多资料困难。
似乎到处都是困难,没有办法克服是吗?
我们应该回顾下十年前做开始做数据仓库时的局面,真比现在简单吗?
数据仓库的架构没有成形,组件式的ETL遭遇数据量大的问题,莫名其妙的字符集问题,服务器硬件资源极度欠缺的挑战,网络速度极慢还得分电信网通!
这些问题克服的过程中,不需要查询英文资料吗?是不是几乎找不到已有的成功案例参考?是不是也会涉及到不同的开发语言来编写脚本?
现在这些困难,十年前明明已经经历过了!
不同的是现在信息更加发达,大家对压力的反馈有些不一样了。
以前是从业新人,遇到问题就去学习解决,执行力一等一。
现在起码也是个小中层,动口的时间比动手还多,到处听到处说,执行能力反而下滑了。
所以针对这第一条建议,不要给自己定位成某一个角色。即便是和我这样编程能力一般的人,也可以全方位地掌握数据相关能力。这么做,一定会是项目负责人角色,即使是新的技术环境也一样。
第二条建议,重新梳理自己的学习方法。
我们这个年代的人很特别,极有可能成为第一批普遍超过一百岁的人,工作到八十岁,我觉得也不奇怪。
将来还有七十年左右的时间,现在这些大数据的技术,我们是第一批站在这个技术风口上的人。现在学习起来,具备无以伦比的先手优势。
我接触到不少新人,一年前说想学某一块知识,一年后还是想学这块知识。
扯淡。想学的人早都学会转型成功了,动嘴的人一年到头没见行动。看了几本书?翻了多少文档,写了多少笔记,尝试了多少项目?
学习是什么?如果不把这个问题理顺,再过几年就看到很多人不需要转型了。因为机会完全被自己放弃。
一年时间,大数据的任何一个细分领域,作为成年人都有条件从入门者变成中等以上的实践者。其中值得一提的,无非是如何获取高质量的资料。
现在的主流信息是各种电子档,各种视频,各种培训。我比较推崇官方手册,任何计算机相关的资料都是一样的,哪怕只有英文资料。
能把官方手册读完的人,水平差不了。一个领域的应用即便遇到极大的挑战问题,官方手册也是最有资格指明方向的资料。
对于第二条建议,我想说的就是多看资料,详细地看,一遍又一遍地看。多整理笔记,持续不断地整理,大家普遍还有七十年的时间,学习哪个方向时间都是够的。
第三条建议,人以群分。
勤奋的人每天都在努力,懒惰的人一年重复一年。
我感觉现在的社会信息爆炸,有一个很大的作用就是快速给人们划分了层次。
到实际层面来看,就是圈子。越是高端的圈子,越难进入。现在的社会资源,越来越重视知识能力。所以持续学习,是提升圈子品质的一个重要通道。
我接触到很多学霸,他们每天看书学习比其他人时间要长得多。这方面我推崇复旦的思想:“自由而无用的灵魂”,你可以学习没什么商业价值的方向,但不能放弃追求灵魂自由的努力。
先勤奋,然后进入勤奋的圈子,坚持学习,不断改变。大家都看得到现在很多名校学霸只是一个名字,都能引导大量金钱、人力资源配合,他们尚且经常学习到深夜,我们又有什么理由原地等待?
以上是个人一点儿浅薄的想法,希望能给朋友们哪怕一丝的帮助。
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
... 显示全部 »
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
第二中方式是你可以通过SparkUI查看
34999
程序的并行度是由partitions的大小决定的,一个partition对应一个task。可以通过repartions或coalease进行合理的设置
好像说的悲观了。
我觉的吧,首先,你可以不会java,但一定要会SQL,而且还不只是基本的Selece,需要相对高深的SQL功底。
其次,你得懂业务,感觉当前一种思路是:大数据要抛开业务看... 显示全部 »
好像说的悲观了。
我觉的吧,首先,你可以不会java,但一定要会SQL,而且还不只是基本的Selece,需要相对高深的SQL功底。
其次,你得懂业务,感觉当前一种思路是:大数据要抛开业务看数据,这在一些吹牛B的大公司尤其盛行。但我认为,这是一种歪风!
我的理论:做软件要尽可能独立于业务,最牛X的程序是适合于全世界、全行业的程序。但做数据就是做服务,必须无限接近于业务。你做的东西在A市甲单位可用,换到A市方单位,或B市甲单位,即便是同样的原始数据,也必须要调整才能用。
第三,你要有一个好的环境,《大数据时代》有一个理论:在做大数据之前,你不能假设结果,得到的结果很可能是你根本想不到的。
没去过南方公司,但是北方公司,普遍是领导家长制,加以销售引导型。领导开完枪,你屁颠屁颠的跑过去,照着弹孔画个靶心,在这种环境下,你干的是替领导吹的牛B擦屁股的活,没有自己发挥的空间,没有尝试,也不可能有进步。
回答你的问题:
1、用户画像如何设计需要取决于你的画像的业务需求,也就是你为什么要做画像,做了画像要为什么服务?
明确了这些内容... 显示全部 »
回答你的问题:
1、用户画像如何设计需要取决于你的画像的业务需求,也就是你为什么要做画像,做了画像要为什么服务?
明确了这些内容,其实需要有哪些标签也就比较容易梳理了;
2、标签内容和其他数据一样,都以数据的形式保存在数据库当中,和原始数据没有任何区别;部分标签的建设需要构建挖掘模型;
3、每家公司的标签体系建设方法都是类似的,只是说BAT他们拥有更多的数据资源,所以可能构建的标签更全面,但是构建的方法都是一样的。

liutangwow 回答了问题 • 2017-08-09 13:31 • 2 个回复
像spark hadoop这些大数据相关的怎么自我学习,比如说集群 个人电脑条件也不满足 有没有什么云平台可以提供实验环境?
1. 公司支持
公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家... 显示全部 »
1. 公司支持
公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家自主学习使用,这个估计要看具体情况;
公司有没有闲置的机器,都可以利用起来
2. 个人
个人电脑安装VirtualBox之类的虚拟机,开3个虚拟机玩儿就够了,电脑的话配置也就内存8G以上应该足够了,CPU差不多就行了,直接装Linux就行了;
可以使用Docker,可以简单的把他看成虚拟机,找些资料看看,简单使用应该没问题,使用Docker开实例很方便,不像虚拟机那样耗费很多资源
要不开通个阿里云之类的,在云平台上面玩儿,这个价钱不清楚,可以去官网看看

天涯浪子 回答了问题 • 2018-03-07 14:55 • 1 个回复
请问下,anaconda安装包现在有2个版本,我装的是python2.7版本的,现在要装python3.6版本的,是不是得先卸载现在的anaconda呢?
新版本的get_column_letter()和column_indwx_from_string()位置发生了改变,在openpyxl.utils下 from openpyxl.utils import get_... 显示全部 »
新版本的get_column_letter()和column_indwx_from_string()位置发生了改变,在openpyxl.utils下 from openpyxl.utils import get_column_letter
from openpyxl.utils import column_index_from_string 这样引入是可以正常使用的
《人人都会数据分析》20万字电子版
面包君 发表了文章 • 2018-01-03 15:15
《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样
R语言中文社区 发表了文章 • 2017-09-28 09:59
百元问答第1期:大数据时代下,商业智能从业人员(BIer)光明之路在何方?
从大数据舆情传播角度看《三生三世十里桃花》
高长宽 发表了文章 • 2017-02-22 13:48
【PPT干货】一篇神一样的数据分析解读,看完我.....
Jmarry 发表了文章 • 2017-02-22 09:37
从零开始,构建数据化运营体系
秦路 发表了文章 • 2017-02-06 17:34
【20万字500页年刊下载】2016年天善大数据社区年刊精华版
天善智能 发表了文章 • 2017-01-26 13:36
人人可用的数据分析认知计算产品 IBM Watson Analytics 试用体验
lvpin 发表了文章 • 2017-01-21 18:08
蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson
lvpin 发表了文章 • 2017-01-16 11:17
如何基于大数据Hadoop hive来做数据仓库的设计
政府大数据是不是一个伪命题?面临的问题和阻力在哪里?
lvpin 发表了文章 • 2016-12-28 18:15
Friday BI Fly | 2016年10月21日晚8点半微信直播交流在实践中挖掘数据的价值第36场 图文版记录
天善智能 发表了文章 • 2016-10-24 10:30
技术|深入浅出解析大数据Lambda架构
星环科技 发表了文章 • 2016-10-11 11:32
R实现地理位置与经纬度相互转换
华青莲 发表了文章 • 2016-10-10 19:27
百度外卖联合搜狐新闻客户端发布十一大数据 异地点单量激增
在学古筝的程序员 发表了文章 • 2016-10-08 10:59
各位前辈,小弟想参与BI的项目
求问,有人知道随机森林里面子树变量个数选择上有什么讲究吗?
需要做数据汇报,有什么好的工具推荐?
HDP中Metrics Collector服务启动后立即终止
有条hiveSql走Tez引擎, 针对mr的配置应该不会生效了吧?
spark collect(),当数据量比较大时,卡死怎么解决?
通过ODI接口把数据从Oracle数据库抽到HIVE数据库怎么解决
Tableau和BDP,到底哪个才是最符合中国用户使用习惯的可视化分析工具?
Please set $HADOOP_COMMON_HOME to the root of your Hadoop installation
如何去整合多系统间的异构数据呢!利用大数据平台?MAC通过薇信端的认证可取到手机号。
ssas cube增量处理报错了怎么办?
问个问题,能否在不登录的前提下,爬取网页里面的数据?
BIEE11g无法启动,提示BEA-101020错误
关于使用spark做olap靠谱么?有没有成熟案例?
手机自动化测试IDE ----- 手把手教你用Airtest模拟器来连接手机
dcpeng 发表了文章 • 2021-06-30 09:37
干货|Sqlite数据库知识必知必会(上篇)
dcpeng 发表了文章 • 2021-06-05 21:29
安利一款神奇——教你轻松下载百度网盘超大文件
dcpeng 发表了文章 • 2021-04-25 18:47
Ubuntu远程连接显示错误Network error Connection refused解决方法
dcpeng 发表了文章 • 2020-12-05 10:57
10万级etl批量处理作业调度工具Taskctl Web应用版0元永久授权使用
ETL批量调度-Taskctl 发表了文章 • 2020-11-24 10:11
ETL基础知识有哪些?3分钟让你轻松搞定
ETL批量调度-Taskctl 发表了文章 • 2020-08-03 16:07
元数据是什么?举例告诉你哪种方式更适合元数据的录入
ETL批量调度-Taskctl 发表了文章 • 2020-07-28 17:12
大数据与批量调度的紧密关系
ETL批量调度-Taskctl 发表了文章 • 2020-07-21 15:26
新手一看就秒懂的数据挖掘的10大算法
ETL批量调度-Taskctl 发表了文章 • 2020-07-20 14:39
遇到问题,没有解决思路怎么办?
猴子聊人物 发表了文章 • 2020-01-07 18:14
这5个问题可以帮助你快速了解一家公司
猴子聊人物 发表了文章 • 2019-12-30 12:36
图解面试题:多表如何查询?
猴子聊人物 发表了文章 • 2019-12-27 15:54
你是如何善待自己时间的?
猴子聊人物 发表了文章 • 2019-12-25 17:42
感情和工作真的不能将就
猴子聊人物 发表了文章 • 2019-12-23 17:52