大数据

大数据

0
推荐
22
浏览

从失败中学到的那些事

​我是张小安:早就想记录一下自己2个月找工作的经历,入职新工作的新鲜感与给自己放松的时间拖到现在。决定辞职换工作的前就要开始审视我一年的工作。如何填满一页的简历纸,我做了什么,有哪些成绩,哪些是可以...

猴子聊人物 发表了文章 • 10 小时前

0
推荐
25
浏览

签约 | 数据驱动便利店行业持续增长,观远数据为「新佳宜」打造决策大脑

从90年代进入中国市场,经过20多年的发展,中国便利店已经度过了尴尬生存期,并在新技术新概念和资本的助推下保持着稳定的增长速度,成为零售领域最受欢迎的业态之一。  近日,湖南省数量最多的连锁便...

观远数据 发表了文章 • 13 小时前

0
推荐
35
浏览

电子商务数据分析

​通过具体的项目案例,学习面对数据和业务问题,如何去展开分析。下面是社群会员的作业,本文最后会给出项目的修改意见,通过本项目提高你的分析思维。一.背景介绍这是Olist Store制作的巴西电子商务公共数据集。...

猴子聊人物 发表了文章 • 1 天前

0
推荐
36
浏览

受邀沃尔玛全球CMO/COO峰会,观远引领社区生鲜预测实践

从单一的温饱型消费到多元化营养调剂型消费,人们对生鲜产品的需求日益增加。然而,生鲜产品要经过生产、采摘、物流、销售多道程序才能到达消费者手中,在人们尝到最新鲜的产品之前也免不了各种浪费。为了减少资...

观远数据 发表了文章 • 1 天前

0
推荐
84
浏览

2019诺贝尔经济学奖得主:贫穷的本质是什么?

​2019年诺贝尔经济学奖,颁给了来自麻省理工学院的 阿巴希·巴纳吉(Abhijit Vinayak Banerjee)、艾丝特·杜芙若(Esther Duflo)夫妇和哈佛的 迈克尔·克默(Michael Robert Kremer)。夫妻同时获诺贝尔...

猴子聊人物 发表了文章 • 4 天前

0
推荐
43
浏览

今夜,大数据带你了解当代青年加班狗

“我累得像只狗,十八天没有卸妆,月抛带了两年半,作息紊乱,我却越来越胖,起来征战北五环。”上海彩虹室内合唱团一首《感觉身体被掏空》成为多少加班狗的内心BGM。中国加班有多疯狂?今年3月,国家统计局数据显...

企业数据化管理 发表了文章 • 5 天前

0
推荐
63
浏览

最全的机器学习入门资料

上次我推荐了学习数据分析要看哪些书:数据分析有哪些好书值得推荐?这次推荐的是机器学习入门要看的书。我们从下面3步详细看下如何去学习。第1步:基础知识学习机器学习需要具备数学和编程基础。1)数学理论:微...

猴子聊人物 发表了文章 • 5 天前

0
推荐
80
浏览

贷款用户画像分析

通过具体的项目案例,学习面对数据和业务问题,如何去展开分析。下面是社群会员的作业,本文最后会给出项目的修改意见,通过本项目提高你的分析思维。一.项目数据介绍数据来自拍拍贷真实业务数据。拍拍贷是美国纽...

猴子聊人物 发表了文章 • 2019-10-08 17:51

0
推荐
67
浏览

银行业大数据量清单报表案例

【摘要】银行数据查询业务中,经常会碰到数据量很大的清单报表。由于用户输入的查询条件可能很宽泛,因此会从数据库中查出几百上千万甚至过亿行的记录,比如银行流水记录;为了避免内存溢出,一般都会使用关系型...

润乾软件 发表了文章 • 2019-10-08 17:27

0
推荐
107
浏览

持续热搜霸屏!中国女排10次斩获世界冠军,背后的数据分析有多重要?

盼望着,盼望着,国庆节终于要到了大庆的氛围越来越浓祖国70周年庆典热度持续霸屏而昨天各大媒体平台却被中国女排刷屏了中国女排夺金时刻9月28日,中国女排3:0战胜塞尔维亚队以十连胜提前一轮迎来第十个世界大赛...

永洪科技 发表了文章 • 2019-09-29 18:41

0
推荐
126
浏览

揭秘 | 40岁老品牌菲安妮,如何在风雨飘摇的快时尚领域勇立潮头

 40年,对于很多快时尚品牌来说是一道跨不去的坎。潮流在变,消费者在变,消费方式在变,而同样是有40年历史的FION菲安妮(以下统称“菲安妮”),为什么依然可以站在“快时尚”领域的潮头?是品牌过硬、渠道建...

观远数据 发表了文章 • 2019-09-25 11:31

0
推荐
162
浏览

什么是新增用户、活跃用户、留存用户?

​在很多产品里都对应3种用户(新增用户、活跃用户、留存用户),搞清楚他们的概念和区别,对于运营和分析都非常有帮助。那什么是新增用户,活跃用户,留存用户呢?如果把一款产品看作我的一个鱼塘,那么使用产品...

猴子聊人物 发表了文章 • 2019-09-24 16:30

0
推荐
166
浏览

利用 Spark 和 scikit-learn 将你的模型训练加快 100 倍

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | AI开发者(okweiwu)作者 | skura在 Ibotta,我们训练了许多机器学习模型。这些模型为我们的推荐系统、搜索引...

数智物语 发表了文章 • 2019-09-24 16:28

0
推荐
180
浏览

蜜雪冰城、喜茶、奈雪的茶合作观远数据,新茶饮步入科学决策时代

文章来源:咖门  作者:国君 据数据显示,2017年全国综合饮品销售额达472亿元,同比增长14.29%。预计2019年,综合饮品销售额有望突破600亿元。据推算,新中式茶饮的潜在市场规模在400-500亿元。&n...

观远数据 发表了文章 • 2019-09-24 16:02

0
推荐
167
浏览

如何看懂行业分析报告?

从下面几部分聊聊行业分析:1.什么时候需要做行业分析?2.如何做行业分析?3.案例学习4.在工作中如何应用?5.在生活中如何应用?1.什么时候需要做行业分析呢?当你在对自己进行职业规划的时候,会思考选择哪个行...

猴子聊人物 发表了文章 • 2019-09-23 17:44

条新动态, 点击查看
同程吴文波:spark做olap?

天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。

王东:greenplum和spark选型如何取舍呢?

同程吴文波:真有这样的方案哦

小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说... 显示全部 »
同程吴文波:spark做olap?

天天向上:@大连-K12-王东 spark现在还是一种计算框架 。。

王东:greenplum和spark选型如何取舍呢?

同程吴文波:真有这样的方案哦

小小蜗牛爬上墙:olap用cognos,ibm推广较好的,据说11R版本的cognos会支持hadoop。

锋:spark现在是不是发展很快。

小小蜗牛爬上墙:看来从传统数据仓库往大数据平台迁移任重道远呀。

天天向上:还是要找到价值点,不能盲目的上大数据。

春宇:传统数据仓库和大数据平台分工不同,列存,MPP能够解决的事情,不见得非得挪到Hadoop上去。

同程吴文波:@大连-K12-王东 怎么想到用spark做olap?

春宇:现在就是觉得系统太多,企业统一化的数据视图更难画了

大米:主要的生产数据还是用主流关系数据库,分析用hadoop是这样理解吗?

王东:@同程吴文波 我就是觉得数据层的东西太多,开发维护成本有点高,所以想用spark解决olap和大数据分析等各种场景

同程吴文波:@大连-K12-王东 试试Hadoop+kylin 或spark+cassandra等组合

王东:我们也打算围绕spark做呢,但是这块儿没实际操作过,比较担心olap的响应速度。

Shadow 杨:@大连-K12-王东 [发呆]多大的数据量,数据量不到一定程度,根本发挥不出来。

王东:@Shadow 杨 事实表千万级别,维度表特别多有上百。

同程吴文波:@大连-K12-王东 你的这些用普通db来构建olap就好 

Shadow 杨:@同程吴文波 同意你

天天向上:普通的就可以啊,微软的sass就搞定了。

王东:事实表千万级别greenplum行吗?

同程吴文波:@大连-K12-王东 gp是可以搞定的。但是你的那个数据量用SSAS也就行的。使用SSD 3.2T的+128G内存 或 256G就OK

王东:cognos和ssas是一个量级的么?

春宇:Cognos你用什么?PowerCube?Dynamic Cube?还是TM1?

王东:cognos也没实际用过,这几个cube啥区别啊

春宇:@大连-K12-王东 话题太长,可单聊,但就性价比而言,还是建议你选择SSAS或者开源的OLAP引擎。
collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。
collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。
SQuirrel Sql Client ,这个可以在Windows下对hive进行操作。或者 下载Windows下的Hadoop,然后解压就行
SQuirrel Sql Client ,这个可以在Windows下对hive进行操作。或者 下载Windows下的Hadoop,然后解压就行
Bob

Bob 回答了问题 • 2017-03-28 15:53 • 3 个回复 不感兴趣

大数据实时解决方案

赞同来自:

1.在数据源方面则尽量去实时收集。可以让他们主动向你的消息队列中写入数据,也可以部署flume去主动收集他们的日志数据。
2.数据进入到消息队列以后,用flume消费kafka,存储原始数据到hdfs中,保留原始数据作为存档
其次消费kafka的数据并输出到h... 显示全部 »
1.在数据源方面则尽量去实时收集。可以让他们主动向你的消息队列中写入数据,也可以部署flume去主动收集他们的日志数据。
2.数据进入到消息队列以后,用flume消费kafka,存储原始数据到hdfs中,保留原始数据作为存档
其次消费kafka的数据并输出到hbase集群中。
hbase集群作为你的目标表,与你的原始表在结构上保持一致。这样你就可以进行update insert等操作。
 
以上是解决实时数据到集群。
 
3.围绕数据的应用。
hbase集群的外围组件Phoenix 可以提供类似sql的查询,让你不用写原生java api,通过sql进行数据的查询
 
你的前端呈现可以通过jdbc的方式访问 Phoenix ,使用sql去查询hbase集群中的数据
 
整个任务调度体系可以使用oozie或zuse等。
 
在支撑后续的大数据查询方面可以扩展使用kylin等。因为kylin也是可以进行实时的olap操作。
1.能不能达到领导的目标和期望
2.从技术、人力等方面的投入产出是否符合现状
3.整套体系运行起来后的维护人力、时间方面是否是可承受范围
4.对现有的运营效率是否有提升
5.大数据应用有没有扩大到当前系统研发、数据分析和挖掘等方方面面
1.能不能达到领导的目标和期望
2.从技术、人力等方面的投入产出是否符合现状
3.整套体系运行起来后的维护人力、时间方面是否是可承受范围
4.对现有的运营效率是否有提升
5.大数据应用有没有扩大到当前系统研发、数据分析和挖掘等方方面面
商业智能是传统数据仓库解决方案的延伸,不同的分工也是依据经典数据仓库的设计而来。其中主要设计到数据库、ETL、存储计算、可视化,还有业务专家角色的分析师团队。元数据管理、测试校验、监控部署,架构建模,不同的团队也会选择性地部分构架。

在传统的工作模式下,即便... 显示全部 »
商业智能是传统数据仓库解决方案的延伸,不同的分工也是依据经典数据仓库的设计而来。其中主要设计到数据库、ETL、存储计算、可视化,还有业务专家角色的分析师团队。元数据管理、测试校验、监控部署,架构建模,不同的团队也会选择性地部分构架。

在传统的工作模式下,即便是ETL也会有不同的分工。Stage/ODS/Mart/DW多层次设计,多维数据建模,可以说完整地分工下来,没有哪个团队按照38个子系统来全面进行。

新的时代已经到来,HADOOP模式下,很多案例粗暴地将所有层次和子系统混杂。用集群的计算能力替代架构设计及分工的作用,这种模式失败的案例居多,但始终是大势所趋。

在这种环境下,传统BI领域的从业者何去何从?

我先简单自我介绍下。十二年正式工作经验,从数据库到数据仓库,从业务到技术,从开发到管理都做过。尽管对于现在大数据相关的技术也有涉猎,但我更加符合一个传统BI从业者的角色。

新的技术浪潮来临,我们会受到冲击吗?

这是毫无疑问的。现在很多案例采用HADOOP架构,不再细致分成,那么以往数据库角色/ETL/存储计算等分工的同学,根本没有条件加入到这种技术选型的团队中。

如果开源大趋势在五年之内成形,这些人现在的工作能力会丧失大部分价值。

直接的体现就是传统架构的团队越来越少,机会越来越难找。新式架构的团队无法进入其中。简而言之,就是饭碗会出现问题。

这么严峻的问题,我给出第一条个人建议:不要给自己设限。

传统数据仓库从业人员,并非ETL工程师,并非建模人员,并非单纯的业务专家。如果已经看出开源是大趋势,就立刻拥抱开源。立即学习、立即尝试、立即应用。需要你做HADOOP就去学习做,需要你用SPARK就立即尝试,需要使用机器学习库就立马行动起来。

在这个崭新的大数据领域,及时的转型,可以拥有强大的优势。

别人不考虑数据体系架构的层次,但你们可以考虑到。预先知道哪里有坑,预先知道项目和业务的紧密结。转型是新人没错,但同为新人,你们的优势体现出来了。

有人担心HADOOP没用过,文档多,主要是英文资料阅读有障碍。没错,不同的技术架构需要改变以前的结构,我遇到很多人不熟悉shell,所以掌握fs shell不容易。有人不熟悉开发语言,所以开发MAP/REDUCE困难。有人英文功底不足,所以阅读很多资料困难。

似乎到处都是困难,没有办法克服是吗?

我们应该回顾下十年前做开始做数据仓库时的局面,真比现在简单吗?

数据仓库的架构没有成形,组件式的ETL遭遇数据量大的问题,莫名其妙的字符集问题,服务器硬件资源极度欠缺的挑战,网络速度极慢还得分电信网通!

这些问题克服的过程中,不需要查询英文资料吗?是不是几乎找不到已有的成功案例参考?是不是也会涉及到不同的开发语言来编写脚本?

现在这些困难,十年前明明已经经历过了!

不同的是现在信息更加发达,大家对压力的反馈有些不一样了。

以前是从业新人,遇到问题就去学习解决,执行力一等一。

现在起码也是个小中层,动口的时间比动手还多,到处听到处说,执行能力反而下滑了。

所以针对这第一条建议,不要给自己定位成某一个角色。即便是和我这样编程能力一般的人,也可以全方位地掌握数据相关能力。这么做,一定会是项目负责人角色,即使是新的技术环境也一样。

第二条建议,重新梳理自己的学习方法。

我们这个年代的人很特别,极有可能成为第一批普遍超过一百岁的人,工作到八十岁,我觉得也不奇怪。

将来还有七十年左右的时间,现在这些大数据的技术,我们是第一批站在这个技术风口上的人。现在学习起来,具备无以伦比的先手优势。

我接触到不少新人,一年前说想学某一块知识,一年后还是想学这块知识。

扯淡。想学的人早都学会转型成功了,动嘴的人一年到头没见行动。看了几本书?翻了多少文档,写了多少笔记,尝试了多少项目?

学习是什么?如果不把这个问题理顺,再过几年就看到很多人不需要转型了。因为机会完全被自己放弃。

一年时间,大数据的任何一个细分领域,作为成年人都有条件从入门者变成中等以上的实践者。其中值得一提的,无非是如何获取高质量的资料。

现在的主流信息是各种电子档,各种视频,各种培训。我比较推崇官方手册,任何计算机相关的资料都是一样的,哪怕只有英文资料。

能把官方手册读完的人,水平差不了。一个领域的应用即便遇到极大的挑战问题,官方手册也是最有资格指明方向的资料。

对于第二条建议,我想说的就是多看资料,详细地看,一遍又一遍地看。多整理笔记,持续不断地整理,大家普遍还有七十年的时间,学习哪个方向时间都是够的。

第三条建议,人以群分。

勤奋的人每天都在努力,懒惰的人一年重复一年。

我感觉现在的社会信息爆炸,有一个很大的作用就是快速给人们划分了层次。

到实际层面来看,就是圈子。越是高端的圈子,越难进入。现在的社会资源,越来越重视知识能力。所以持续学习,是提升圈子品质的一个重要通道。

我接触到很多学霸,他们每天看书学习比其他人时间要长得多。这方面我推崇复旦的思想:“自由而无用的灵魂”,你可以学习没什么商业价值的方向,但不能放弃追求灵魂自由的努力。

先勤奋,然后进入勤奋的圈子,坚持学习,不断改变。大家都看得到现在很多名校学霸只是一个名字,都能引导大量金钱、人力资源配合,他们尚且经常学习到深夜,我们又有什么理由原地等待?

以上是个人一点儿浅薄的想法,希望能给朋友们哪怕一丝的帮助。
 
regan

regan 回答了问题 • 2017-04-06 10:42 • 2 个回复 不感兴趣

spark中如何看有多少个并发的task啊

赞同来自:

你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
... 显示全部 »
你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中
val a = spark.range(1,100,9)
a.rdd.partitions.size直接可以在console窗口打印出来看到。
第二中方式是你可以通过SparkUI查看

34999
 
 
 程序的并行度是由partitions的大小决定的,一个partition对应一个task。可以通过repartions或coalease进行合理的设置
JIELEE

JIELEE 回答了问题 • 2017-05-11 09:38 • 1 个回复 不感兴趣

如何学习大数据,不从代码角度考虑?

赞同来自:

我不懂写代码,Java都不会,我感觉我在这行里都是混日子,
 
好像说的悲观了。
 
我觉的吧,首先,你可以不会java,但一定要会SQL,而且还不只是基本的Selece,需要相对高深的SQL功底。
 
其次,你得懂业务,感觉当前一种思路是:大数据要抛开业务看... 显示全部 »
我不懂写代码,Java都不会,我感觉我在这行里都是混日子,
 
好像说的悲观了。
 
我觉的吧,首先,你可以不会java,但一定要会SQL,而且还不只是基本的Selece,需要相对高深的SQL功底。
 
其次,你得懂业务,感觉当前一种思路是:大数据要抛开业务看数据,这在一些吹牛B的大公司尤其盛行。但我认为,这是一种歪风!
我的理论:做软件要尽可能独立于业务,最牛X的程序是适合于全世界、全行业的程序。但做数据就是做服务,必须无限接近于业务。你做的东西在A市甲单位可用,换到A市方单位,或B市甲单位,即便是同样的原始数据,也必须要调整才能用。
 
第三,你要有一个好的环境,《大数据时代》有一个理论:在做大数据之前,你不能假设结果,得到的结果很可能是你根本想不到的。
没去过南方公司,但是北方公司,普遍是领导家长制,加以销售引导型。领导开完枪,你屁颠屁颠的跑过去,照着弹孔画个靶心,在这种环境下,你干的是替领导吹的牛B擦屁股的活,没有自己发挥的空间,没有尝试,也不可能有进步。
饼干君

饼干君 回答了问题 • 2017-06-08 14:17 • 1 个回复 不感兴趣

请问谁了解大数据的标签体系如何设计

赞同来自:

标签体系不是一个产品功能,而是基于业务需求的一套指标体系,只是这套指标体系中有很多内容是通过计算和数据加工而得到,不是直接采集的。
回答你的问题:
1、用户画像如何设计需要取决于你的画像的业务需求,也就是你为什么要做画像,做了画像要为什么服务?
明确了这些内容... 显示全部 »
标签体系不是一个产品功能,而是基于业务需求的一套指标体系,只是这套指标体系中有很多内容是通过计算和数据加工而得到,不是直接采集的。
回答你的问题:
1、用户画像如何设计需要取决于你的画像的业务需求,也就是你为什么要做画像,做了画像要为什么服务?
明确了这些内容,其实需要有哪些标签也就比较容易梳理了;
2、标签内容和其他数据一样,都以数据的形式保存在数据库当中,和原始数据没有任何区别;部分标签的建设需要构建挖掘模型;
3、每家公司的标签体系建设方法都是类似的,只是说BAT他们拥有更多的数据资源,所以可能构建的标签更全面,但是构建的方法都是一样的。
使用rdd上的randomSplit方法,将一个RDD随机拆分成多个RDD,randomSplit方法返回一个rdd数组,遍历数组,取出每个rdd,toDF后,使用jdbc方法写入数据库,遍历过程中制定一个随机的选库策略,这样就将rdd内容写入到了相同的 数据... 显示全部 »
使用rdd上的randomSplit方法,将一个RDD随机拆分成多个RDD,randomSplit方法返回一个rdd数组,遍历数组,取出每个rdd,toDF后,使用jdbc方法写入数据库,遍历过程中制定一个随机的选库策略,这样就将rdd内容写入到了相同的 数据库不同的表中了。你具体的需求按照这个思路去应该可以实现。
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家... 显示全部 »
目前我好想没有听说过有这样的平台,要学习的话,我觉得有这样的几个建议:
1. 公司支持
    公司技术迭代,需要使用Hadoop、Spark,那肯定会提供测试环境等一切资源,那就很方便了;
    公司没有需求,那是否可以和上级领导反馈下,申请测试环境供大家自主学习使用,这个估计要看具体情况;
    公司有没有闲置的机器,都可以利用起来
2. 个人
    个人电脑安装VirtualBox之类的虚拟机,开3个虚拟机玩儿就够了,电脑的话配置也就内存8G以上应该足够了,CPU差不多就行了,直接装Linux就行了;
    可以使用Docker,可以简单的把他看成虚拟机,找些资料看看,简单使用应该没问题,使用Docker开实例很方便,不像虚拟机那样耗费很多资源
    要不开通个阿里云之类的,在云平台上面玩儿,这个价钱不清楚,可以去官网看看
导出文本文件 直接上传hdfs
导出文本文件 直接上传hdfs
Vincent_lu

Vincent_lu 回答了问题 • 2017-11-20 10:50 • 1 个回复 不感兴趣

BIEE可以对透视表的结果进行计算么?

赞同来自:

a和b在RPD设置聚合规则是sum时,新建字段c=a/b,默认得到的结果就是sum(a)/sum(b),如果你要sum(a/b)反而要特殊处理,在源写公式
 
a和b在RPD设置聚合规则是sum时,新建字段c=a/b,默认得到的结果就是sum(a)/sum(b),如果你要sum(a/b)反而要特殊处理,在源写公式
 
不需要,可以共存。3.6的可以通过conda选择所处python环境   win7下python2和python3共存问题  https://ask.hellobi.com/blog/zhangshining52/6434    https://ask.hel... 显示全部 »
不需要,可以共存。3.6的可以通过conda选择所处python环境   win7下python2和python3共存问题  https://ask.hellobi.com/blog/zhangshining52/6434    https://ask.hellobi.com/blog/weiwei/5153   在Windows与MAC中同时安装Python3.X与2.X的方法  可以看看
新旧版本的替换,参考 openpyxl文档
 新版本的get_column_letter()和column_indwx_from_string()位置发生了改变,在openpyxl.utils下 from openpyxl.utils import get_... 显示全部 »
新旧版本的替换,参考 openpyxl文档
 新版本的get_column_letter()和column_indwx_from_string()位置发生了改变,在openpyxl.utils下 from openpyxl.utils import get_column_letter
from openpyxl.utils import column_index_from_string 这样引入是可以正常使用的
3
推荐
2226
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

5
推荐
1463
浏览

《R的极客理想》系列图书作者张丹:用R语言把数据玩出花样

前言作为数据分析师,每天都有大量的数据需要处理,我们会根据业务的要求做各种复杂的报表,包括了分组、排序、过滤、转置、差分、填充、移动、合并、分裂、分布、去重、找重、填充 等等的操作。有时为了计算一个...

R语言中文社区 发表了文章 • 2017-09-28 09:59

11
推荐
2809
浏览

从大数据舆情传播角度看《三生三世十里桃花》

前不久,看到知乎上一个知友提到了一个问题,觉得有点意思,于是心血来潮写了一个回答,现在粘贴复制到这里:不扯犊子,就直接以题主的举例来上干货,分析的对象是目前大红大紫的《三生三世十里桃花》(以下简称“...

高长宽 发表了文章 • 2017-02-22 13:48

5
推荐
1058
浏览

【PPT干货】一篇神一样的数据分析解读,看完我.....

数据君6年前写的数据分析交流资料,删除部分,分享给大家!想成为数据分析方面的专家不易:1、要会技术存储、统计、机器学习、报表、分析、展示、可视化、编程等2、懂市场细分、营销、产品、用户行为、流失、欺诈...

Jmarry 发表了文章 • 2017-02-22 09:37

12
推荐
2378
浏览

从零开始,构建数据化运营体系

数据化运营是一个近年来兴起的概念,它在运营的基础上,提出了以数据驱动决策的口号。在了解数据化运营前,运营们有没有过如下的问题:不同渠道,效果究竟是好是坏?活跃数下降了,到底是因为什么原因?这次活动...

秦路 发表了文章 • 2017-02-06 17:34

7
推荐
2301
浏览

【20万字500页年刊下载】2016年天善大数据社区年刊精华版

继 2015年天善智能发布了 《2015年 BI 系列技术博文与问答精选年刊》 和 《2015年社区博文与 Friday BI Fly 活动记录精选年刊》 后,2017年1月我们正式发布2016年社区年刊。本年刊涵盖了2016 年天...

天善智能 发表了文章 • 2017-01-26 13:36

6
推荐
5884
浏览

人人可用的数据分析认知计算产品 IBM Watson Analytics 试用体验

在这篇文章中 《 蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson 》我介绍到了 IBM Watson 在人工智能领域的布局和变革。那么本篇文章就带大家走进 IBM Watson 旗下认知计算、预测分析的云...

lvpin 发表了文章 • 2017-01-21 18:08

9
推荐
5179
浏览

蓝色巨人IBM的变革与复兴,大数据时代的人工智能 IBM Watson

2016年是人工智能走向大众的元年大数据的火热还未退去,人工智能在2016年和2017年交替之际就被刷爆了。从 2016年12月29日到2017年1月4日,一位标注为韩国九段的神秘棋手 Master 在一周之内完胜包括中日韩朴廷桓、...

lvpin 发表了文章 • 2017-01-16 11:17

0
投票
1
回答
1447
浏览
7
推荐
2360
浏览

政府大数据是不是一个伪命题?面临的问题和阻力在哪里?

背景 2015年经李克强总理签批,国务院印发《促进大数据发展行动纲要》,中国政府已经开始系统部署大数据发展工作。《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模...

lvpin 发表了文章 • 2016-12-28 18:15

1
推荐
1818
浏览

Friday BI Fly | 2016年10月21日晚8点半微信直播交流在实践中挖掘数据的价值第36场 图文版记录

公告:周五BI飞起来,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴,锁定在每周五晚20:30,不见不散!未来几期的微信直播活动分享主题将包括在大数据、大变革、大成长、游戏行业数据仓库储存模型。...

天善智能 发表了文章 • 2016-10-24 10:30

3
推荐
4505
浏览

技术|深入浅出解析大数据Lambda架构

前言   Hadoop的出现让人们尝到了大数据技术的甜头,它的批处理能力已经被工业界充分认可,但是它的延迟性也一直为大家所诟病。随着各行各业的发展,越来越多的业务要求大数据系统既可以处理历史数据,...

星环科技 发表了文章 • 2016-10-11 11:32

3
推荐
2196
浏览

R实现地理位置与经纬度相互转换

本实例要实现目标通过输入城市名或者地名,然后找出其经度纬度值,以及通过可视化展现其线路流向以及周边地图展示本实例参考文章主要来自金大侠博客:http://user.qzone.qq.com/675229288/mainaddress_list数据:...

华青莲 发表了文章 • 2016-10-10 19:27

0
推荐
928
浏览

百度外卖联合搜狐新闻客户端发布十一大数据 异地点单量激增

 国庆长假刚刚结束,朋友圈的旅游摄影大赛也落下帷幕。在这难得的休闲时光里,有人选择天南海北畅游一番,也有人选择宅在家中享受清闲,但无论“旅游族”还是“御宅族”都将“吃遍美食”的主题贯穿了整个假期。  今...

在学古筝的程序员 发表了文章 • 2016-10-08 10:59

0
投票
2
已解决
1955
浏览
0
投票
1
回答
354
浏览
0
投票
5
回答
1218
浏览
0
投票
2
回答
748
浏览
0
投票
1
回答
910
浏览
0
投票
2
回答
721
浏览
0
投票
1
回答
1941
浏览
0
投票
4
已解决
6109
浏览
0
投票
0
回答
560
浏览
0
推荐
22
浏览

从失败中学到的那些事

​我是张小安:早就想记录一下自己2个月找工作的经历,入职新工作的新鲜感与给自己放松的时间拖到现在。决定辞职换工作的前就要开始审视我一年的工作。如何填满一页的简历纸,我做了什么,有哪些成绩,哪些是可以...

猴子聊人物 发表了文章 • 10 小时前

0
推荐
25
浏览

签约 | 数据驱动便利店行业持续增长,观远数据为「新佳宜」打造决策大脑

从90年代进入中国市场,经过20多年的发展,中国便利店已经度过了尴尬生存期,并在新技术新概念和资本的助推下保持着稳定的增长速度,成为零售领域最受欢迎的业态之一。  近日,湖南省数量最多的连锁便...

观远数据 发表了文章 • 13 小时前

0
推荐
35
浏览

电子商务数据分析

​通过具体的项目案例,学习面对数据和业务问题,如何去展开分析。下面是社群会员的作业,本文最后会给出项目的修改意见,通过本项目提高你的分析思维。一.背景介绍这是Olist Store制作的巴西电子商务公共数据集。...

猴子聊人物 发表了文章 • 1 天前

0
推荐
36
浏览

受邀沃尔玛全球CMO/COO峰会,观远引领社区生鲜预测实践

从单一的温饱型消费到多元化营养调剂型消费,人们对生鲜产品的需求日益增加。然而,生鲜产品要经过生产、采摘、物流、销售多道程序才能到达消费者手中,在人们尝到最新鲜的产品之前也免不了各种浪费。为了减少资...

观远数据 发表了文章 • 1 天前

0
推荐
84
浏览

2019诺贝尔经济学奖得主:贫穷的本质是什么?

​2019年诺贝尔经济学奖,颁给了来自麻省理工学院的 阿巴希·巴纳吉(Abhijit Vinayak Banerjee)、艾丝特·杜芙若(Esther Duflo)夫妇和哈佛的 迈克尔·克默(Michael Robert Kremer)。夫妻同时获诺贝尔...

猴子聊人物 发表了文章 • 4 天前

0
推荐
43
浏览

今夜,大数据带你了解当代青年加班狗

“我累得像只狗,十八天没有卸妆,月抛带了两年半,作息紊乱,我却越来越胖,起来征战北五环。”上海彩虹室内合唱团一首《感觉身体被掏空》成为多少加班狗的内心BGM。中国加班有多疯狂?今年3月,国家统计局数据显...

企业数据化管理 发表了文章 • 5 天前

0
推荐
63
浏览

最全的机器学习入门资料

上次我推荐了学习数据分析要看哪些书:数据分析有哪些好书值得推荐?这次推荐的是机器学习入门要看的书。我们从下面3步详细看下如何去学习。第1步:基础知识学习机器学习需要具备数学和编程基础。1)数学理论:微...

猴子聊人物 发表了文章 • 5 天前

0
推荐
80
浏览

贷款用户画像分析

通过具体的项目案例,学习面对数据和业务问题,如何去展开分析。下面是社群会员的作业,本文最后会给出项目的修改意见,通过本项目提高你的分析思维。一.项目数据介绍数据来自拍拍贷真实业务数据。拍拍贷是美国纽...

猴子聊人物 发表了文章 • 2019-10-08 17:51

0
推荐
67
浏览

银行业大数据量清单报表案例

【摘要】银行数据查询业务中,经常会碰到数据量很大的清单报表。由于用户输入的查询条件可能很宽泛,因此会从数据库中查出几百上千万甚至过亿行的记录,比如银行流水记录;为了避免内存溢出,一般都会使用关系型...

润乾软件 发表了文章 • 2019-10-08 17:27

0
推荐
107
浏览

持续热搜霸屏!中国女排10次斩获世界冠军,背后的数据分析有多重要?

盼望着,盼望着,国庆节终于要到了大庆的氛围越来越浓祖国70周年庆典热度持续霸屏而昨天各大媒体平台却被中国女排刷屏了中国女排夺金时刻9月28日,中国女排3:0战胜塞尔维亚队以十连胜提前一轮迎来第十个世界大赛...

永洪科技 发表了文章 • 2019-09-29 18:41

0
推荐
126
浏览

揭秘 | 40岁老品牌菲安妮,如何在风雨飘摇的快时尚领域勇立潮头

 40年,对于很多快时尚品牌来说是一道跨不去的坎。潮流在变,消费者在变,消费方式在变,而同样是有40年历史的FION菲安妮(以下统称“菲安妮”),为什么依然可以站在“快时尚”领域的潮头?是品牌过硬、渠道建...

观远数据 发表了文章 • 2019-09-25 11:31

0
推荐
162
浏览

什么是新增用户、活跃用户、留存用户?

​在很多产品里都对应3种用户(新增用户、活跃用户、留存用户),搞清楚他们的概念和区别,对于运营和分析都非常有帮助。那什么是新增用户,活跃用户,留存用户呢?如果把一款产品看作我的一个鱼塘,那么使用产品...

猴子聊人物 发表了文章 • 2019-09-24 16:30

0
推荐
180
浏览

蜜雪冰城、喜茶、奈雪的茶合作观远数据,新茶饮步入科学决策时代

文章来源:咖门  作者:国君 据数据显示,2017年全国综合饮品销售额达472亿元,同比增长14.29%。预计2019年,综合饮品销售额有望突破600亿元。据推算,新中式茶饮的潜在市场规模在400-500亿元。&n...

观远数据 发表了文章 • 2019-09-24 16:02

0
推荐
167
浏览

如何看懂行业分析报告?

从下面几部分聊聊行业分析:1.什么时候需要做行业分析?2.如何做行业分析?3.案例学习4.在工作中如何应用?5.在生活中如何应用?1.什么时候需要做行业分析呢?当你在对自己进行职业规划的时候,会思考选择哪个行...

猴子聊人物 发表了文章 • 2019-09-23 17:44

0
推荐
165
浏览

中国企业数字化转型峰会 | 观远数据用智能BI驱动零售业务增长

随着人口红利的消失、互联网获客成本的增加,越来越多的企业开始投身到以效率为王的数字化革命当中。 9月20日,以“数字中国•智创未来”为主题的中国企业数字化转型暨首席信息官峰会在深圳举行。作为国内领先...

观远数据 发表了文章 • 2019-09-23 17:28

  从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。