数据挖掘

数据挖掘

0
投票
1
回答
5440
浏览
0
投票
0
回答
2435
浏览
0
投票
4
已解决
7032
浏览
0
投票
1
回答
2722
浏览
0
推荐
2046
浏览

数据调度平台etl系统二大种类及其实现方法与流程

什么是调度系统调度系统,更确切地说,作业调度系统(Job Scheduler)或者说工作流调度系统(workflow Scheduler)是任何一个稍微有点规模,不是简单玩玩的大数据开发平台都必不可少的重要组成部分。除了Crontab...

ETL批量调度-Taskctl 发表了文章 • 2020-07-06 15:30

0
推荐
2323
浏览

RFM分析模型(Python)

RFM分析模型广泛应用于识别优质客户,依据RFM模型分析结果可以定制个性化的沟通和服务方案,并为营销决策提供有力支持。RFM分析模型属于探索性分析方法中的一种,即从海量数据中,依据R、F、M三个指标,获取高价...

Max_Leo 发表了文章 • 2020-02-05 13:37

0
推荐
2354
浏览

Apriori算法(Python)

关联规则挖掘是数据挖掘中最活跃的研究方法之一,最早是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则,这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货,库...

Max_Leo 发表了文章 • 2020-02-02 11:23

0
推荐
1661
浏览

R语言基础代码

1.探索性数据分析install.packages("MASS") library(MASS)data(Insurance)#获取数据集View(Insurance)nrow(Insurance);ncol(Insurance)#显示数据集行列数dim(Insurance)#显示维度,效果同上head(Insurance) ...

DDlucky 发表了文章 • 2019-12-28 11:55

0
推荐
1339
浏览

Smartbi V9 厚积薄发,真正实现一站式分析服务

10月31日,Smartbi V9体验会在上海成功举办。会上,思迈特软件VP徐晶先生为大家带来《崛起:V9全新出发——新UI&DEMO,Smartbi历“9”弥新》的主题演讲,小麦把演讲内容整理成文,与未能到场参加活动的麦粉们一起...

大麦 发表了文章 • 2019-12-26 10:00

0
推荐
1594
浏览

决策引擎简述

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | Python数据分析与评分卡建模作者 | zhaikun01决策引擎的必要性极速放款、闪电借款、闪贷等成为了互金时...

数智物语 发表了文章 • 2019-10-21 18:12

0
推荐
1452
浏览

全面数据化助力新华百货领跑西北商业圈

引言:近期,小麦有幸拜访了银川新华百货连锁超市有限公司数据信息中心副总监靳莹先生,听他讲述新百连超如何实现数据化转型的故事,小麦将采访整理成文,以供欣赏。关于新华百货银川新华百货商业集团是北京物美...

大麦 发表了文章 • 2019-09-18 14:41

条新动态, 点击查看
你说的是如何检测数据是否符合哈迪-温伯格定律吧?这应该是基因检测吧?
对于某群体的基因频率的一个检测,比如你可以假设群体的基因频率:
h0:符合哈温平衡的
h1:不符合哈温平衡
你直接做卡方检验就好了。卡方检验的步骤参考:
http://jingyan.ba... 显示全部 »
你说的是如何检测数据是否符合哈迪-温伯格定律吧?这应该是基因检测吧?
对于某群体的基因频率的一个检测,比如你可以假设群体的基因频率:
h0:符合哈温平衡的
h1:不符合哈温平衡
你直接做卡方检验就好了。卡方检验的步骤参考:
http://jingyan.baidu.com/article/e73e26c0f7732f24adb6a7c2.html
然后按照你既定的p值水平来进行判断,假设阀值0.05,p值大于0.05,接受h0,反之,如果p值小于0.05,拒绝h0。
一点建议,请参考:
1 网络爬虫属于搜索引擎的技术范畴,属于搜索引擎采集数据的关键手段,是下一步根据采集内容建立摘要和索引的基础,说白点就是模拟浏览器对URL的访问获取网页的基本结构和内容,所以建议楼主先关注下搜索引擎原理中的数据采集部分内容,了解一下其实现的... 显示全部 »
一点建议,请参考:
1 网络爬虫属于搜索引擎的技术范畴,属于搜索引擎采集数据的关键手段,是下一步根据采集内容建立摘要和索引的基础,说白点就是模拟浏览器对URL的访问获取网页的基本结构和内容,所以建议楼主先关注下搜索引擎原理中的数据采集部分内容,了解一下其实现的主要框架,网上相关文章还是比较多的。
2 单就你要获取的信息来说,航空公司的网站具体安全级别将直接影响网络爬虫实现的复杂度,因为目前很多网站为防止攻击等安全问题的发生,会对网络爬虫的访问进行屏蔽,在这种情况下要获得需要的信息就必须结合网站的具体情况对你的爬虫进行数据获取的细节进行规划,在规划爬虫实现的细节之前还是建议楼主对普通搜索引擎的数据采集部分的实现原理和方式进行比较细致的了解。
浩彬老撕

浩彬老撕 回答了问题 • 2017-06-15 23:26 • 2 个回复 不感兴趣

从数据挖掘角度比较SAS和SPSS?

赞同来自:

我不得不反对楼上的答案。
单纯从客观来看:clementine已是收购前多年的产品,而且所谓的聚类,决策树,文本挖掘SPSS Modeler真的n年前就支持了。至于楼上主观的评价,我就不说了。
 
用我在知乎的一个回答来说:
问题“SPSS与SAS在国内企业中... 显示全部 »
我不得不反对楼上的答案。
单纯从客观来看:clementine已是收购前多年的产品,而且所谓的聚类,决策树,文本挖掘SPSS Modeler真的n年前就支持了。至于楼上主观的评价,我就不说了。
 
用我在知乎的一个回答来说:
问题“SPSS与SAS在国内企业中 哪个认可度更高?”
1.首先回答楼主问题,确实金融行业和医药确实SAS会更占有优势,但要加一个定语,在数据挖掘领域。在国内五大行基本SAS玩得很溜。当然SAS的收费模式问题,也有一些银行会SPSS与SAS一起用。另外在传统的社会科学上,心理学,社会学,教育,政府,SPSS会更多(尤其是统计的Statistics).楼主要注意的是,尤其是SPSS,数据挖掘的Modeler与统计分析的Statistics在企业分是非常不一样的
2.楼上有人说利益相关,提到matlab,我觉得要区分一点,matlab在金融一般应用在定价上,这一点是毋容置疑的强势。但是我觉得和楼主的提问应该是不同维度,在通用商业领域,主要的还是SPSS与SAS为主,认可度都非常高。
3.互联网行业的话可能普遍爱好开源工具,所以R与Python现在越来越火了,但要说压缩SPSS与SAS的市场为为时过早,这个时间是多久,我觉得还有待商榷。在普通企业里面,SAS与SPSS作为商业软江的稳定性和性能还是受到企业重视。
4.从招聘角度回答楼主问题,JD上明确要求软件技能出现的数量应该是SAS>=SPSS>=R(Python我不算特别熟,不好评价)
5.最后,我个人是使用SPSS+R
Python基本语法  https://edu.hellobi.com/course/103
Python数据挖掘  https://edu.hellobi.com/course/104
Python网络爬虫  https://edu.hellobi.co... 显示全部 »
Python基本语法  https://edu.hellobi.com/course/103
Python数据挖掘  https://edu.hellobi.com/course/104
Python网络爬虫  https://edu.hellobi.com/course/81
把这些学习了,你就会有很清晰的路线了
ID王大伟

ID王大伟 回答了问题 • 2017-05-08 12:48 • 1 个回复 不感兴趣

你有哪些好的python数据处理编程习惯?

赞同来自:

我个人简单谈谈吧
1.及时备份数据,因为任何想象的可能和实际结果不同,所以处理下一步前最好备份一份
2.处理程序也要即时备份
3.推荐用Jupyter notebook(因为可以记录每步的结果,测试的话重新回车即可)而pycharm注释的话比较麻烦,用#或者'... 显示全部 »
我个人简单谈谈吧
1.及时备份数据,因为任何想象的可能和实际结果不同,所以处理下一步前最好备份一份
2.处理程序也要即时备份
3.推荐用Jupyter notebook(因为可以记录每步的结果,测试的话重新回车即可)而pycharm注释的话比较麻烦,用#或者'''容易改乱程序
4.使用numpy和pandas包
量化是一门跨学科的知识,你需要IT+统计+金融知识。
 
金融知识 = 金融市场 + 金融理论, 这些金融市场的知识,你需要去交易来获得, 金融理论你可以看书《投资书》,《期权、期货和其他衍生品》
量化是一门跨学科的知识,你需要IT+统计+金融知识。
 
金融知识 = 金融市场 + 金融理论, 这些金融市场的知识,你需要去交易来获得, 金融理论你可以看书《投资书》,《期权、期货和其他衍生品》
你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少,导致并行度不够,故写入速度慢。意见是尝试吧分区数调整... 显示全部 »
你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少,导致并行度不够,故写入速度慢。意见是尝试吧分区数调整为5或10再试试
 数据挖掘。不过要求比较高的咯,需要数学能力强悍,微积分 矩阵、线性规划。概率论、数理统计等
 不过不要担心慢慢学。肯定会有收获的哈 
 数据挖掘。不过要求比较高的咯,需要数学能力强悍,微积分 矩阵、线性规划。概率论、数理统计等
 不过不要担心慢慢学。肯定会有收获的哈 
用stringr包里面的str_replace_all函数把k替换掉
用stringr包里面的str_replace_all函数把k替换掉
我也是小白,你学的这些对我来说好高深啊,如果是我的话,数据收集我会用R来爬网络数据(会python的话更简单吧),然后进行数据Excel或者R进行数据清洗,看自己的数据类型想要什么,然后直接套R里面的回归或者决策或者神经网络就可以了。要是机器学习过程会更复杂吧... 显示全部 »
我也是小白,你学的这些对我来说好高深啊,如果是我的话,数据收集我会用R来爬网络数据(会python的话更简单吧),然后进行数据Excel或者R进行数据清洗,看自己的数据类型想要什么,然后直接套R里面的回归或者决策或者神经网络就可以了。要是机器学习过程会更复杂吧~加油啊o(* ̄︶ ̄*)o
讲一个不懂编程也能入门的路线。

说到超级菜鸟:女生,二本,市场营销专业,别说vlookup连sum是啥都不知道,代码一个字母都不会,平时工作连电脑都不咋敲,这个应该够超级菜了。(确实是个小姐姐,没有性别歧视的意思哈)。唯一的优势就是颜值还行。小姐姐毕业后去了... 显示全部 »
讲一个不懂编程也能入门的路线。

说到超级菜鸟:女生,二本,市场营销专业,别说vlookup连sum是啥都不知道,代码一个字母都不会,平时工作连电脑都不咋敲,这个应该够超级菜了。(确实是个小姐姐,没有性别歧视的意思哈)。唯一的优势就是颜值还行。小姐姐毕业后去了某个银行信用卡中心做业务员。某段时候我在做银行项目,广泛体验各个银行的信用卡,于是就这么机缘巧合的认识了。100%出于想了解银行发卡模式,而不是被小姐姐颜值吸引的原因,我很认真的和她聊了平时的工作情况。得知这个小姐姐业绩非常的好,团队Ace,每月激活卡100张以上,个人收入估算接2w以上了。


有意思的是,小姐姐对我的工作也很感兴趣。她问我:“如何能转行到后台做工作?”我很惊讶,为什么收入这么好还想转数据分析呢?不觉得没钱途吗?要知道很多号称“数据分析师”都没有一年25万的。小姐姐表示:因为跑业务太辛苦了,风吹日晒,而且一天不做一天没收入,这日子没法过下去了。“还是你们后台好,对着电脑敲敲就有钱拿,为啥不做”。100%出于分享知识的考虑,我和小姐姐做了深度沟通。发现对于已经工作的同学而言,转行有着至少三大难关。


第一,曰:没精力。作为一个Ace销售,小姐姐性格非常独立坚强。想要她放下工作,关门谢客,再交上几万块培训费去读个培训班是非常不现实的。人家已经习惯了照顾家人而不是被人照顾。而且处于工作敏感性,她也不信任那些培训机构的销售:“还交一万九年薪五十万就业,他自己怎么不交一万九还在这卖课?”好吧,这个逻辑简直无懈可击


第二,曰:没基础。我也试着向小姐姐介绍sas,不过真的是一个字都看不懂。“我在学校都没搞懂,现在咋可能搞懂”好吧,又是一个无懈可击的逻辑。那试着介绍一下spss吧,可视化戳戳戳总行了吧。结果发现光安装就卡了好久。而且一点统计基础都没有的话,也不知道戳出来是个啥。

第三,曰:没记性。我转了一些文章让小姐姐看,基本上前脚看后脚忘。因为工作中用不到。实际上,我自己也有这种感觉。工作中用不到的东西,即使对着学了忘的也特别快。因为平时不用啊,就靠对着课本练,脱离书就是个呆子。


咋办?我认真思考了问题的关键:如果能找到一个工作中就能用到的例子开始训练就好了。真是完全没有基础的话,一上来就列一堆信息、公式、概念只会把人绕晕。如果能找个简单的方法让她理解到:什么是数据、什么是分析,后续如何做数据分析就是水到渠成的事。刚好我当时正在做相关的项目,优秀的销售和死蠢的销售都接触过,这一点极大的启发了我后来的思路。

我试着启发小姐姐的思路,从一个简单的问题开始:什么样的顾客容易成功?小姐姐瞬间打开了话匣子,列举一堆例子。OK,这里先不急着讲完所有故事,我拿出了银行信用卡申请表,问道:假设把刚才故事里的顾客特征对应到表上需要填的这些空格,该如何填?小姐姐愣了一下,然后开始笑话这些申请表能记录的信息太少,很多信息需要销售直观判断。OK,我继续引导:所以这里就有两类信息:一类容易记录的、客观的、格式化的数据,一类难记录的、主观的、个性化的数据。然而,后台的工作人员远在千里之外,他们无法直面顾客,他们只能通过能记录的数据来判断,考虑做什么样的政策,出什么样产品。所以,如果你真想转到后台去的话,你就得想办法:要么从现有的有限的数据中得出结论,要么把主观的数据合理记录下来。


小姐姐似乎想到了什么,然后开始说:那样的话,这里哪几个字段可能最有用处,这里哪些字段其实都是销售们瞎填的。如果真需要添加的话,能不能添加1,2,3,4个维度,而且为了防止一线的销售们瞎搞,还可以配合比如工牌照片、人车合照等等办法。我们边聊,边拿出一张值,把可以用的、有问题的、需要添加的字段都记录下来,并且标上数据格式,填写规范等等。完成以后,我开始介绍:这就是后台部门面临的数据库的简单样式,有字段、字段属性、数据来源、数据真实性、数据清理等等等问题。小姐姐似乎一下恍然大悟,这样讲比一上来讲什么数据仓储容易理解多了。

于是我趁胜追击,开始引导一下阶段问题:你看,你一个月能做100多张卡,有没有计算过办哪些卡,总收入更高?(不同信用卡对应的提成,是否伴随贷款,是否开自动还款业务都会影响提成收入)。小姐姐开始认真考虑不同产品组合下自己的收入。之前也有考虑过,但从没有认真计算过数据,都是自己粗略估算或者听营销中心的日报。有了之前的基础,我们开始分解日报。利用一张最基础的含用户、卡信息的excel表,开始试着做数据统计,计算收入。因为和收入有关,所以小姐姐计算起来格外起劲。并且数据透视表、求和、平均值、if等公式用几次就会了。

于是我趁胜追击*2,开始引导一下阶段问题:你看,这些卡片销售数据和顾客特征结合起来,是不是可以看出来哪些顾客容易办哪种卡?(不是所有的申请表都会被批准的,多多少少都会退一批,填写规范下,过审率一般六成左右)。小姐姐一下兴趣被调了起来,因为被退卡是一线销售非常深恶痛绝的事,因此我们继续拿基础excel表练习,这次是练习交叉表。开始交叉分类看用户特征,试着用不同维度交叉,看哪些类型用户更容易被pass。尝试几次后,竟然发现销售们日常总结的审批规律,有一些还真有道理,甚至还反推出一些审批的潜规则。

于是我趁胜追击*3,开始引导一下阶段问题:你看,你作为这么厉害的销售,肯定有些人会比你差。你和他们比,他们差在哪里。小姐姐又一下兴趣大开,讲了一堆很具体的行为差异。OK,我们回归一下,把这些具体事件中的可以用数据量化的部分截取出来,把那些不能用数据量化的部分,看看是否能有字段记录。这样再归纳以后,就找出来衡量销售行为的基本指标,进而导出了分析团队业绩的基本思路。(实际上,我直接分享了部分项目结论给她。自己解读数据是个很好的尝试思路,但是一个0基础自学者,自己总结结论还是太难了)。

完成这几步以后,小姐姐已经基本具备了数据分析的初级能力,还差临门一脚:简历要怎么投?因为数据分析范围实在太宽泛了,即使做了训练,以小姐姐的能力投开发类岗位也实在是天方夜谭。好在银行里各个分行、营销中心都有数据专员的岗位,这些岗位主要任务就是做销售数据分解和解读,小姐姐的能力非常适合。最后临门一脚,帮小姐姐包装一下简历,一顿饭的功夫,突出一下在分析问题上的经验和能力,之后便一投即中。虽然薪资降低了不少,但是还是如愿做了不用风吹日晒的后台工作。


后来,听说小姐姐嫁了人。俺也在太太的监督下,清空了所有这种100%出于学习分享目的讲过一大堆话的小姐姐的联系方式。后续的情况不得而知。但这确实是我指导过的,最有挑战性、最0基础、也最快速实现转行的例子了。前后用了没俩月。回想起来,小姐姐虽然数学和代码基础差,但有几个优势:


第一,业务能力强。对业务流程非常熟悉,有丰富实战经验。这样很容易找出业务中的问题,就容易找到分析问题的思路,看到数据也容易明白含义。第二,思维逻辑性好。比如第一步总结顾客特征,她可以很快理解我的用意,把那些一个个具体的人,归纳成:39岁、小企业主、500万经营收入、本地人等等字段。数据分析是以字段为基础的,这一步如果理解不了,就真的深入不下去了。我也见过很多思维方式特别感性的人,就是卡在这一步,始终无法把一个具体事情抽象成一组数据,后边的分析也就无法基于数据进行了。他们更多是基于感情、直觉做判断,把数据分析的过程视为一个黑箱,等着听结论。第三,动手能力强。Excel操作几次就会了,没有耽搁很多时间反复练习。第四,公关能力强。营销中心、卡中心她认识不少人,直接拿到了内部一些数据表做练习,进步非常快。这个真的是用模拟数据无法比拟的优势了。

而我只是起到一个穿针引线的作用。找了一个好的切入点,吊起来她的兴趣,让她能坚持思考下去,而不是半途而废。或者装着一脑袋和工作完全不相关的东西,完全不知道学了有什么用。其实数据分析,是数据+分析组成的。技术上如何生成数据是一个切入点。业务上如何做分析也是一个切入点。能从问题出发的好处,就是能以始为终,很快找到思路。当然,这是以能理解数据字段、数据来源为前提的。


当然,这是极特别的个案,其实但凡有一些excel、sql基础,上路都不会这么艰难,也不需要那么强公关能力或者颜值什么的。即使看起来行业差的特别远,即使岗位看起来特别奇怪也没有关系。因为数据分析其实是职场的一项基本技能,在哪里都有用,在哪里都能练习。

比如我遇到过一个三线城市做拖拉机设计的男同学。他想转数据分析,但满眼望去,都是“互联网数据分析XXX”。感觉自己的工作跟数据分析,跟互联网很遥远。然而我不这么认为。我提示他:你做设计,也分创新设计和改良设计。如果改良,你要改哪些款?为什么选这些款?是销量不好,还是故障率高,还是用户口碑差?如果是销量不好,怎么判定好?数据从哪里来?标准怎么定?

拖拉机哥认真想想,忽然觉得恍然大悟:是哦!平时会走访市场,会看不同省市区的销量,还会看售后服务的数据,就是从来没认真思考过这些。平时工作都是拍脑袋,看着哪个月问题多了就做个市场走访,收集收集问题回来写报告,从来没认真思考过到底什么数据算好!这么一说还真的有挺多东西可以挖的!

我继续鼓励他:是滴,这就是一个项目了!因为有明确的目标:改良产品,有明确的时间限制。如果你再主动跟踪下,你们改良后的产品批次是否故障率下降,这就是成果。这就是标标准准的一个数据驱动产品迭代升级的例子。谁说传统企业没有数据思维了,只是大家都习以为常了。

还是拖拉机哥,在整理了思路后,觉得自己有信心了。但他想面试的互联网公司大部分都要求python,SQL一类经验,在现有岗位上确实没得练习。还是得练爬虫。我又提示他:做产品研发,你们肯定会参照竞品是不是?以前的竞品信息八成是手动更新的吧。你可以把爬虫技能拿来练习爬竞品产品信息啊,从官网上、从阿里巴巴,反正只要能找到信息的都可以爬。这些可是货真价实对你工作有用的呢,不比爬什么拉勾网管用。


拖拉机哥恍然大悟:是啊,这样还能显得利用爬虫提高了工作效率,还能进一步分析,自学的也与工作结合了。这个例子敢拿出来讲,当然是happy ending,拖拉机哥如愿离开内地三线城市到了魔都成为一名互联网数据分析师,薪酬翻了1.5倍。虽然在陈老师看来,他那个薪酬在三线城市不少了,但是人各有志,达到自己的目标就好。


类似的例子还有很多,比如财务的同学可以练习ROI分析、做经营分析;比如运维的同学可以练习项目开发资源管理的分析;比如做销售的同学可以练习目标客户与销量分析;比如做开发的同学至少接触过数据可视化。其实,数据早已渗透进工作方方面面,对转行的同学来说,最大的敌人是:“习以为常”四个字。太多的固定思维,导致对数据不敏感,导致分析能力下降。导致看不到自己工作中的数据应用,导致过份依赖网上所谓“干货”。然而收藏的东西固然多,买的书本固然厚,能看完吸收的又有多少?


写sql,python是一种技能,数据分析是一种能力。技能可以照抄,能力需要锻炼。不练,永远不会。与大家共勉。

更多分享,可关注公众号:接地气学堂
 
业务知识一站通,数据分析师的第一堂企业实战课
https://edu.hellobi.com/course/179
有好几个方式
一、  在未开启R之前,在cmd中,输入下面指令
 r −−max−mem− s i z e =4Gb
二、  在开启R之后,可以使用memory.limit()函数,该函数中数据数字,就是申请内存的大小,以MB为单位
 memory.limit... 显示全部 »
有好几个方式
一、  在未开启R之前,在cmd中,输入下面指令
 r −−max−mem− s i z e =4Gb
二、  在开启R之后,可以使用memory.limit()函数,该函数中数据数字,就是申请内存的大小,以MB为单位
 memory.limit(4096)
 
你获取的rep使用正则匹配的内容就是这个  http://icon.58pic.com/static/images/0.gif  这个链接本身图片就为空
可以把rep打印出来看下  参考获取 data-url 标签属性来获取海报链接
你获取的rep使用正则匹配的内容就是这个  http://icon.58pic.com/static/images/0.gif  这个链接本身图片就为空
可以把rep打印出来看下  参考获取 data-url 标签属性来获取海报链接
1,总体和样本的数据量级差距大;
2,总体和样本各自的正反例相差比重相差很大;
3,样本的抽样规则是否符合业务(随机抽样还是分层抽样还是其他.....)
 
1,总体和样本的数据量级差距大;
2,总体和样本各自的正反例相差比重相差很大;
3,样本的抽样规则是否符合业务(随机抽样还是分层抽样还是其他.....)
 
技术更新,战术升级!Python爬虫案例实战从零开始一站通(连载中) https://edu.hellobi.com/course/261   课程公告上面
技术更新,战术升级!Python爬虫案例实战从零开始一站通(连载中) https://edu.hellobi.com/course/261   课程公告上面
3
推荐
4282
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

10
推荐
4687
浏览

数据分析师VS算命先生,除了算盘与键盘,还有啥差别?

想了解自己数据分析能力到了哪一层,戳{数据分析6个能力等级}想和大牛学更多思维方式,戳{和管理咨询顾问学思考}我们到底是在做预测还是算命 无论从各个层次,各个维度看,数据分析师和算命先生都有天渊之别...

陈老师 发表了文章 • 2017-05-16 16:32

2
推荐
3959
浏览

【重磅干货】65页PPT讲述一个完整R语言与数据挖掘的案例

一、如何用R语言做数据清洗1.1、数据质量分析—缺失值处理二、如何用R语言进行建模三、常用数据挖掘算法的基本原理及R语言实现3.1数据挖掘模型分类3.2常用数据挖掘模型四 、利用关联规则进行购物篮分析4.1关联规则...

datakong 发表了文章 • 2017-05-12 09:42

11
推荐
4084
浏览

精准营销大扫盲。破除模型迷信人人有责,有利你我他

其实最智能的精准营销模型叫亲妈,其次是迷魂汤 阿尔法狗化名master挑翻一众高手,引爆了人们对人工智能和算法的关注,也使得数据模型与算法再次成为热点话题。在各路自媒体大肆宣传下,似乎通过算法就可以...

陈老师 发表了文章 • 2017-04-21 15:33

5
推荐
2926
浏览

干货:如何找到游戏方面的数据集?

兔子最近想做有趣的小项目,有幸弄到了一个某站的播放广告数据(- -饿...这第一行title有点厉害)但是基本没有游戏相关的项目,于是发挥人肉, 哦不, 调查的功力找game datasets。所以,今天给大家分享一些目前网...

Dennis王镜程 发表了文章 • 2017-02-27 10:49

0
投票
3
已解决
2295
浏览
3
推荐
2583
浏览

借助tesseract包实现图片文本提取功能

2016年11月,Jeroen Ooms在CRAN发布了tesseract包,实现了R语言对简单图片的文本提取、分析功能。利用开源OCR引擎进行图片处理,目前可以识别超过100种语言,R语言可以借助tesseract调用OCR引擎进行相应操作。从...

R语言中文社区 发表了文章 • 2017-01-15 16:35

13
推荐
13277
浏览

如何七周成为数据分析师

写这个系列,是希望在当初知乎某一个回答的基础上,单独完善出针对互联网产品和运营们的教程。不论对数据分析或数据运营,我都希望它是一篇足够好的教材。得承认我有标题党之嫌,更准确说,这是一份七周的互联网...

秦路 发表了文章 • 2017-01-13 10:57

11
推荐
8954
浏览

案例+课件下载 | 绝对收藏!民生银行用户画像建设分享30页PPT放送

引言1、12月01日(周四晚) 民生银行用户画像建设直播地址:http://edu.hellobi.com/live/lesson/117/1702  (友情提醒:打开就可以看,建议PC端浏览器)2、加微信直播管理员微信:tsbeidou(请注明:...

天善智能 发表了文章 • 2016-12-01 10:44

1
推荐
5654
浏览

(理论+案例)如何通俗地理解极大似然估计?

极大似然估计最早在1821年首先由咱们的数学王子,高斯所提出。不过人们普遍认为这一方法的广大应用还是主要归功于,现代统计学的奠基人之一,英国统计学习费舍尔。从1912年起,他建立了以最大似然估计为中心的点...

浩彬老撕 发表了文章 • 2016-11-06 22:06

3
推荐
2382
浏览

值得膜拜的三个数据分析案例

今天给大家分享三个数据分析的经典案例,主要是学习其中的思路,当故事看吧,不要拘泥于文中故事的真实性。每个故事我简单的做一个点评吧1、数据分析大神 高手在民间这天,新上任的邢县长到小吃摊吃早餐,刚找个...

黄成明 发表了文章 • 2016-11-04 09:31

1
推荐
3325
浏览

Friday BI Fly | 2016年10月21日晚8点半微信直播交流在实践中挖掘数据的价值第36场 图文版记录

公告:周五BI飞起来,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴,锁定在每周五晚20:30,不见不散!未来几期的微信直播活动分享主题将包括在大数据、大变革、大成长、游戏行业数据仓库储存模型。...

天善智能 发表了文章 • 2016-10-24 10:30

5
推荐
3687
浏览

R语言可视化与NVD3

晓哥2016年10月20日NVD3简介R语言在数据科学里发挥着举足轻重的作用,在数据处理,数据建模方面都比较强大,除此之外,在可视化领域,R也大放异彩,除了大家熟悉的ggplot2可视化包,R封装了大量的前端库,如百度...

天善智能 发表了文章 • 2016-10-20 14:14

4
推荐
8163
浏览

统计挖掘那些事-超详尽回归分析指南(理论+动手案例)

上期文章:统计挖掘那些事那些情-一元回归分析一、理论部分简单地说,一元线性回归和多元线性回归都属于简单线性回归范畴,最直接的差异在于一元线性回归的自变量只有一个,而多元线性回归的自变量存在多个。尽管...

浩彬老撕 发表了文章 • 2016-10-07 21:04

0
投票
1
回答
5440
浏览
0
投票
0
回答
2435
浏览
0
投票
0
回答
1991
浏览
0
投票
0
回答
2691
浏览
0
投票
0
回答
1848
浏览
0
推荐
2046
浏览

数据调度平台etl系统二大种类及其实现方法与流程

什么是调度系统调度系统,更确切地说,作业调度系统(Job Scheduler)或者说工作流调度系统(workflow Scheduler)是任何一个稍微有点规模,不是简单玩玩的大数据开发平台都必不可少的重要组成部分。除了Crontab...

ETL批量调度-Taskctl 发表了文章 • 2020-07-06 15:30

0
推荐
2323
浏览

RFM分析模型(Python)

RFM分析模型广泛应用于识别优质客户,依据RFM模型分析结果可以定制个性化的沟通和服务方案,并为营销决策提供有力支持。RFM分析模型属于探索性分析方法中的一种,即从海量数据中,依据R、F、M三个指标,获取高价...

Max_Leo 发表了文章 • 2020-02-05 13:37

0
推荐
2354
浏览

Apriori算法(Python)

关联规则挖掘是数据挖掘中最活跃的研究方法之一,最早是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则,这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货,库...

Max_Leo 发表了文章 • 2020-02-02 11:23

0
推荐
1661
浏览

R语言基础代码

1.探索性数据分析install.packages("MASS") library(MASS)data(Insurance)#获取数据集View(Insurance)nrow(Insurance);ncol(Insurance)#显示数据集行列数dim(Insurance)#显示维度,效果同上head(Insurance) ...

DDlucky 发表了文章 • 2019-12-28 11:55

0
推荐
1339
浏览

Smartbi V9 厚积薄发,真正实现一站式分析服务

10月31日,Smartbi V9体验会在上海成功举办。会上,思迈特软件VP徐晶先生为大家带来《崛起:V9全新出发——新UI&DEMO,Smartbi历“9”弥新》的主题演讲,小麦把演讲内容整理成文,与未能到场参加活动的麦粉们一起...

大麦 发表了文章 • 2019-12-26 10:00

0
推荐
1594
浏览

决策引擎简述

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | Python数据分析与评分卡建模作者 | zhaikun01决策引擎的必要性极速放款、闪电借款、闪贷等成为了互金时...

数智物语 发表了文章 • 2019-10-21 18:12

0
推荐
1452
浏览

全面数据化助力新华百货领跑西北商业圈

引言:近期,小麦有幸拜访了银川新华百货连锁超市有限公司数据信息中心副总监靳莹先生,听他讲述新百连超如何实现数据化转型的故事,小麦将采访整理成文,以供欣赏。关于新华百货银川新华百货商业集团是北京物美...

大麦 发表了文章 • 2019-09-18 14:41

0
推荐
1464
浏览

Smartbi V9北京交流会圆满落下帷幕!

2019年8月29日,由广州思迈特软件有限公司(Smartbi)举办的“崛起·预见--Smartbi V9北京交流会”在北京希尔顿逸林酒店盛装开启!Smartbi V9全新版本自6月19日在广州发布以来,反响热烈,人气飙升。如今,Smartbi来...

大麦 发表了文章 • 2019-09-03 14:03

0
推荐
1915
浏览

Smartbi V9数据挖掘完整介绍

Smartbi Mining平台是一个注重于实际生产应用的数据分析预测平台,它旨在为个人、团队和企业所做的决策提供预测。该平台不仅可为用户提供直观的流式建模、拖拽式操作和流程化、可视化的建模界面,还提供了大量的...

大麦 发表了文章 • 2019-08-29 10:03

0
推荐
1410
浏览

数据挖掘之Spark学习

阅读路线:Hadoop与Spark比较Spark的安装Spark知识点一、Hadoop与Spark比较1.简单的比较刚开始学习Spark的时候,自己总是会想当然的理解两者之间的关系。Hadoop和Spark的处理任务有很多是一样的,比如说他们都是有...

DataFrog 发表了文章 • 2019-08-28 19:31

0
推荐
1188
浏览

数据挖掘工作所需技能—正则表达式

由于这两天所做的项目涉及到了文本分析的内容,并在处理脏乱文本(就是做一个词云图,要把英文、一些标点符号之类的给清除掉)时使用了正则表达式,所以特别来总结下。在以后的一段日子里,我会尽量总结在每周工作...

DataFrog 发表了文章 • 2019-08-28 19:28

0
推荐
1687
浏览

BI报表需要具备的条件与好处

企业经营的情况,通常以报表的形式展现。在企业中,报表制作的好坏,通常与制作人员的专业素养和使用的工具有关,好的报表工具往往可能使得即使是低级的制作也能以高端的形式展现。相比于传统的制作报表,现代的...

帆软软件 发表了文章 • 2019-08-27 10:01

0
推荐
1289
浏览

数据可视化工具与探索分析过程

大数据时代,数据的采集、分析、利用都进入了高速发展的阶段。数据可视化技术的嵌入,更是将数据使用的范围大幅度的提升,在企业的日常经营中,数据可视化的应用范围越来越广泛,所带来的影响也越来越大。数据可...

帆软软件 发表了文章 • 2019-08-26 14:53

0
推荐
1836
浏览

展开解读十大BI供应商

巨大的市场需求衍生出了许许多多的行业,每一个行业。都有着其代表型的企业,在相关领域占据着大量的市场份额,在大数据时代,与数据相关的商业智能,在世界各地,同样有其具有代表性的企业。今天,我将列举十大...

帆软软件 发表了文章 • 2019-08-26 11:50

0
推荐
1322
浏览

国内外商业智能知名厂商简介

数据发展的今天,各个行业都受到了大数据的影响。对于企业而言,更是如此,合理利用大数据带来的便利,将更有利于企业的发展,这时,选择一款合适的BI工具是非常关键的,一款合适的BI工具不仅能帮助公司预测用户...

帆软软件 发表了文章 • 2019-08-26 09:18

  数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程