数据挖掘

数据挖掘

1
推荐
66
浏览

【数据挖掘实操】用文本挖掘剖析近5万首《全唐诗》

作者:苏格兰折耳喵个人公众号: 运营喵是怎样炼成的温馨提示:图片显示毛糙和不清楚,是分辨率过高的缘故,点击图片,即可看到高清大图楔子近些年来,弘扬中华传统文化的现象级综艺节目不断涌现,如《中国...

Python爱好者社区 发表了文章 • 3 天前

0
推荐
36
浏览

Python告诉你上海有哪些高性价比的西餐厅

作者:强哥,现供职于一家大型全球电子商务网站,多年Python程序员,热爱数据,热爱AI,希望能与更多同业人交流。个人公众号:Python与数据分析我们用Python爬了下点评上所有上海的西餐厅,看看上海都有哪些高性...

Python爱好者社区 发表了文章 • 3 天前

0
推荐
64
浏览

推荐系统遇上深度学习(二十七)--知识图谱与推荐系统结合之RippleNet模型原理及实现

知识图谱特征学习在推荐系统中的应用步骤大致有以下三种方式:依次训练的方法主要有:Deep Knowledge-aware Network(DKN)联合训练的方法主要有:Ripple Network交替训练主要采用multi-task的思路,主要方法有:Mu...

石晓文 发表了文章 • 4 天前

0
推荐
55
浏览

推荐系统遇上深度学习(二十六)--知识图谱与推荐系统结合之DKN模型原理及实现

在本系列的上一篇中,我们大致介绍了一下知识图谱在推荐系统中的一些应用,我们最后讲到知识图谱特征学习(Knowledge Graph Embedding)是最常见的与推荐系统结合的方式,知识图谱特征学习为知识图谱中的每个实体和...

石晓文 发表了文章 • 2018-11-09 09:30

0
推荐
44
浏览

线性回归 OR 非线性回归?——CLEMENTINE来挖掘

1.读取数据,绘制散点图2.线性模型3.非线性4.拟合图形 

LMM-李 发表了文章 • 2018-11-08 23:31

0
推荐
45
浏览

决策树原理

转自:https://blog.csdn.net/sjpljr/article/details/70169165分类预测指通过向现有数据的学习,使模型具备对未来新数据的预测能力。对于分类预测有这样几个重要,一是此模型使用的方法是归纳和提炼,而不是演绎...

LMM-李 发表了文章 • 2018-11-08 22:43

0
推荐
52
浏览

数据挖掘——银行客户违约预测(决策树也可以很简单)

案例背景      当银行发放信用卡和贷款的时候,可以根据违约情况是否需要贷款给客户等重要决策。银行想通过客户借贷状况来衡量客户的还款能力,以决定是否发放贷款给客户,同时也为了降低传统审核...

LMM-李 发表了文章 • 2018-11-08 22:28

0
推荐
32
浏览

数据的合并与追加——so easy!

1.数据的合并2.数据的追加

LMM-李 发表了文章 • 2018-11-08 21:46

0
推荐
60
浏览

数据挖掘与预测—PS CLEMENTINE PRO

模型与算法: 包含由基础统计分析模型到深度学习算法,例如决策树、神经网络、支持向量机等。 PS CLEMENTINE PROPS CLEMENTINE PRO—基于IBM SPSS Modeler,一个享誉全球的数据挖掘和大数据分析环境。该解决...

LMM-李 发表了文章 • 2018-11-08 21:24

1
推荐
87
浏览

【双11特惠】陈老师课程介绍及选课指南

作者:陈老师   个人公众号:接地气学堂配套课程:业务知识一站通,数据分析师的第一堂企业实战课 https://edu.hellobi.com/course/179 关键词:1400+学员,七大精选行业案例,双十一五折优...

人工智能爱好者社区 发表了文章 • 2018-11-05 15:44

0
推荐
107
浏览

PS IMAGO PRO——统计分析和仪表板制作

PS IMAGO PRO是一个全方位分析与报告解决方案,为分析人员提供了一个集成环境来分析数据、制作报告。它包括了IBM SPSS Statistics提供的所有分析功能,从数据探索到多维分析和预测模型的构建,还新增许多可视化图...

LMM-李 发表了文章 • 2018-11-05 15:06

0
推荐
95
浏览

推荐系统遇上深度学习(二十五)--当知识图谱遇上个性化推荐

1、推荐系统的任务和难点推荐问题的本质是代替用户评估其从未看过、接触过或者使用过的物品。推荐系统一般分为两类:评分预测:预测用户对物品的评价。比如在电影推荐中,系统需要预测用户对电影的评分,并以此为...

石晓文 发表了文章 • 2018-11-05 12:45

0
推荐
70
浏览

NLPIR-KGB大数据知识图谱引擎深度挖掘行业数据

  随着计算机互联网、移动互联网、物联网、平板电脑、手机的大众化和微博、论坛、微信等网络交流方式的日益红火,数据资料的增长正发生着巨大的变化。大数据兴起的主要原因是数据量越来越大。从监测的数据来看...

ljrj123 发表了文章 • 2018-11-05 11:18

3
推荐
206
浏览

推荐系统遇上深度学习(二十四)--深度兴趣进化网络DIEN原理及实战!

在本系列的第十八篇(https://www.jianshu.com/p/73b6f5d00f46)中,我们介绍了阿里的深度兴趣网络(Deep Interest Network,以下简称DIN),时隔一年,阿里再次升级其模型,提出了深度兴趣进化网络(Deep Interest Ev...

石晓文 发表了文章 • 2018-11-04 21:45

条新动态, 点击查看
浩彬老撕

浩彬老撕 回答了问题 • 2017-06-15 23:26 • 2 个回复 不感兴趣

从数据挖掘角度比较SAS和SPSS?

赞同来自:

我不得不反对楼上的答案。
单纯从客观来看:clementine已是收购前多年的产品,而且所谓的聚类,决策树,文本挖掘SPSS Modeler真的n年前就支持了。至于楼上主观的评价,我就不说了。
 
用我在知乎的一个回答来说:
问题“SPSS与SAS在国内企业中... 显示全部 »
我不得不反对楼上的答案。
单纯从客观来看:clementine已是收购前多年的产品,而且所谓的聚类,决策树,文本挖掘SPSS Modeler真的n年前就支持了。至于楼上主观的评价,我就不说了。
 
用我在知乎的一个回答来说:
问题“SPSS与SAS在国内企业中 哪个认可度更高?”
1.首先回答楼主问题,确实金融行业和医药确实SAS会更占有优势,但要加一个定语,在数据挖掘领域。在国内五大行基本SAS玩得很溜。当然SAS的收费模式问题,也有一些银行会SPSS与SAS一起用。另外在传统的社会科学上,心理学,社会学,教育,政府,SPSS会更多(尤其是统计的Statistics).楼主要注意的是,尤其是SPSS,数据挖掘的Modeler与统计分析的Statistics在企业分是非常不一样的
2.楼上有人说利益相关,提到matlab,我觉得要区分一点,matlab在金融一般应用在定价上,这一点是毋容置疑的强势。但是我觉得和楼主的提问应该是不同维度,在通用商业领域,主要的还是SPSS与SAS为主,认可度都非常高。
3.互联网行业的话可能普遍爱好开源工具,所以R与Python现在越来越火了,但要说压缩SPSS与SAS的市场为为时过早,这个时间是多久,我觉得还有待商榷。在普通企业里面,SAS与SPSS作为商业软江的稳定性和性能还是受到企业重视。
4.从招聘角度回答楼主问题,JD上明确要求软件技能出现的数量应该是SAS>=SPSS>=R(Python我不算特别熟,不好评价)
5.最后,我个人是使用SPSS+R
哈哈哈,还真相信了……数据分析就是一个内部岗位,没有产生任何价值,所谓年薪百万都是编出来忽悠人的,指条明路哈:去阿里,百度做搜索算法,或者去今日头条做推荐算法,如果能录用的话,工资大概30w/年,根据部门绩效可能有些奖金,这是做算法的最好的去处了,银行,移动,... 显示全部 »
哈哈哈,还真相信了……数据分析就是一个内部岗位,没有产生任何价值,所谓年薪百万都是编出来忽悠人的,指条明路哈:去阿里,百度做搜索算法,或者去今日头条做推荐算法,如果能录用的话,工资大概30w/年,根据部门绩效可能有些奖金,这是做算法的最好的去处了,银行,移动,电信大把会做算法的人, 年薪也就十几万左右……数据分析真正的出路是管理线,做部门领导,带团队带项目,只要上了管理线,一个数据中心老大的薪资应该有60-80万/年。……拒绝迷信算法,正确看待发展前景,从我做起,人人有责,哈哈哈
师兄你好O(∩_∩)O!
没毕业,工作的大概8个月吧,一直都是在做数据方面的工作,总结经验而言,觉得如果不是计算机专业的进入这行可以通过报表方面入手,cognos、tableau等的这些工具可以去学习着使用。
一个成功的案例--我的直属老板,她是语言专业的,毕... 显示全部 »
师兄你好O(∩_∩)O!
没毕业,工作的大概8个月吧,一直都是在做数据方面的工作,总结经验而言,觉得如果不是计算机专业的进入这行可以通过报表方面入手,cognos、tableau等的这些工具可以去学习着使用。
一个成功的案例--我的直属老板,她是语言专业的,毕业开始到现在现在做了大概也8年了,一直都是在做数据方面的东西,开始的时候她也是做报表(BO)的。然后走技术到现在一个人挑起几个较大的项目。
希望对你有帮助!
Python基本语法  https://edu.hellobi.com/course/103
Python数据挖掘  https://edu.hellobi.com/course/104
Python网络爬虫  https://edu.hellobi.co... 显示全部 »
Python基本语法  https://edu.hellobi.com/course/103
Python数据挖掘  https://edu.hellobi.com/course/104
Python网络爬虫  https://edu.hellobi.com/course/81
把这些学习了,你就会有很清晰的路线了
ID王大伟

ID王大伟 回答了问题 • 2017-05-08 12:48 • 1 个回复 不感兴趣

你有哪些好的python数据处理编程习惯?

赞同来自:

我个人简单谈谈吧
1.及时备份数据,因为任何想象的可能和实际结果不同,所以处理下一步前最好备份一份
2.处理程序也要即时备份
3.推荐用Jupyter notebook(因为可以记录每步的结果,测试的话重新回车即可)而pycharm注释的话比较麻烦,用#或者'... 显示全部 »
我个人简单谈谈吧
1.及时备份数据,因为任何想象的可能和实际结果不同,所以处理下一步前最好备份一份
2.处理程序也要即时备份
3.推荐用Jupyter notebook(因为可以记录每步的结果,测试的话重新回车即可)而pycharm注释的话比较麻烦,用#或者'''容易改乱程序
4.使用numpy和pandas包
量化是一门跨学科的知识,你需要IT+统计+金融知识。
 
金融知识 = 金融市场 + 金融理论, 这些金融市场的知识,你需要去交易来获得, 金融理论你可以看书《投资书》,《期权、期货和其他衍生品》
量化是一门跨学科的知识,你需要IT+统计+金融知识。
 
金融知识 = 金融市场 + 金融理论, 这些金融市场的知识,你需要去交易来获得, 金融理论你可以看书《投资书》,《期权、期货和其他衍生品》
你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少,导致并行度不够,故写入速度慢。意见是尝试吧分区数调整... 显示全部 »
你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少,导致并行度不够,故写入速度慢。意见是尝试吧分区数调整为5或10再试试
 数据挖掘。不过要求比较高的咯,需要数学能力强悍,微积分 矩阵、线性规划。概率论、数理统计等
 不过不要担心慢慢学。肯定会有收获的哈 
 数据挖掘。不过要求比较高的咯,需要数学能力强悍,微积分 矩阵、线性规划。概率论、数理统计等
 不过不要担心慢慢学。肯定会有收获的哈 
用stringr包里面的str_replace_all函数把k替换掉
用stringr包里面的str_replace_all函数把k替换掉
我也是小白,你学的这些对我来说好高深啊,如果是我的话,数据收集我会用R来爬网络数据(会python的话更简单吧),然后进行数据Excel或者R进行数据清洗,看自己的数据类型想要什么,然后直接套R里面的回归或者决策或者神经网络就可以了。要是机器学习过程会更复杂吧... 显示全部 »
我也是小白,你学的这些对我来说好高深啊,如果是我的话,数据收集我会用R来爬网络数据(会python的话更简单吧),然后进行数据Excel或者R进行数据清洗,看自己的数据类型想要什么,然后直接套R里面的回归或者决策或者神经网络就可以了。要是机器学习过程会更复杂吧~加油啊o(* ̄︶ ̄*)o
讲一个不懂编程也能入门的路线。

说到超级菜鸟:女生,二本,市场营销专业,别说vlookup连sum是啥都不知道,代码一个字母都不会,平时工作连电脑都不咋敲,这个应该够超级菜了。(确实是个小姐姐,没有性别歧视的意思哈)。唯一的优势就是颜值还行。小姐姐毕业后去了... 显示全部 »
讲一个不懂编程也能入门的路线。

说到超级菜鸟:女生,二本,市场营销专业,别说vlookup连sum是啥都不知道,代码一个字母都不会,平时工作连电脑都不咋敲,这个应该够超级菜了。(确实是个小姐姐,没有性别歧视的意思哈)。唯一的优势就是颜值还行。小姐姐毕业后去了某个银行信用卡中心做业务员。某段时候我在做银行项目,广泛体验各个银行的信用卡,于是就这么机缘巧合的认识了。100%出于想了解银行发卡模式,而不是被小姐姐颜值吸引的原因,我很认真的和她聊了平时的工作情况。得知这个小姐姐业绩非常的好,团队Ace,每月激活卡100张以上,个人收入估算接2w以上了。


有意思的是,小姐姐对我的工作也很感兴趣。她问我:“如何能转行到后台做工作?”我很惊讶,为什么收入这么好还想转数据分析呢?不觉得没钱途吗?要知道很多号称“数据分析师”都没有一年25万的。小姐姐表示:因为跑业务太辛苦了,风吹日晒,而且一天不做一天没收入,这日子没法过下去了。“还是你们后台好,对着电脑敲敲就有钱拿,为啥不做”。100%出于分享知识的考虑,我和小姐姐做了深度沟通。发现对于已经工作的同学而言,转行有着至少三大难关。


第一,曰:没精力。作为一个Ace销售,小姐姐性格非常独立坚强。想要她放下工作,关门谢客,再交上几万块培训费去读个培训班是非常不现实的。人家已经习惯了照顾家人而不是被人照顾。而且处于工作敏感性,她也不信任那些培训机构的销售:“还交一万九年薪五十万就业,他自己怎么不交一万九还在这卖课?”好吧,这个逻辑简直无懈可击


第二,曰:没基础。我也试着向小姐姐介绍sas,不过真的是一个字都看不懂。“我在学校都没搞懂,现在咋可能搞懂”好吧,又是一个无懈可击的逻辑。那试着介绍一下spss吧,可视化戳戳戳总行了吧。结果发现光安装就卡了好久。而且一点统计基础都没有的话,也不知道戳出来是个啥。

第三,曰:没记性。我转了一些文章让小姐姐看,基本上前脚看后脚忘。因为工作中用不到。实际上,我自己也有这种感觉。工作中用不到的东西,即使对着学了忘的也特别快。因为平时不用啊,就靠对着课本练,脱离书就是个呆子。


咋办?我认真思考了问题的关键:如果能找到一个工作中就能用到的例子开始训练就好了。真是完全没有基础的话,一上来就列一堆信息、公式、概念只会把人绕晕。如果能找个简单的方法让她理解到:什么是数据、什么是分析,后续如何做数据分析就是水到渠成的事。刚好我当时正在做相关的项目,优秀的销售和死蠢的销售都接触过,这一点极大的启发了我后来的思路。

我试着启发小姐姐的思路,从一个简单的问题开始:什么样的顾客容易成功?小姐姐瞬间打开了话匣子,列举一堆例子。OK,这里先不急着讲完所有故事,我拿出了银行信用卡申请表,问道:假设把刚才故事里的顾客特征对应到表上需要填的这些空格,该如何填?小姐姐愣了一下,然后开始笑话这些申请表能记录的信息太少,很多信息需要销售直观判断。OK,我继续引导:所以这里就有两类信息:一类容易记录的、客观的、格式化的数据,一类难记录的、主观的、个性化的数据。然而,后台的工作人员远在千里之外,他们无法直面顾客,他们只能通过能记录的数据来判断,考虑做什么样的政策,出什么样产品。所以,如果你真想转到后台去的话,你就得想办法:要么从现有的有限的数据中得出结论,要么把主观的数据合理记录下来。


小姐姐似乎想到了什么,然后开始说:那样的话,这里哪几个字段可能最有用处,这里哪些字段其实都是销售们瞎填的。如果真需要添加的话,能不能添加1,2,3,4个维度,而且为了防止一线的销售们瞎搞,还可以配合比如工牌照片、人车合照等等办法。我们边聊,边拿出一张值,把可以用的、有问题的、需要添加的字段都记录下来,并且标上数据格式,填写规范等等。完成以后,我开始介绍:这就是后台部门面临的数据库的简单样式,有字段、字段属性、数据来源、数据真实性、数据清理等等等问题。小姐姐似乎一下恍然大悟,这样讲比一上来讲什么数据仓储容易理解多了。

于是我趁胜追击,开始引导一下阶段问题:你看,你一个月能做100多张卡,有没有计算过办哪些卡,总收入更高?(不同信用卡对应的提成,是否伴随贷款,是否开自动还款业务都会影响提成收入)。小姐姐开始认真考虑不同产品组合下自己的收入。之前也有考虑过,但从没有认真计算过数据,都是自己粗略估算或者听营销中心的日报。有了之前的基础,我们开始分解日报。利用一张最基础的含用户、卡信息的excel表,开始试着做数据统计,计算收入。因为和收入有关,所以小姐姐计算起来格外起劲。并且数据透视表、求和、平均值、if等公式用几次就会了。

于是我趁胜追击*2,开始引导一下阶段问题:你看,这些卡片销售数据和顾客特征结合起来,是不是可以看出来哪些顾客容易办哪种卡?(不是所有的申请表都会被批准的,多多少少都会退一批,填写规范下,过审率一般六成左右)。小姐姐一下兴趣被调了起来,因为被退卡是一线销售非常深恶痛绝的事,因此我们继续拿基础excel表练习,这次是练习交叉表。开始交叉分类看用户特征,试着用不同维度交叉,看哪些类型用户更容易被pass。尝试几次后,竟然发现销售们日常总结的审批规律,有一些还真有道理,甚至还反推出一些审批的潜规则。

于是我趁胜追击*3,开始引导一下阶段问题:你看,你作为这么厉害的销售,肯定有些人会比你差。你和他们比,他们差在哪里。小姐姐又一下兴趣大开,讲了一堆很具体的行为差异。OK,我们回归一下,把这些具体事件中的可以用数据量化的部分截取出来,把那些不能用数据量化的部分,看看是否能有字段记录。这样再归纳以后,就找出来衡量销售行为的基本指标,进而导出了分析团队业绩的基本思路。(实际上,我直接分享了部分项目结论给她。自己解读数据是个很好的尝试思路,但是一个0基础自学者,自己总结结论还是太难了)。

完成这几步以后,小姐姐已经基本具备了数据分析的初级能力,还差临门一脚:简历要怎么投?因为数据分析范围实在太宽泛了,即使做了训练,以小姐姐的能力投开发类岗位也实在是天方夜谭。好在银行里各个分行、营销中心都有数据专员的岗位,这些岗位主要任务就是做销售数据分解和解读,小姐姐的能力非常适合。最后临门一脚,帮小姐姐包装一下简历,一顿饭的功夫,突出一下在分析问题上的经验和能力,之后便一投即中。虽然薪资降低了不少,但是还是如愿做了不用风吹日晒的后台工作。


后来,听说小姐姐嫁了人。俺也在太太的监督下,清空了所有这种100%出于学习分享目的讲过一大堆话的小姐姐的联系方式。后续的情况不得而知。但这确实是我指导过的,最有挑战性、最0基础、也最快速实现转行的例子了。前后用了没俩月。回想起来,小姐姐虽然数学和代码基础差,但有几个优势:


第一,业务能力强。对业务流程非常熟悉,有丰富实战经验。这样很容易找出业务中的问题,就容易找到分析问题的思路,看到数据也容易明白含义。第二,思维逻辑性好。比如第一步总结顾客特征,她可以很快理解我的用意,把那些一个个具体的人,归纳成:39岁、小企业主、500万经营收入、本地人等等字段。数据分析是以字段为基础的,这一步如果理解不了,就真的深入不下去了。我也见过很多思维方式特别感性的人,就是卡在这一步,始终无法把一个具体事情抽象成一组数据,后边的分析也就无法基于数据进行了。他们更多是基于感情、直觉做判断,把数据分析的过程视为一个黑箱,等着听结论。第三,动手能力强。Excel操作几次就会了,没有耽搁很多时间反复练习。第四,公关能力强。营销中心、卡中心她认识不少人,直接拿到了内部一些数据表做练习,进步非常快。这个真的是用模拟数据无法比拟的优势了。

而我只是起到一个穿针引线的作用。找了一个好的切入点,吊起来她的兴趣,让她能坚持思考下去,而不是半途而废。或者装着一脑袋和工作完全不相关的东西,完全不知道学了有什么用。其实数据分析,是数据+分析组成的。技术上如何生成数据是一个切入点。业务上如何做分析也是一个切入点。能从问题出发的好处,就是能以始为终,很快找到思路。当然,这是以能理解数据字段、数据来源为前提的。


当然,这是极特别的个案,其实但凡有一些excel、sql基础,上路都不会这么艰难,也不需要那么强公关能力或者颜值什么的。即使看起来行业差的特别远,即使岗位看起来特别奇怪也没有关系。因为数据分析其实是职场的一项基本技能,在哪里都有用,在哪里都能练习。

比如我遇到过一个三线城市做拖拉机设计的男同学。他想转数据分析,但满眼望去,都是“互联网数据分析XXX”。感觉自己的工作跟数据分析,跟互联网很遥远。然而我不这么认为。我提示他:你做设计,也分创新设计和改良设计。如果改良,你要改哪些款?为什么选这些款?是销量不好,还是故障率高,还是用户口碑差?如果是销量不好,怎么判定好?数据从哪里来?标准怎么定?

拖拉机哥认真想想,忽然觉得恍然大悟:是哦!平时会走访市场,会看不同省市区的销量,还会看售后服务的数据,就是从来没认真思考过这些。平时工作都是拍脑袋,看着哪个月问题多了就做个市场走访,收集收集问题回来写报告,从来没认真思考过到底什么数据算好!这么一说还真的有挺多东西可以挖的!

我继续鼓励他:是滴,这就是一个项目了!因为有明确的目标:改良产品,有明确的时间限制。如果你再主动跟踪下,你们改良后的产品批次是否故障率下降,这就是成果。这就是标标准准的一个数据驱动产品迭代升级的例子。谁说传统企业没有数据思维了,只是大家都习以为常了。

还是拖拉机哥,在整理了思路后,觉得自己有信心了。但他想面试的互联网公司大部分都要求python,SQL一类经验,在现有岗位上确实没得练习。还是得练爬虫。我又提示他:做产品研发,你们肯定会参照竞品是不是?以前的竞品信息八成是手动更新的吧。你可以把爬虫技能拿来练习爬竞品产品信息啊,从官网上、从阿里巴巴,反正只要能找到信息的都可以爬。这些可是货真价实对你工作有用的呢,不比爬什么拉勾网管用。


拖拉机哥恍然大悟:是啊,这样还能显得利用爬虫提高了工作效率,还能进一步分析,自学的也与工作结合了。这个例子敢拿出来讲,当然是happy ending,拖拉机哥如愿离开内地三线城市到了魔都成为一名互联网数据分析师,薪酬翻了1.5倍。虽然在陈老师看来,他那个薪酬在三线城市不少了,但是人各有志,达到自己的目标就好。


类似的例子还有很多,比如财务的同学可以练习ROI分析、做经营分析;比如运维的同学可以练习项目开发资源管理的分析;比如做销售的同学可以练习目标客户与销量分析;比如做开发的同学至少接触过数据可视化。其实,数据早已渗透进工作方方面面,对转行的同学来说,最大的敌人是:“习以为常”四个字。太多的固定思维,导致对数据不敏感,导致分析能力下降。导致看不到自己工作中的数据应用,导致过份依赖网上所谓“干货”。然而收藏的东西固然多,买的书本固然厚,能看完吸收的又有多少?


写sql,python是一种技能,数据分析是一种能力。技能可以照抄,能力需要锻炼。不练,永远不会。与大家共勉。

更多分享,可关注公众号:接地气学堂
 
业务知识一站通,数据分析师的第一堂企业实战课
https://edu.hellobi.com/course/179
有好几个方式
一、  在未开启R之前,在cmd中,输入下面指令
 r −−max−mem− s i z e =4Gb
二、  在开启R之后,可以使用memory.limit()函数,该函数中数据数字,就是申请内存的大小,以MB为单位
 memory.limit... 显示全部 »
有好几个方式
一、  在未开启R之前,在cmd中,输入下面指令
 r −−max−mem− s i z e =4Gb
二、  在开启R之后,可以使用memory.limit()函数,该函数中数据数字,就是申请内存的大小,以MB为单位
 memory.limit(4096)
 
许胜利

许胜利 回答了问题 • 2018-02-27 09:23 • 1 个回复 不感兴趣

新手求助urllib库爬取千图网的海报内容为0

赞同来自:

你获取的rep使用正则匹配的内容就是这个  http://icon.58pic.com/static/images/0.gif  这个链接本身图片就为空
可以把rep打印出来看下  参考获取 data-url 标签属性来获取海报链接
你获取的rep使用正则匹配的内容就是这个  http://icon.58pic.com/static/images/0.gif  这个链接本身图片就为空
可以把rep打印出来看下  参考获取 data-url 标签属性来获取海报链接
1,总体和样本的数据量级差距大;
2,总体和样本各自的正反例相差比重相差很大;
3,样本的抽样规则是否符合业务(随机抽样还是分层抽样还是其他.....)
 
1,总体和样本的数据量级差距大;
2,总体和样本各自的正反例相差比重相差很大;
3,样本的抽样规则是否符合业务(随机抽样还是分层抽样还是其他.....)
 
技术更新,战术升级!Python爬虫案例实战从零开始一站通(连载中) https://edu.hellobi.com/course/261   课程公告上面
技术更新,战术升级!Python爬虫案例实战从零开始一站通(连载中) https://edu.hellobi.com/course/261   课程公告上面
3
推荐
1345
浏览

《人人都会数据分析》20万字电子版

去年的时间把之前的数据分析工作经历、大环境背景、职场选择、公司选择、岗位选择、统计学的基本常识、需要掌握的分析工具、怎么写好一个报告、互联网和金融行业的分析场景这些都整理了下。具体购买链接:https:/...

面包君 发表了文章 • 2018-01-03 15:15

10
推荐
1591
浏览

数据分析师VS算命先生,除了算盘与键盘,还有啥差别?

想了解自己数据分析能力到了哪一层,戳{数据分析6个能力等级}想和大牛学更多思维方式,戳{和管理咨询顾问学思考}我们到底是在做预测还是算命 无论从各个层次,各个维度看,数据分析师和算命先生都有天渊之别...

陈老师 发表了文章 • 2017-05-16 16:32

2
推荐
1072
浏览

【重磅干货】65页PPT讲述一个完整R语言与数据挖掘的案例

一、如何用R语言做数据清洗1.1、数据质量分析—缺失值处理二、如何用R语言进行建模三、常用数据挖掘算法的基本原理及R语言实现3.1数据挖掘模型分类3.2常用数据挖掘模型四 、利用关联规则进行购物篮分析4.1关联规则...

datakong 发表了文章 • 2017-05-12 09:42

11
推荐
1582
浏览

精准营销大扫盲。破除模型迷信人人有责,有利你我他

其实最智能的精准营销模型叫亲妈,其次是迷魂汤 阿尔法狗化名master挑翻一众高手,引爆了人们对人工智能和算法的关注,也使得数据模型与算法再次成为热点话题。在各路自媒体大肆宣传下,似乎通过算法就可以...

陈老师 发表了文章 • 2017-04-21 15:33

5
推荐
763
浏览

干货:如何找到游戏方面的数据集?

兔子最近想做有趣的小项目,有幸弄到了一个某站的播放广告数据(- -饿...这第一行title有点厉害)但是基本没有游戏相关的项目,于是发挥人肉, 哦不, 调查的功力找game datasets。所以,今天给大家分享一些目前网...

Dennis王镜程 发表了文章 • 2017-02-27 10:49

0
投票
3
已解决
679
浏览
3
推荐
887
浏览

借助tesseract包实现图片文本提取功能

2016年11月,Jeroen Ooms在CRAN发布了tesseract包,实现了R语言对简单图片的文本提取、分析功能。利用开源OCR引擎进行图片处理,目前可以识别超过100种语言,R语言可以借助tesseract调用OCR引擎进行相应操作。从...

R语言中文社区 发表了文章 • 2017-01-15 16:35

13
推荐
6416
浏览

如何七周成为数据分析师

写这个系列,是希望在当初知乎某一个回答的基础上,单独完善出针对互联网产品和运营们的教程。不论对数据分析或数据运营,我都希望它是一篇足够好的教材。得承认我有标题党之嫌,更准确说,这是一份七周的互联网...

秦路 发表了文章 • 2017-01-13 10:57

11
推荐
5345
浏览

案例+课件下载 | 绝对收藏!民生银行用户画像建设分享30页PPT放送

引言1、12月01日(周四晚) 民生银行用户画像建设直播地址:http://edu.hellobi.com/live/lesson/117/1702  (友情提醒:打开就可以看,建议PC端浏览器)2、加微信直播管理员微信:tsbeidou(请注明:...

天善智能 发表了文章 • 2016-12-01 10:44

1
推荐
1587
浏览

(理论+案例)如何通俗地理解极大似然估计?

极大似然估计最早在1821年首先由咱们的数学王子,高斯所提出。不过人们普遍认为这一方法的广大应用还是主要归功于,现代统计学的奠基人之一,英国统计学习费舍尔。从1912年起,他建立了以最大似然估计为中心的点...

浩彬老撕 发表了文章 • 2016-11-06 22:06

3
推荐
749
浏览

值得膜拜的三个数据分析案例

今天给大家分享三个数据分析的经典案例,主要是学习其中的思路,当故事看吧,不要拘泥于文中故事的真实性。每个故事我简单的做一个点评吧1、数据分析大神 高手在民间这天,新上任的邢县长到小吃摊吃早餐,刚找个...

黄成明 发表了文章 • 2016-11-04 09:31

1
推荐
1198
浏览

Friday BI Fly | 2016年10月21日晚8点半微信直播交流在实践中挖掘数据的价值第36场 图文版记录

公告:周五BI飞起来,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴,锁定在每周五晚20:30,不见不散!未来几期的微信直播活动分享主题将包括在大数据、大变革、大成长、游戏行业数据仓库储存模型。...

天善智能 发表了文章 • 2016-10-24 10:30

5
推荐
1485
浏览

R语言可视化与NVD3

晓哥2016年10月20日NVD3简介R语言在数据科学里发挥着举足轻重的作用,在数据处理,数据建模方面都比较强大,除此之外,在可视化领域,R也大放异彩,除了大家熟悉的ggplot2可视化包,R封装了大量的前端库,如百度...

天善智能 发表了文章 • 2016-10-20 14:14

4
推荐
3315
浏览

统计挖掘那些事-超详尽回归分析指南(理论+动手案例)

上期文章:统计挖掘那些事那些情-一元回归分析一、理论部分简单地说,一元线性回归和多元线性回归都属于简单线性回归范畴,最直接的差异在于一元线性回归的自变量只有一个,而多元线性回归的自变量存在多个。尽管...

浩彬老撕 发表了文章 • 2016-10-07 21:04

0
投票
0
回答
347
浏览
0
投票
2
回答
619
浏览

Python 文本挖掘

cdn007 回复了问题 • 2018-05-02 10:00
0
投票
1
已解决
314
浏览
0
推荐
36
浏览

Python告诉你上海有哪些高性价比的西餐厅

作者:强哥,现供职于一家大型全球电子商务网站,多年Python程序员,热爱数据,热爱AI,希望能与更多同业人交流。个人公众号:Python与数据分析我们用Python爬了下点评上所有上海的西餐厅,看看上海都有哪些高性...

Python爱好者社区 发表了文章 • 3 天前

0
推荐
64
浏览

推荐系统遇上深度学习(二十七)--知识图谱与推荐系统结合之RippleNet模型原理及实现

知识图谱特征学习在推荐系统中的应用步骤大致有以下三种方式:依次训练的方法主要有:Deep Knowledge-aware Network(DKN)联合训练的方法主要有:Ripple Network交替训练主要采用multi-task的思路,主要方法有:Mu...

石晓文 发表了文章 • 4 天前

0
推荐
55
浏览

推荐系统遇上深度学习(二十六)--知识图谱与推荐系统结合之DKN模型原理及实现

在本系列的上一篇中,我们大致介绍了一下知识图谱在推荐系统中的一些应用,我们最后讲到知识图谱特征学习(Knowledge Graph Embedding)是最常见的与推荐系统结合的方式,知识图谱特征学习为知识图谱中的每个实体和...

石晓文 发表了文章 • 2018-11-09 09:30

0
推荐
44
浏览

线性回归 OR 非线性回归?——CLEMENTINE来挖掘

1.读取数据,绘制散点图2.线性模型3.非线性4.拟合图形 

LMM-李 发表了文章 • 2018-11-08 23:31

0
推荐
45
浏览

决策树原理

转自:https://blog.csdn.net/sjpljr/article/details/70169165分类预测指通过向现有数据的学习,使模型具备对未来新数据的预测能力。对于分类预测有这样几个重要,一是此模型使用的方法是归纳和提炼,而不是演绎...

LMM-李 发表了文章 • 2018-11-08 22:43

0
推荐
52
浏览

数据挖掘——银行客户违约预测(决策树也可以很简单)

案例背景      当银行发放信用卡和贷款的时候,可以根据违约情况是否需要贷款给客户等重要决策。银行想通过客户借贷状况来衡量客户的还款能力,以决定是否发放贷款给客户,同时也为了降低传统审核...

LMM-李 发表了文章 • 2018-11-08 22:28

0
推荐
32
浏览

数据的合并与追加——so easy!

1.数据的合并2.数据的追加

LMM-李 发表了文章 • 2018-11-08 21:46

0
推荐
60
浏览

数据挖掘与预测—PS CLEMENTINE PRO

模型与算法: 包含由基础统计分析模型到深度学习算法,例如决策树、神经网络、支持向量机等。 PS CLEMENTINE PROPS CLEMENTINE PRO—基于IBM SPSS Modeler,一个享誉全球的数据挖掘和大数据分析环境。该解决...

LMM-李 发表了文章 • 2018-11-08 21:24

1
推荐
87
浏览

【双11特惠】陈老师课程介绍及选课指南

作者:陈老师   个人公众号:接地气学堂配套课程:业务知识一站通,数据分析师的第一堂企业实战课 https://edu.hellobi.com/course/179 关键词:1400+学员,七大精选行业案例,双十一五折优...

人工智能爱好者社区 发表了文章 • 2018-11-05 15:44

0
推荐
107
浏览

PS IMAGO PRO——统计分析和仪表板制作

PS IMAGO PRO是一个全方位分析与报告解决方案,为分析人员提供了一个集成环境来分析数据、制作报告。它包括了IBM SPSS Statistics提供的所有分析功能,从数据探索到多维分析和预测模型的构建,还新增许多可视化图...

LMM-李 发表了文章 • 2018-11-05 15:06

0
推荐
95
浏览

推荐系统遇上深度学习(二十五)--当知识图谱遇上个性化推荐

1、推荐系统的任务和难点推荐问题的本质是代替用户评估其从未看过、接触过或者使用过的物品。推荐系统一般分为两类:评分预测:预测用户对物品的评价。比如在电影推荐中,系统需要预测用户对电影的评分,并以此为...

石晓文 发表了文章 • 2018-11-05 12:45

0
推荐
70
浏览

NLPIR-KGB大数据知识图谱引擎深度挖掘行业数据

  随着计算机互联网、移动互联网、物联网、平板电脑、手机的大众化和微博、论坛、微信等网络交流方式的日益红火,数据资料的增长正发生着巨大的变化。大数据兴起的主要原因是数据量越来越大。从监测的数据来看...

ljrj123 发表了文章 • 2018-11-05 11:18

3
推荐
206
浏览

推荐系统遇上深度学习(二十四)--深度兴趣进化网络DIEN原理及实战!

在本系列的第十八篇(https://www.jianshu.com/p/73b6f5d00f46)中,我们介绍了阿里的深度兴趣网络(Deep Interest Network,以下简称DIN),时隔一年,阿里再次升级其模型,提出了深度兴趣进化网络(Deep Interest Ev...

石晓文 发表了文章 • 2018-11-04 21:45

1
推荐
180
浏览

ARIMA模型原理及实现

1、数据介绍再介绍本篇的内容之前,我们先来看一下本文用到的数据。本文用到的中国银行股票数据下载:http://pan.baidu.com/s/1gfxRFbH,提取码d3id。我们先来导入一下我们的数据,顺便画出收盘价数据的折线图:i...

石晓文 发表了文章 • 2018-11-01 00:46

0
推荐
116
浏览

残差网络ResNet网络原理及实现

论文地址:https://arxiv.org/pdf/1512.03385.pdf1、引言-深度网络的退化问题在深度神经网络训练中,从经验来看,随着网络深度的增加,模型理论上可以取得更好的结果。但是实验却发现,深度神经网络中存在着退化...

石晓文 发表了文章 • 2018-10-27 15:51

  数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程