
数据挖掘
超级菜鸟怎么学习数据分析?数据挖掘、工具、技术、所需知识点等?
各位前辈,小弟想参与BI的项目
大家好,我是新手,,想请教一下小问题,,,怎样在spss里做HWE(哈迪温伯格平衡检验)啊?
spss中如何消除自变量间的多重共线性?
加权欧式距离的权值应该怎么设定?
如何用爬虫爬取航空网站?航空公司的票务信息,能够实时抓取的那种?
数据预处理后,预测结果的取值是否还需要还原?
数据调度平台etl系统二大种类及其实现方法与流程
ETL批量调度-Taskctl 发表了文章 • 2020-07-06 15:30
RFM分析模型(Python)
Max_Leo 发表了文章 • 2020-02-05 13:37
Apriori算法(Python)
Max_Leo 发表了文章 • 2020-02-02 11:23
Smartbi V9 厚积薄发,真正实现一站式分析服务
大麦 发表了文章 • 2019-12-26 10:00
全面数据化助力新华百货领跑西北商业圈
大麦 发表了文章 • 2019-09-18 14:41
对于某群体的基因频率的一个检测,比如你可以假设群体的基因频率:
h0:符合哈温平衡的
h1:不符合哈温平衡
你直接做卡方检验就好了。卡方检验的步骤参考:
http://jingyan.ba... 显示全部 »
对于某群体的基因频率的一个检测,比如你可以假设群体的基因频率:
h0:符合哈温平衡的
h1:不符合哈温平衡
你直接做卡方检验就好了。卡方检验的步骤参考:
http://jingyan.baidu.com/article/e73e26c0f7732f24adb6a7c2.html
然后按照你既定的p值水平来进行判断,假设阀值0.05,p值大于0.05,接受h0,反之,如果p值小于0.05,拒绝h0。
1 网络爬虫属于搜索引擎的技术范畴,属于搜索引擎采集数据的关键手段,是下一步根据采集内容建立摘要和索引的基础,说白点就是模拟浏览器对URL的访问获取网页的基本结构和内容,所以建议楼主先关注下搜索引擎原理中的数据采集部分内容,了解一下其实现的... 显示全部 »
1 网络爬虫属于搜索引擎的技术范畴,属于搜索引擎采集数据的关键手段,是下一步根据采集内容建立摘要和索引的基础,说白点就是模拟浏览器对URL的访问获取网页的基本结构和内容,所以建议楼主先关注下搜索引擎原理中的数据采集部分内容,了解一下其实现的主要框架,网上相关文章还是比较多的。
2 单就你要获取的信息来说,航空公司的网站具体安全级别将直接影响网络爬虫实现的复杂度,因为目前很多网站为防止攻击等安全问题的发生,会对网络爬虫的访问进行屏蔽,在这种情况下要获得需要的信息就必须结合网站的具体情况对你的爬虫进行数据获取的细节进行规划,在规划爬虫实现的细节之前还是建议楼主对普通搜索引擎的数据采集部分的实现原理和方式进行比较细致的了解。
单纯从客观来看:clementine已是收购前多年的产品,而且所谓的聚类,决策树,文本挖掘SPSS Modeler真的n年前就支持了。至于楼上主观的评价,我就不说了。
用我在知乎的一个回答来说:
问题“SPSS与SAS在国内企业中... 显示全部 »
单纯从客观来看:clementine已是收购前多年的产品,而且所谓的聚类,决策树,文本挖掘SPSS Modeler真的n年前就支持了。至于楼上主观的评价,我就不说了。
用我在知乎的一个回答来说:
问题“SPSS与SAS在国内企业中 哪个认可度更高?”
1.首先回答楼主问题,确实金融行业和医药确实SAS会更占有优势,但要加一个定语,在数据挖掘领域。在国内五大行基本SAS玩得很溜。当然SAS的收费模式问题,也有一些银行会SPSS与SAS一起用。另外在传统的社会科学上,心理学,社会学,教育,政府,SPSS会更多(尤其是统计的Statistics).楼主要注意的是,尤其是SPSS,数据挖掘的Modeler与统计分析的Statistics在企业分是非常不一样的
2.楼上有人说利益相关,提到matlab,我觉得要区分一点,matlab在金融一般应用在定价上,这一点是毋容置疑的强势。但是我觉得和楼主的提问应该是不同维度,在通用商业领域,主要的还是SPSS与SAS为主,认可度都非常高。
3.互联网行业的话可能普遍爱好开源工具,所以R与Python现在越来越火了,但要说压缩SPSS与SAS的市场为为时过早,这个时间是多久,我觉得还有待商榷。在普通企业里面,SAS与SPSS作为商业软江的稳定性和性能还是受到企业重视。
4.从招聘角度回答楼主问题,JD上明确要求软件技能出现的数量应该是SAS>=SPSS>=R(Python我不算特别熟,不好评价)
5.最后,我个人是使用SPSS+R
Python数据挖掘 https://edu.hellobi.com/course/104
Python网络爬虫 https://edu.hellobi.co... 显示全部 »
Python数据挖掘 https://edu.hellobi.com/course/104
Python网络爬虫 https://edu.hellobi.com/course/81
把这些学习了,你就会有很清晰的路线了
1.及时备份数据,因为任何想象的可能和实际结果不同,所以处理下一步前最好备份一份
2.处理程序也要即时备份
3.推荐用Jupyter notebook(因为可以记录每步的结果,测试的话重新回车即可)而pycharm注释的话比较麻烦,用#或者'... 显示全部 »
1.及时备份数据,因为任何想象的可能和实际结果不同,所以处理下一步前最好备份一份
2.处理程序也要即时备份
3.推荐用Jupyter notebook(因为可以记录每步的结果,测试的话重新回车即可)而pycharm注释的话比较麻烦,用#或者'''容易改乱程序
4.使用numpy和pandas包
金融知识 = 金融市场 + 金融理论, 这些金融市场的知识,你需要去交易来获得, 金融理论你可以看书《投资书》,《期权、期货和其他衍生品》
金融知识 = 金融市场 + 金融理论, 这些金融市场的知识,你需要去交易来获得, 金融理论你可以看书《投资书》,《期权、期货和其他衍生品》

regan 回答了问题 • 2017-08-30 10:23 • 2 个回复
spark从mysql读取数据,根据日期放在hive里面,产生了好多小文件,现在通过DataSet.coalesce()合并小文件,导致写入速度非常慢,各位大神有啥其他方法

Infor 回答了问题 • 2017-08-14 14:01 • 1 个回复
问 商业智能BI与数据分析与挖掘的区别 ,我之前做的ERP管理管理员,懂一些编程,以及数据库编程,熟悉部分生产系统业务逻辑,然后管理了仓库两年。想学商业智能与数据分析与挖掘,那个比较有前景,有钱途。
不过不要担心慢慢学。肯定会有收获的哈
不过不要担心慢慢学。肯定会有收获的哈
说到超级菜鸟:女生,二本,市场营销专业,别说vlookup连sum是啥都不知道,代码一个字母都不会,平时工作连电脑都不咋敲,这个应该够超级菜了。(确实是个小姐姐,没有性别歧视的意思哈)。唯一的优势就是颜值还行。小姐姐毕业后去了... 显示全部 »
说到超级菜鸟:女生,二本,市场营销专业,别说vlookup连sum是啥都不知道,代码一个字母都不会,平时工作连电脑都不咋敲,这个应该够超级菜了。(确实是个小姐姐,没有性别歧视的意思哈)。唯一的优势就是颜值还行。小姐姐毕业后去了某个银行信用卡中心做业务员。某段时候我在做银行项目,广泛体验各个银行的信用卡,于是就这么机缘巧合的认识了。100%出于想了解银行发卡模式,而不是被小姐姐颜值吸引的原因,我很认真的和她聊了平时的工作情况。得知这个小姐姐业绩非常的好,团队Ace,每月激活卡100张以上,个人收入估算接2w以上了。
有意思的是,小姐姐对我的工作也很感兴趣。她问我:“如何能转行到后台做工作?”我很惊讶,为什么收入这么好还想转数据分析呢?不觉得没钱途吗?要知道很多号称“数据分析师”都没有一年25万的。小姐姐表示:因为跑业务太辛苦了,风吹日晒,而且一天不做一天没收入,这日子没法过下去了。“还是你们后台好,对着电脑敲敲就有钱拿,为啥不做”。100%出于分享知识的考虑,我和小姐姐做了深度沟通。发现对于已经工作的同学而言,转行有着至少三大难关。
第一,曰:没精力。作为一个Ace销售,小姐姐性格非常独立坚强。想要她放下工作,关门谢客,再交上几万块培训费去读个培训班是非常不现实的。人家已经习惯了照顾家人而不是被人照顾。而且处于工作敏感性,她也不信任那些培训机构的销售:“还交一万九年薪五十万就业,他自己怎么不交一万九还在这卖课?”好吧,这个逻辑简直无懈可击
第二,曰:没基础。我也试着向小姐姐介绍sas,不过真的是一个字都看不懂。“我在学校都没搞懂,现在咋可能搞懂”好吧,又是一个无懈可击的逻辑。那试着介绍一下spss吧,可视化戳戳戳总行了吧。结果发现光安装就卡了好久。而且一点统计基础都没有的话,也不知道戳出来是个啥。
第三,曰:没记性。我转了一些文章让小姐姐看,基本上前脚看后脚忘。因为工作中用不到。实际上,我自己也有这种感觉。工作中用不到的东西,即使对着学了忘的也特别快。因为平时不用啊,就靠对着课本练,脱离书就是个呆子。
咋办?我认真思考了问题的关键:如果能找到一个工作中就能用到的例子开始训练就好了。真是完全没有基础的话,一上来就列一堆信息、公式、概念只会把人绕晕。如果能找个简单的方法让她理解到:什么是数据、什么是分析,后续如何做数据分析就是水到渠成的事。刚好我当时正在做相关的项目,优秀的销售和死蠢的销售都接触过,这一点极大的启发了我后来的思路。
我试着启发小姐姐的思路,从一个简单的问题开始:什么样的顾客容易成功?小姐姐瞬间打开了话匣子,列举一堆例子。OK,这里先不急着讲完所有故事,我拿出了银行信用卡申请表,问道:假设把刚才故事里的顾客特征对应到表上需要填的这些空格,该如何填?小姐姐愣了一下,然后开始笑话这些申请表能记录的信息太少,很多信息需要销售直观判断。OK,我继续引导:所以这里就有两类信息:一类容易记录的、客观的、格式化的数据,一类难记录的、主观的、个性化的数据。然而,后台的工作人员远在千里之外,他们无法直面顾客,他们只能通过能记录的数据来判断,考虑做什么样的政策,出什么样产品。所以,如果你真想转到后台去的话,你就得想办法:要么从现有的有限的数据中得出结论,要么把主观的数据合理记录下来。
小姐姐似乎想到了什么,然后开始说:那样的话,这里哪几个字段可能最有用处,这里哪些字段其实都是销售们瞎填的。如果真需要添加的话,能不能添加1,2,3,4个维度,而且为了防止一线的销售们瞎搞,还可以配合比如工牌照片、人车合照等等办法。我们边聊,边拿出一张值,把可以用的、有问题的、需要添加的字段都记录下来,并且标上数据格式,填写规范等等。完成以后,我开始介绍:这就是后台部门面临的数据库的简单样式,有字段、字段属性、数据来源、数据真实性、数据清理等等等问题。小姐姐似乎一下恍然大悟,这样讲比一上来讲什么数据仓储容易理解多了。
于是我趁胜追击,开始引导一下阶段问题:你看,你一个月能做100多张卡,有没有计算过办哪些卡,总收入更高?(不同信用卡对应的提成,是否伴随贷款,是否开自动还款业务都会影响提成收入)。小姐姐开始认真考虑不同产品组合下自己的收入。之前也有考虑过,但从没有认真计算过数据,都是自己粗略估算或者听营销中心的日报。有了之前的基础,我们开始分解日报。利用一张最基础的含用户、卡信息的excel表,开始试着做数据统计,计算收入。因为和收入有关,所以小姐姐计算起来格外起劲。并且数据透视表、求和、平均值、if等公式用几次就会了。
于是我趁胜追击*2,开始引导一下阶段问题:你看,这些卡片销售数据和顾客特征结合起来,是不是可以看出来哪些顾客容易办哪种卡?(不是所有的申请表都会被批准的,多多少少都会退一批,填写规范下,过审率一般六成左右)。小姐姐一下兴趣被调了起来,因为被退卡是一线销售非常深恶痛绝的事,因此我们继续拿基础excel表练习,这次是练习交叉表。开始交叉分类看用户特征,试着用不同维度交叉,看哪些类型用户更容易被pass。尝试几次后,竟然发现销售们日常总结的审批规律,有一些还真有道理,甚至还反推出一些审批的潜规则。
于是我趁胜追击*3,开始引导一下阶段问题:你看,你作为这么厉害的销售,肯定有些人会比你差。你和他们比,他们差在哪里。小姐姐又一下兴趣大开,讲了一堆很具体的行为差异。OK,我们回归一下,把这些具体事件中的可以用数据量化的部分截取出来,把那些不能用数据量化的部分,看看是否能有字段记录。这样再归纳以后,就找出来衡量销售行为的基本指标,进而导出了分析团队业绩的基本思路。(实际上,我直接分享了部分项目结论给她。自己解读数据是个很好的尝试思路,但是一个0基础自学者,自己总结结论还是太难了)。
完成这几步以后,小姐姐已经基本具备了数据分析的初级能力,还差临门一脚:简历要怎么投?因为数据分析范围实在太宽泛了,即使做了训练,以小姐姐的能力投开发类岗位也实在是天方夜谭。好在银行里各个分行、营销中心都有数据专员的岗位,这些岗位主要任务就是做销售数据分解和解读,小姐姐的能力非常适合。最后临门一脚,帮小姐姐包装一下简历,一顿饭的功夫,突出一下在分析问题上的经验和能力,之后便一投即中。虽然薪资降低了不少,但是还是如愿做了不用风吹日晒的后台工作。
后来,听说小姐姐嫁了人。俺也在太太的监督下,清空了所有这种100%出于学习分享目的讲过一大堆话的小姐姐的联系方式。后续的情况不得而知。但这确实是我指导过的,最有挑战性、最0基础、也最快速实现转行的例子了。前后用了没俩月。回想起来,小姐姐虽然数学和代码基础差,但有几个优势:
第一,业务能力强。对业务流程非常熟悉,有丰富实战经验。这样很容易找出业务中的问题,就容易找到分析问题的思路,看到数据也容易明白含义。第二,思维逻辑性好。比如第一步总结顾客特征,她可以很快理解我的用意,把那些一个个具体的人,归纳成:39岁、小企业主、500万经营收入、本地人等等字段。数据分析是以字段为基础的,这一步如果理解不了,就真的深入不下去了。我也见过很多思维方式特别感性的人,就是卡在这一步,始终无法把一个具体事情抽象成一组数据,后边的分析也就无法基于数据进行了。他们更多是基于感情、直觉做判断,把数据分析的过程视为一个黑箱,等着听结论。第三,动手能力强。Excel操作几次就会了,没有耽搁很多时间反复练习。第四,公关能力强。营销中心、卡中心她认识不少人,直接拿到了内部一些数据表做练习,进步非常快。这个真的是用模拟数据无法比拟的优势了。
而我只是起到一个穿针引线的作用。找了一个好的切入点,吊起来她的兴趣,让她能坚持思考下去,而不是半途而废。或者装着一脑袋和工作完全不相关的东西,完全不知道学了有什么用。其实数据分析,是数据+分析组成的。技术上如何生成数据是一个切入点。业务上如何做分析也是一个切入点。能从问题出发的好处,就是能以始为终,很快找到思路。当然,这是以能理解数据字段、数据来源为前提的。
当然,这是极特别的个案,其实但凡有一些excel、sql基础,上路都不会这么艰难,也不需要那么强公关能力或者颜值什么的。即使看起来行业差的特别远,即使岗位看起来特别奇怪也没有关系。因为数据分析其实是职场的一项基本技能,在哪里都有用,在哪里都能练习。
比如我遇到过一个三线城市做拖拉机设计的男同学。他想转数据分析,但满眼望去,都是“互联网数据分析XXX”。感觉自己的工作跟数据分析,跟互联网很遥远。然而我不这么认为。我提示他:你做设计,也分创新设计和改良设计。如果改良,你要改哪些款?为什么选这些款?是销量不好,还是故障率高,还是用户口碑差?如果是销量不好,怎么判定好?数据从哪里来?标准怎么定?
拖拉机哥认真想想,忽然觉得恍然大悟:是哦!平时会走访市场,会看不同省市区的销量,还会看售后服务的数据,就是从来没认真思考过这些。平时工作都是拍脑袋,看着哪个月问题多了就做个市场走访,收集收集问题回来写报告,从来没认真思考过到底什么数据算好!这么一说还真的有挺多东西可以挖的!
我继续鼓励他:是滴,这就是一个项目了!因为有明确的目标:改良产品,有明确的时间限制。如果你再主动跟踪下,你们改良后的产品批次是否故障率下降,这就是成果。这就是标标准准的一个数据驱动产品迭代升级的例子。谁说传统企业没有数据思维了,只是大家都习以为常了。
还是拖拉机哥,在整理了思路后,觉得自己有信心了。但他想面试的互联网公司大部分都要求python,SQL一类经验,在现有岗位上确实没得练习。还是得练爬虫。我又提示他:做产品研发,你们肯定会参照竞品是不是?以前的竞品信息八成是手动更新的吧。你可以把爬虫技能拿来练习爬竞品产品信息啊,从官网上、从阿里巴巴,反正只要能找到信息的都可以爬。这些可是货真价实对你工作有用的呢,不比爬什么拉勾网管用。
拖拉机哥恍然大悟:是啊,这样还能显得利用爬虫提高了工作效率,还能进一步分析,自学的也与工作结合了。这个例子敢拿出来讲,当然是happy ending,拖拉机哥如愿离开内地三线城市到了魔都成为一名互联网数据分析师,薪酬翻了1.5倍。虽然在陈老师看来,他那个薪酬在三线城市不少了,但是人各有志,达到自己的目标就好。
类似的例子还有很多,比如财务的同学可以练习ROI分析、做经营分析;比如运维的同学可以练习项目开发资源管理的分析;比如做销售的同学可以练习目标客户与销量分析;比如做开发的同学至少接触过数据可视化。其实,数据早已渗透进工作方方面面,对转行的同学来说,最大的敌人是:“习以为常”四个字。太多的固定思维,导致对数据不敏感,导致分析能力下降。导致看不到自己工作中的数据应用,导致过份依赖网上所谓“干货”。然而收藏的东西固然多,买的书本固然厚,能看完吸收的又有多少?
写sql,python是一种技能,数据分析是一种能力。技能可以照抄,能力需要锻炼。不练,永远不会。与大家共勉。
更多分享,可关注公众号:接地气学堂
业务知识一站通,数据分析师的第一堂企业实战课
https://edu.hellobi.com/course/179
一、 在未开启R之前,在cmd中,输入下面指令
r −−max−mem− s i z e =4Gb
二、 在开启R之后,可以使用memory.limit()函数,该函数中数据数字,就是申请内存的大小,以MB为单位
memory.limit... 显示全部 »
一、 在未开启R之前,在cmd中,输入下面指令
r −−max−mem− s i z e =4Gb
二、 在开启R之后,可以使用memory.limit()函数,该函数中数据数字,就是申请内存的大小,以MB为单位
memory.limit(4096)
可以把rep打印出来看下 参考获取 data-url 标签属性来获取海报链接
可以把rep打印出来看下 参考获取 data-url 标签属性来获取海报链接

结实 回答了问题 • 2018-03-26 20:00 • 1 个回复
请问从总体中抽取一部分样本建逻辑回归模型,从样本划分的测试集中确定阈值和该阈值在测试集的预测NPS,将模型和阈值运用到总体中,得到的总体NPS和测试集的NPS差异很大,可能是什么原因造成
2,总体和样本各自的正反例相差比重相差很大;
3,样本的抽样规则是否符合业务(随机抽样还是分层抽样还是其他.....)
2,总体和样本各自的正反例相差比重相差很大;
3,样本的抽样规则是否符合业务(随机抽样还是分层抽样还是其他.....)
超级菜鸟怎么学习数据分析?数据挖掘、工具、技术、所需知识点等?
《人人都会数据分析》20万字电子版
面包君 发表了文章 • 2018-01-03 15:15
数据分析师VS算命先生,除了算盘与键盘,还有啥差别?
陈老师 发表了文章 • 2017-05-16 16:32
【重磅干货】65页PPT讲述一个完整R语言与数据挖掘的案例
datakong 发表了文章 • 2017-05-12 09:42
精准营销大扫盲。破除模型迷信人人有责,有利你我他
陈老师 发表了文章 • 2017-04-21 15:33
干货:如何找到游戏方面的数据集?
Dennis王镜程 发表了文章 • 2017-02-27 10:49
如何评估一个业务能否进行挖掘预测?
借助tesseract包实现图片文本提取功能
R语言中文社区 发表了文章 • 2017-01-15 16:35
如何七周成为数据分析师
秦路 发表了文章 • 2017-01-13 10:57
案例+课件下载 | 绝对收藏!民生银行用户画像建设分享30页PPT放送
天善智能 发表了文章 • 2016-12-01 10:44
(理论+案例)如何通俗地理解极大似然估计?
浩彬老撕 发表了文章 • 2016-11-06 22:06
值得膜拜的三个数据分析案例
黄成明 发表了文章 • 2016-11-04 09:31
Friday BI Fly | 2016年10月21日晚8点半微信直播交流在实践中挖掘数据的价值第36场 图文版记录
天善智能 发表了文章 • 2016-10-24 10:30
R语言可视化与NVD3
天善智能 发表了文章 • 2016-10-20 14:14
统计挖掘那些事-超详尽回归分析指南(理论+动手案例)
浩彬老撕 发表了文章 • 2016-10-07 21:04
超级菜鸟怎么学习数据分析?数据挖掘、工具、技术、所需知识点等?
各位前辈,小弟想参与BI的项目
大家好,我是新手,,想请教一下小问题,,,怎样在spss里做HWE(哈迪温伯格平衡检验)啊?
spss中如何消除自变量间的多重共线性?
加权欧式距离的权值应该怎么设定?
如何用爬虫爬取航空网站?航空公司的票务信息,能够实时抓取的那种?
数据预处理后,预测结果的取值是否还需要还原?
kettle 文本文件输入 中文 用fixed 无法对齐,怎么办?
多因素方差分析ols报错(已解决)
使用word2vec的most_similar可以获取单个词相关的前n个词语, 但是我希望获取同时与两个词相关的前n个词,如何做到?
在做豆瓣模拟登录时,运行代码遇到unhandled error in deferred 错误
仪表盘的数据不正确,有表C,仪表盘A抽取的是表C的数据,仪表盘B抽取的也是表C的数据,但是仪表盘A数据正确,而仪表盘B数据错误
修改了数据业务模型,前端BI报表出错
最近在学习生存分析,R语言做生存分析模型有什么好的资料么?
数据调度平台etl系统二大种类及其实现方法与流程
ETL批量调度-Taskctl 发表了文章 • 2020-07-06 15:30
RFM分析模型(Python)
Max_Leo 发表了文章 • 2020-02-05 13:37
Apriori算法(Python)
Max_Leo 发表了文章 • 2020-02-02 11:23
Smartbi V9 厚积薄发,真正实现一站式分析服务
大麦 发表了文章 • 2019-12-26 10:00
全面数据化助力新华百货领跑西北商业圈
大麦 发表了文章 • 2019-09-18 14:41
Smartbi V9北京交流会圆满落下帷幕!
大麦 发表了文章 • 2019-09-03 14:03
Smartbi V9数据挖掘完整介绍
大麦 发表了文章 • 2019-08-29 10:03
数据挖掘之Spark学习
DataFrog 发表了文章 • 2019-08-28 19:31
数据挖掘工作所需技能—正则表达式
DataFrog 发表了文章 • 2019-08-28 19:28
BI报表需要具备的条件与好处
帆软软件 发表了文章 • 2019-08-27 10:01
数据可视化工具与探索分析过程
帆软软件 发表了文章 • 2019-08-26 14:53
展开解读十大BI供应商
帆软软件 发表了文章 • 2019-08-26 11:50
国内外商业智能知名厂商简介
帆软软件 发表了文章 • 2019-08-26 09:18