数据挖掘

投票

已解决

21015

浏览

超级菜鸟怎么学习数据分析？数据挖掘、工具、技术、所需知识点等？

贡献

新手入门行业知识数据挖掘数据分析

tangqi 回复了问题 • 2021-09-15 18:51

投票

回答

3704

浏览

R语言读取csv文件，含有中文文本字段，且制表符/t分隔，无列名，读出的数据条数少了绝大部分，求解？data<-read.csv("fmmdata.csv",sep="\t",header = F,fileEncoding = "utf-8")

数据挖掘 R语言

郑州韩先生发起了问题 • 2018-05-01 10:14

投票

回答

2998

浏览

各位前辈，小弟想参与BI的项目

BIEE 机器学习数据分析数据挖掘数据仓库人工智能大数据 ETL 商业智能

yaogunjita 发起了问题 • 2017-02-17 10:30

投票

已解决

7124

浏览

大家好，我是新手，，想请教一下小问题，，，怎样在spss里做HWE（哈迪温伯格平衡检验）啊？

贡献

数据挖掘 SPSS

brucelu 回复了问题 • 2021-07-26 12:19

投票

回答

5846

浏览

spss中如何消除自变量间的多重共线性？

贡献

SPSS 数据挖掘

浩彬老撕回复了问题 • 2021-07-26 12:07

投票

回答

2633

浏览

加权欧式距离的权值应该怎么设定？

机器学习统计学 Python 数据挖掘

钟家福17 发起了问题 • 2017-11-18 17:35

投票

已解决

7341

浏览

如何用爬虫爬取航空网站？航空公司的票务信息，能够实时抓取的那种？

贡献

R语言数据挖掘

laical 回复了问题 • 2021-07-15 11:07

投票

回答

3035

浏览

数据预处理后，预测结果的取值是否还需要还原？

贡献

聚类算法文本挖掘机器学习数据挖掘

博观回复了问题 • 2021-07-14 11:37

推荐

2132

浏览

数据调度平台etl系统二大种类及其实现方法与流程

什么是调度系统调度系统，更确切地说，作业调度系统（Job Scheduler）或者说工作流调度系统（workflow Scheduler）是任何一个稍微有点规模，不是简单玩玩的大数据开发平台都必不可少的重要组成部分。除了Crontab...

ETL批量调度-Taskctl 发表了文章 • 2020-07-06 15:30

推荐

2417

浏览

RFM分析模型（Python）

RFM分析模型广泛应用于识别优质客户，依据RFM模型分析结果可以定制个性化的沟通和服务方案，并为营销决策提供有力支持。RFM分析模型属于探索性分析方法中的一种，即从海量数据中，依据R、F、M三个指标，获取高价...

Max_Leo 发表了文章 • 2020-02-05 13:37

推荐

2447

浏览

Apriori算法（Python）

关联规则挖掘是数据挖掘中最活跃的研究方法之一，最早是针对购物篮分析问题提出的，其目的是为了发现交易数据库中不同商品之间的联系规则，这些规则刻画了顾客购买行为模式，可以用来指导商家科学地安排进货，库...

Max_Leo 发表了文章 • 2020-02-02 11:23

推荐

1729

浏览

R语言基础代码

1.探索性数据分析install.packages("MASS") library(MASS)data(Insurance)#获取数据集View(Insurance)nrow(Insurance);ncol(Insurance)#显示数据集行列数dim(Insurance)#显示维度，效果同上head(Insurance) ...

DDlucky 发表了文章 • 2019-12-28 11:55

推荐

1396

浏览

Smartbi V9 厚积薄发，真正实现一站式分析服务

10月31日，Smartbi V9体验会在上海成功举办。会上，思迈特软件VP徐晶先生为大家带来《崛起：V9全新出发——新UI&DEMO，Smartbi历“9”弥新》的主题演讲，小麦把演讲内容整理成文，与未能到场参加活动的麦粉们一起...

大麦发表了文章 • 2019-12-26 10:00

推荐

1675

浏览

决策引擎简述

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。来源 | Python数据分析与评分卡建模作者 | zhaikun01决策引擎的必要性极速放款、闪电借款、闪贷等成为了互金时...

数智物语发表了文章 • 2019-10-21 18:12

推荐

1491

浏览

全面数据化助力新华百货领跑西北商业圈

引言：近期，小麦有幸拜访了银川新华百货连锁超市有限公司数据信息中心副总监靳莹先生，听他讲述新百连超如何实现数据化转型的故事，小麦将采访整理成文，以供欣赏。关于新华百货银川新华百货商业集团是北京物美...

大麦发表了文章 • 2019-09-18 14:41

brucelu 回答了问题 • 2015-11-18 11:07 • 1 个回复不感兴趣

大家好，我是新手，，想请教一下小问题，，，怎样在spss里做HWE（哈迪温伯格平衡检验）啊？

你说的是如何检测数据是否符合哈迪-温伯格定律吧？这应该是基因检测吧？
对于某群体的基因频率的一个检测，比如你可以假设群体的基因频率：
h0:符合哈温平衡的
h1:不符合哈温平衡
你直接做卡方检验就好了。卡方检验的步骤参考：
http://jingyan.ba... 显示全部 »

philbert 回答了问题 • 2016-03-21 11:13 • 4 个回复不感兴趣

如何用爬虫爬取航空网站？航空公司的票务信息，能够实时抓取的那种？

一点建议，请参考：
1 网络爬虫属于搜索引擎的技术范畴，属于搜索引擎采集数据的关键手段，是下一步根据采集内容建立摘要和索引的基础，说白点就是模拟浏览器对URL的访问获取网页的基本结构和内容，所以建议楼主先关注下搜索引擎原理中的数据采集部分内容，了解一下其实现的... 显示全部 »

浩彬老撕回答了问题 • 2017-06-15 23:26 • 2 个回复不感兴趣

从数据挖掘角度比较SAS和SPSS？

我不得不反对楼上的答案。
单纯从客观来看：clementine已是收购前多年的产品，而且所谓的聚类，决策树，文本挖掘SPSS Modeler真的n年前就支持了。至于楼上主观的评价，我就不说了。

用我在知乎的一个回答来说：
问题“SPSS与SAS在国内企业中... 显示全部 »

Jason_Huang 回答了问题 • 2017-04-26 09:42 • 2 个回复不感兴趣

我想问下各位大神，学python数据分析与挖掘的需要先做好哪些基础呢？

Python基本语法 https://edu.hellobi.com/course/103
Python数据挖掘 https://edu.hellobi.com/course/104
Python网络爬虫 https://edu.hellobi.co... 显示全部 »

ID王大伟回答了问题 • 2017-05-08 12:48 • 1 个回复不感兴趣

你有哪些好的python数据处理编程习惯？

我个人简单谈谈吧
1.及时备份数据，因为任何想象的可能和实际结果不同，所以处理下一步前最好备份一份
2.处理程序也要即时备份
3.推荐用Jupyter notebook（因为可以记录每步的结果，测试的话重新回车即可）而pycharm注释的话比较麻烦，用#或者'... 显示全部 »

张丹回答了问题 • 2017-05-24 17:16 • 1 个回复不感兴趣

【R语言量化投资】老师，您的开发，数据挖掘技术应该都很强，但是量化投资经验从何而来？想问问如何学习和转化理论知识。

量化是一门跨学科的知识，你需要IT+统计+金融知识。

金融知识 = 金融市场 + 金融理论，这些金融市场的知识，你需要去交易来获得，金融理论你可以看书《投资书》，《期权、期货和其他衍生品》

regan 回答了问题 • 2017-08-30 10:23 • 2 个回复不感兴趣

spark从mysql读取数据，根据日期放在hive里面，产生了好多小文件，现在通过DataSet.coalesce()合并小文件，导致写入速度非常慢，各位大神有啥其他方法

你的目的是减少文件的个数，设置合理的分区数就可以了，例如设置分区数为5，对应5个文件。coalesce和repartitions都能设置分区数量，其底层原理有稍微的差别。从你的问题来看应该是设置的分区数太少，导致并行度不够，故写入速度慢。意见是尝试吧分区数调整... 显示全部 »

Infor 回答了问题 • 2017-08-14 14:01 • 1 个回复不感兴趣

问商业智能BI与数据分析与挖掘的区别，我之前做的ERP管理管理员，懂一些编程，以及数据库编程，熟悉部分生产系统业务逻辑，然后管理了仓库两年。想学商业智能与数据分析与挖掘，那个比较有前景，有钱途。

数据挖掘。不过要求比较高的咯，需要数学能力强悍，微积分矩阵、线性规划。概率论、数理统计等
不过不要担心慢慢学。肯定会有收获的哈

gtxing 回答了问题 • 2017-09-17 16:54 • 1 个回复不感兴趣

请教一下怎么用R语言把价格列像10k-25k这样的价格变为纯数值10-25或变为平均数

用stringr包里面的str_replace_all函数把k替换掉

订车宝回答了问题 • 2017-12-18 10:20 • 1 个回复不感兴趣

如何利用数据挖掘做一些现实中有趣的体育数据预测？

我也是小白，你学的这些对我来说好高深啊，如果是我的话，数据收集我会用R来爬网络数据（会python的话更简单吧），然后进行数据Excel或者R进行数据清洗，看自己的数据类型想要什么，然后直接套R里面的回归或者决策或者神经网络就可以了。要是机器学习过程会更复杂吧... 显示全部 »

接地气学堂回答了问题 • 2018-01-12 13:55 • 13 个回复不感兴趣

超级菜鸟怎么学习数据分析？数据挖掘、工具、技术、所需知识点等？

讲一个不懂编程也能入门的路线。

说到超级菜鸟：女生，二本，市场营销专业，别说vlookup连sum是啥都不知道，代码一个字母都不会，平时工作连电脑都不咋敲，这个应该够超级菜了。（确实是个小姐姐，没有性别歧视的意思哈）。唯一的优势就是颜值还行。小姐姐毕业后去了... 显示全部 »

讲一个不懂编程也能入门的路线。

说到超级菜鸟：女生，二本，市场营销专业，别说vlookup连sum是啥都不知道，代码一个字母都不会，平时工作连电脑都不咋敲，这个应该够超级菜了。（确实是个小姐姐，没有性别歧视的意思哈）。唯一的优势就是颜值还行。小姐姐毕业后去了某个银行信用卡中心做业务员。某段时候我在做银行项目，广泛体验各个银行的信用卡，于是就这么机缘巧合的认识了。100%出于想了解银行发卡模式，而不是被小姐姐颜值吸引的原因，我很认真的和她聊了平时的工作情况。得知这个小姐姐业绩非常的好，团队Ace，每月激活卡100张以上，个人收入估算接2w以上了。

有意思的是，小姐姐对我的工作也很感兴趣。她问我：“如何能转行到后台做工作？”我很惊讶，为什么收入这么好还想转数据分析呢？不觉得没钱途吗？要知道很多号称“数据分析师”都没有一年25万的。小姐姐表示：因为跑业务太辛苦了，风吹日晒，而且一天不做一天没收入，这日子没法过下去了。“还是你们后台好，对着电脑敲敲就有钱拿，为啥不做”。100%出于分享知识的考虑，我和小姐姐做了深度沟通。发现对于已经工作的同学而言，转行有着至少三大难关。

第一，曰：没精力。作为一个Ace销售，小姐姐性格非常独立坚强。想要她放下工作，关门谢客，再交上几万块培训费去读个培训班是非常不现实的。人家已经习惯了照顾家人而不是被人照顾。而且处于工作敏感性，她也不信任那些培训机构的销售：“还交一万九年薪五十万就业，他自己怎么不交一万九还在这卖课？”好吧，这个逻辑简直无懈可击

第二，曰：没基础。我也试着向小姐姐介绍sas，不过真的是一个字都看不懂。“我在学校都没搞懂，现在咋可能搞懂”好吧，又是一个无懈可击的逻辑。那试着介绍一下spss吧，可视化戳戳戳总行了吧。结果发现光安装就卡了好久。而且一点统计基础都没有的话，也不知道戳出来是个啥。

第三，曰：没记性。我转了一些文章让小姐姐看，基本上前脚看后脚忘。因为工作中用不到。实际上，我自己也有这种感觉。工作中用不到的东西，即使对着学了忘的也特别快。因为平时不用啊，就靠对着课本练，脱离书就是个呆子。

咋办？我认真思考了问题的关键：如果能找到一个工作中就能用到的例子开始训练就好了。真是完全没有基础的话，一上来就列一堆信息、公式、概念只会把人绕晕。如果能找个简单的方法让她理解到：什么是数据、什么是分析，后续如何做数据分析就是水到渠成的事。刚好我当时正在做相关的项目，优秀的销售和死蠢的销售都接触过，这一点极大的启发了我后来的思路。

我试着启发小姐姐的思路，从一个简单的问题开始：什么样的顾客容易成功？小姐姐瞬间打开了话匣子，列举一堆例子。OK，这里先不急着讲完所有故事，我拿出了银行信用卡申请表，问道：假设把刚才故事里的顾客特征对应到表上需要填的这些空格，该如何填？小姐姐愣了一下，然后开始笑话这些申请表能记录的信息太少，很多信息需要销售直观判断。OK，我继续引导：所以这里就有两类信息：一类容易记录的、客观的、格式化的数据，一类难记录的、主观的、个性化的数据。然而，后台的工作人员远在千里之外，他们无法直面顾客，他们只能通过能记录的数据来判断，考虑做什么样的政策，出什么样产品。所以，如果你真想转到后台去的话，你就得想办法：要么从现有的有限的数据中得出结论，要么把主观的数据合理记录下来。

小姐姐似乎想到了什么，然后开始说：那样的话，这里哪几个字段可能最有用处，这里哪些字段其实都是销售们瞎填的。如果真需要添加的话，能不能添加1,2,3,4个维度，而且为了防止一线的销售们瞎搞，还可以配合比如工牌照片、人车合照等等办法。我们边聊，边拿出一张值，把可以用的、有问题的、需要添加的字段都记录下来，并且标上数据格式，填写规范等等。完成以后，我开始介绍：这就是后台部门面临的数据库的简单样式，有字段、字段属性、数据来源、数据真实性、数据清理等等等问题。小姐姐似乎一下恍然大悟，这样讲比一上来讲什么数据仓储容易理解多了。

于是我趁胜追击，开始引导一下阶段问题：你看，你一个月能做100多张卡，有没有计算过办哪些卡，总收入更高？（不同信用卡对应的提成，是否伴随贷款，是否开自动还款业务都会影响提成收入）。小姐姐开始认真考虑不同产品组合下自己的收入。之前也有考虑过，但从没有认真计算过数据，都是自己粗略估算或者听营销中心的日报。有了之前的基础，我们开始分解日报。利用一张最基础的含用户、卡信息的excel表，开始试着做数据统计，计算收入。因为和收入有关，所以小姐姐计算起来格外起劲。并且数据透视表、求和、平均值、if等公式用几次就会了。

于是我趁胜追击*2，开始引导一下阶段问题：你看，这些卡片销售数据和顾客特征结合起来，是不是可以看出来哪些顾客容易办哪种卡？（不是所有的申请表都会被批准的，多多少少都会退一批，填写规范下，过审率一般六成左右）。小姐姐一下兴趣被调了起来，因为被退卡是一线销售非常深恶痛绝的事，因此我们继续拿基础excel表练习，这次是练习交叉表。开始交叉分类看用户特征，试着用不同维度交叉，看哪些类型用户更容易被pass。尝试几次后，竟然发现销售们日常总结的审批规律，有一些还真有道理，甚至还反推出一些审批的潜规则。

于是我趁胜追击*3，开始引导一下阶段问题：你看，你作为这么厉害的销售，肯定有些人会比你差。你和他们比，他们差在哪里。小姐姐又一下兴趣大开，讲了一堆很具体的行为差异。OK，我们回归一下，把这些具体事件中的可以用数据量化的部分截取出来，把那些不能用数据量化的部分，看看是否能有字段记录。这样再归纳以后，就找出来衡量销售行为的基本指标，进而导出了分析团队业绩的基本思路。（实际上，我直接分享了部分项目结论给她。自己解读数据是个很好的尝试思路，但是一个0基础自学者，自己总结结论还是太难了）。

完成这几步以后，小姐姐已经基本具备了数据分析的初级能力，还差临门一脚：简历要怎么投？因为数据分析范围实在太宽泛了，即使做了训练，以小姐姐的能力投开发类岗位也实在是天方夜谭。好在银行里各个分行、营销中心都有数据专员的岗位，这些岗位主要任务就是做销售数据分解和解读，小姐姐的能力非常适合。最后临门一脚，帮小姐姐包装一下简历，一顿饭的功夫，突出一下在分析问题上的经验和能力，之后便一投即中。虽然薪资降低了不少，但是还是如愿做了不用风吹日晒的后台工作。

后来，听说小姐姐嫁了人。俺也在太太的监督下，清空了所有这种100%出于学习分享目的讲过一大堆话的小姐姐的联系方式。后续的情况不得而知。但这确实是我指导过的，最有挑战性、最0基础、也最快速实现转行的例子了。前后用了没俩月。回想起来，小姐姐虽然数学和代码基础差，但有几个优势：

第一，业务能力强。对业务流程非常熟悉，有丰富实战经验。这样很容易找出业务中的问题，就容易找到分析问题的思路，看到数据也容易明白含义。第二，思维逻辑性好。比如第一步总结顾客特征，她可以很快理解我的用意，把那些一个个具体的人，归纳成：39岁、小企业主、500万经营收入、本地人等等字段。数据分析是以字段为基础的，这一步如果理解不了，就真的深入不下去了。我也见过很多思维方式特别感性的人，就是卡在这一步，始终无法把一个具体事情抽象成一组数据，后边的分析也就无法基于数据进行了。他们更多是基于感情、直觉做判断，把数据分析的过程视为一个黑箱，等着听结论。第三，动手能力强。Excel操作几次就会了，没有耽搁很多时间反复练习。第四，公关能力强。营销中心、卡中心她认识不少人，直接拿到了内部一些数据表做练习，进步非常快。这个真的是用模拟数据无法比拟的优势了。

而我只是起到一个穿针引线的作用。找了一个好的切入点，吊起来她的兴趣，让她能坚持思考下去，而不是半途而废。或者装着一脑袋和工作完全不相关的东西，完全不知道学了有什么用。其实数据分析，是数据+分析组成的。技术上如何生成数据是一个切入点。业务上如何做分析也是一个切入点。能从问题出发的好处，就是能以始为终，很快找到思路。当然，这是以能理解数据字段、数据来源为前提的。

当然，这是极特别的个案，其实但凡有一些excel、sql基础，上路都不会这么艰难，也不需要那么强公关能力或者颜值什么的。即使看起来行业差的特别远，即使岗位看起来特别奇怪也没有关系。因为数据分析其实是职场的一项基本技能，在哪里都有用，在哪里都能练习。

比如我遇到过一个三线城市做拖拉机设计的男同学。他想转数据分析，但满眼望去，都是“互联网数据分析XXX”。感觉自己的工作跟数据分析，跟互联网很遥远。然而我不这么认为。我提示他：你做设计，也分创新设计和改良设计。如果改良，你要改哪些款？为什么选这些款？是销量不好，还是故障率高，还是用户口碑差？如果是销量不好，怎么判定好？数据从哪里来？标准怎么定？

拖拉机哥认真想想，忽然觉得恍然大悟：是哦！平时会走访市场，会看不同省市区的销量，还会看售后服务的数据，就是从来没认真思考过这些。平时工作都是拍脑袋，看着哪个月问题多了就做个市场走访，收集收集问题回来写报告，从来没认真思考过到底什么数据算好！这么一说还真的有挺多东西可以挖的！

我继续鼓励他：是滴，这就是一个项目了！因为有明确的目标：改良产品，有明确的时间限制。如果你再主动跟踪下，你们改良后的产品批次是否故障率下降，这就是成果。这就是标标准准的一个数据驱动产品迭代升级的例子。谁说传统企业没有数据思维了，只是大家都习以为常了。

还是拖拉机哥，在整理了思路后，觉得自己有信心了。但他想面试的互联网公司大部分都要求python，SQL一类经验，在现有岗位上确实没得练习。还是得练爬虫。我又提示他：做产品研发，你们肯定会参照竞品是不是？以前的竞品信息八成是手动更新的吧。你可以把爬虫技能拿来练习爬竞品产品信息啊，从官网上、从阿里巴巴，反正只要能找到信息的都可以爬。这些可是货真价实对你工作有用的呢，不比爬什么拉勾网管用。

拖拉机哥恍然大悟：是啊，这样还能显得利用爬虫提高了工作效率，还能进一步分析，自学的也与工作结合了。这个例子敢拿出来讲，当然是happy ending，拖拉机哥如愿离开内地三线城市到了魔都成为一名互联网数据分析师，薪酬翻了1.5倍。虽然在陈老师看来，他那个薪酬在三线城市不少了，但是人各有志，达到自己的目标就好。

类似的例子还有很多，比如财务的同学可以练习ROI分析、做经营分析；比如运维的同学可以练习项目开发资源管理的分析；比如做销售的同学可以练习目标客户与销量分析；比如做开发的同学至少接触过数据可视化。其实，数据早已渗透进工作方方面面，对转行的同学来说，最大的敌人是：“习以为常”四个字。太多的固定思维，导致对数据不敏感，导致分析能力下降。导致看不到自己工作中的数据应用，导致过份依赖网上所谓“干货”。然而收藏的东西固然多，买的书本固然厚，能看完吸收的又有多少？

写sql，python是一种技能，数据分析是一种能力。技能可以照抄，能力需要锻炼。不练，永远不会。与大家共勉。

更多分享，可关注公众号：接地气学堂

业务知识一站通，数据分析师的第一堂企业实战课
https://edu.hellobi.com/course/179