酷农民

菜鸟的数据科学成长之路,数据分析码农们的自留地

4
推荐
5924
阅读

《python数据科学:技术详解与商业实践》-配套脚本

《python数据科学:技术详解与商业实践》配套脚本下载地址: https://pan.baidu.com/s/1Q3Di_JfiomLKiSDTcap4HQ 密码: up7w与本书配套的部分视频可以到此处下载:链接: https://pan.baidu.com/s/1lEgxPVnko_FNsS3KV3SGQQ 密码: m5um本书是一本集数据分析、数据挖掘、机器学习为一体,面向商业实战的...

发表了文章 • 2018-07-19 01:06 • 8 条评论

0
推荐
2703
阅读

Python数据科学-技术详解与商业实践-第一、二讲作业和第三讲预习视频

第二讲作业1、文件读写:读入“medicare.csv”数据,要求返回类型为数据框2、提取第一个观测的Hospital Name和Score3、取出Hospital Name和Score,并将Hospital每个单词转换为首字母大写4、计算年金练习:公司为每一位员工建立了年金帐户,每年12月31日存入5千元年金,年利率为5%,请问第11年年初时该账户的余额是多少?要...

发表了文章 • 2018-06-28 12:16 • 1 条评论

1
推荐
1727
阅读

Python数据科学-技术详解与商业实践-第十讲作业(本次作业大家跟帖讨论)

涉及内容:电信公司产品捆绑销售策略制定-产品互补性分析与购物篮在捆绑销售中的实操1、背景介绍:电信公司希望根据客户的产品订购信息进行捆绑销售和交叉销售,数据集为Prod.csv。2、本案例涉及的变量说明如下:ID 客户IDPROD 订购产品3、作业安排:3.1 基础知识:      1)解释支持度、置信度、提升度的...

发表了文章 • 2018-06-28 12:11 • 0 条评论

0
推荐
1917
阅读

Python数据科学-技术详解与商业实践-第九讲作业(本次作业大家跟帖讨论)

涉及内容:电信客户消费行为聚类-变量主题相关性分析、信息压缩、分布形式转换与客户分群描述1、背景介绍:使用电信公司的客户业务使用量数据进行客户细分,数据集为profile_telecom.csv,首先通过因子分析,进行降维。之后进行客户消费习惯分群,并使用决策树进行客户分群轮廓画像。2、本案例涉及的变量说明如下:cnt_ca...

发表了文章 • 2018-06-28 12:09 • 0 条评论

0
推荐
1974
阅读

Python数据科学-技术详解与商业实践-第八讲作业(本次作业大家跟帖讨论)

涉及内容:信用卡客户流失预警模型-CRISP_DM建模流程、数据清洗、变量压缩、模型开发与评估1、背景介绍:随着信用卡市场的成熟,人均持卡量不断增加,加上第三方支付牌照的持续发放,人们可选择的支付手段不断丰富,信用卡客户流失(销卡)呈现常态化。C银行在国内信用卡市场中处于领先地位,管理层非常重视客户生命周期...

发表了文章 • 2018-06-28 12:08 • 1 条评论

1
推荐
2279
阅读

Python数据科学-技术详解与商业实践-第七讲作业(本次作业希望大家跟帖讨论)

1、背景介绍:C银行信用卡中心在对欺诈风险和反欺诈技术作了充分研究之后,融合内外部数据,建立以评分模型为支撑的欺诈识别和防范系统,以满足精细化管理的需要。本次作业根据提供的数据(“FRAUD_TRAIN_Samp.csv”,引用自陈春宝等出版的《SAS金融数据挖掘与建模》)建立信用卡申请反欺诈模型。2、主要变量说明如下:#无...

发表了文章 • 2018-06-24 02:28 • 4 条评论

1
推荐
2543
阅读

Python数据科学-技术详解与商业实践-第六讲作业(数据见附件,预习视频见文末)

1、背景介绍:一家婚恋网站公司希望根据已注册用户的历史相亲数据,建立新用户相亲成功可能性的预测模型,数据存放在“date_data2.csv”中。2、主要变量说明如下:#income-月均收入(元)#attractive-由婚恋网站评定出的个人魅力值,分值从0-100。#assets-资产(万元)#edueduclass-教育等级:1=小学,2=初中;3=高中,4=本科,5=硕...

发表了文章 • 2018-06-19 19:37 • 0 条评论

3
推荐
3361
阅读

Python数据科学-技术详解与商业实践-第五讲作业(数据见附件,预习视频见文末)

电信公司希望针对客户的信息预测其流失可能性,数据存放在“telecom_churn.csv”中。1、分析思路:在对客户流失与否的影响因素进行模型研究之前,首先对各解释变量与被解释变量进行两变量独立性分析,以初步判断影响流失的因素,进而建立客户流失预测模型主要变量说明如下:#subscriberID="个人客户的ID"#churn="是否流失...

发表了文章 • 2018-06-12 19:57 • 0 条评论

7
推荐
3952
阅读

Python数据科学-技术详解与商业实践-第四讲作业(数据、课件见附件)

作业要求研究二手房价的影响因素,建立房价预测模型,数据存放在附件的“sndHsPr.csv”中。分析思路:在对房价的影响因素进行模型研究之前,首先对各变量进行描述性分析,以初步判断房价的影响因素,进而建立房价预测模型变量说明如下:dist-所在区roomnum-室的数量halls-厅的数量AREA-房屋面积floor-楼层subway-是否临近...

发表了文章 • 2018-06-06 09:09 • 3 条评论

2
推荐
3919
阅读

Python数据科学-技术详解与商业实践-第三讲作业(课件、数据见附件)

第四章作业:使用auto_ins作如下分析1、首先对loss重新编码为1/0,有数值为1,命名为loss_flag2、对loss_flag分布情况进行描述分析3、分析是否出险和年龄、驾龄、性别、婚姻状态等变量之间的关系(提示:使用分类盒须图,堆叠柱形图)# coding: utf-8 # In[1]: import pandas as pd import numpy as np import matplotlib.pyp...

发表了文章 • 2018-06-04 12:22 • 1 条评论

2
推荐
4467
阅读

Python文本挖掘-PDF和脚本见附件

课程要点     •分词以及词权重     •文本分类算法     •文本检索和LDA 常国珍《Python数据科学:全栈技术详解》3课程大纲     1)文本挖掘介绍     2)中文分词   &n...

发表了文章 • 2018-05-01 15:05 • 0 条评论

2
推荐
5157
阅读

Python-用sklearn做特征工程

第18章特征工程(Feature Engineering)  本章从商业数据分析和挖掘的角度详细地介绍了特征工程及其使用的响应方法:数据预处理、特征构造、特征抽取以及特征选择。系统性地说明了用于构建分析用的结构化数据的过程。18.1 特征工程概述在商业数据的分析挖掘当中,最常用的数据是结构化数据,其呈现为二维表的...

发表了文章 • 2018-05-01 14:52 • 0 条评论

1
推荐
2223
阅读

最大熵模型-完整PDF见附件

最大熵模型是近年来自然语言处理领域最成功的一种机器学习算法。最大熵模型,通俗地讲就是把可以明确的信息尽量提取出来,不知道的信息(不确定的)保留,将预测风险降到最低。1  信息量、信息熵的概念  Ÿ  一个例子:假币问题假设有5个硬币,分别编号为1、2、3、4、5。这5个硬币中,有1个是假的,...

发表了文章 • 2018-05-01 14:49 • 0 条评论

0
推荐
5115
阅读

R文本挖掘入门-文章不清楚请看附件的PDF-脚本和数据也在附件

大数据时代,数据量与日俱增,其中不乏大量非结构化数据,例如文本、音频、图像、视频等。本章主要介绍中文文本数据分析的基本流程及相应流程下的知识点,并结合R语言实现部分知识点,从而可以方便地应用于实际的工作或学习中。 1 文本挖掘文本挖掘并不是一个新鲜的词汇,事实上自从自然语言处理技术发展之时,文...

发表了文章 • 2018-05-01 14:34 • 0 条评论