数据蛙觉攻城狮

从零开始学习数据挖掘,机器学习。向青蛙一样要有觉醒意识,从零开始攻城。

0
推荐
1180
阅读

理解交叉熵作为损失函数在神经网络中的作用--转载(CSDN)

理解交叉熵作为损失函数在神经网络中的作用原文连接:https://blog.csdn.net/chaipp0607/article/details/73392175交叉熵的作用通过神经网络解决多分类问题时,最常用的一种方式就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN中都是如此,比如,在AlexNet中最后的输出层有1000个节点: 而即便是ResNe...

发表了文章 • 2018-07-24 17:22 • 0 条评论

0
推荐
1029
阅读

决策树种的ID3、C4.5、CART算法计算详解(转)

  决策树算法:顾名思义,以二分类问题为例,即利用自变量构造一颗二叉树,将目标变量区分出来,所有决策树算法的关键点如下:    1.分裂属性的选择。即选择哪个自变量作为树叉,也就是在n个自变量中,优先选择哪个自变量进行分叉。而采用何种计算方式选择树叉,决定了决策树算法的类型,即ID3、c4....

发表了文章 • 2018-07-24 17:20 • 0 条评论

1
推荐
1639
阅读

决策树种的ID3、C4.5、CART算法计算详解

  决策树算法:顾名思义,以二分类问题为例,即利用自变量构造一颗二叉树,将目标变量区分出来,所有决策树算法的关键点如下:    1.分裂属性的选择。即选择哪个自变量作为树叉,也就是在n个自变量中,优先选择哪个自变量进行分叉。而采用何种计算方式选择树叉,决定了决策树算法的类型,即ID3、c4....

发表了文章 • 2018-07-11 11:04 • 0 条评论

0
推荐
1756
阅读

转载【数据挖掘模型中的IV和WOE详解】--数据分析中变量筛选技术之IV和WOE

1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型...

发表了文章 • 2018-07-09 15:48 • 0 条评论

0
推荐
1492
阅读

ben-老师第三次作业提交

# -*- coding: utf-8 -*-"""Created on Tue Jul  3 09:01:06 20181、背景介绍:一家婚恋网站公司希望根据已注册用户的历史相亲数据,建立新用户相亲成功可能性的预测模型,数据存放在“date_data2.csv”中。2、主要变量说明如下:#income-月均收入(元)#attractive-由婚恋网站评定出的个人魅力值,分值从0-100。#asset...

发表了文章 • 2018-07-03 17:56 • 0 条评论

1
推荐
1480
阅读

转载ben老师第三讲答案,膜拜的同时分享给大家

import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib import seaborn as sns import os os.chdir(r'C:\Users\知行合一\Documents\ben\HW5') In [2]:import sqlite3 In [3]:con=sqlite3.connect(':memory:') card=pd.read_csv(r'card.csv',encoding='gbk') disp=pd.rea...

发表了文章 • 2018-06-27 15:06 • 0 条评论

1
推荐
1276
阅读

ben_第四次作业

1、背景介绍:C银行信用卡中心在对欺诈风险和反欺诈技术作了充分研究之后,融合内外部数据,建立以评分模型为支撑的欺诈识别和防范系统,以满足精细化管理的需要。本次作业根据提供的数据(“FRAUD_TRAIN_Samp.csv”,引用自陈春宝等出版的《SAS金融数据挖掘与建模》)建立信用卡申请反欺诈模型。2、主要变量说明如下:#无...

发表了文章 • 2018-06-25 15:15 • 1 条评论

1
推荐
1472
阅读

ben老师第二次作业提交

Created on Sat Jul  7 16:12:18 2018@author: 知行合一"""'''研究二手房价的影响因素,建立房价预测模型,数据存放在附件的“sndHsPr.csv”中。分析思路:在对房价的影响因素进行模型研究之前,首先对各变量进行描述性分析,以初步判断房价的影响因素,进而建立房价预测模型。变量说明如下:dist-所在区  roomnum-...

发表了文章 • 2018-06-11 09:11 • 0 条评论

0
推荐
1319
阅读

ben第一次作业

1、学习pandas,dataframe数据提取2、数据清洗:计算列之间的字符转化,str->datetime, datafram['strdate'].astype('datetime64')str->int  (根据正则表达是进行解析)onehistory['转化后的数字字']=onehistory['数字字符串列'].map(lambda x:int(''.join(x[1:].split(','))))3、数据分组统计:groupby(...

发表了文章 • 2018-06-04 17:54 • 0 条评论