尤尔小屋 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

2051

阅读

机器学习札记14——决策树3（信息增益和ID3）

信息增益算法思想信息增益的算法过程为：出入：训练数据集D和特征A输出：特征A对训练数据集D的信息增益具体过程解释为：先计算数据集D的经验熵上式表示为：样本中每个类的在总样本的占比，然后求出经验熵计算特征A对数据集D的经验条件熵：表示在特征A的条件下，数据集D的条件熵计算信息增益：栗子下面具体解释下针对特征...

发表了文章 • 2019-08-24 10:15 • 0 条评论

0

推荐

1167

阅读

机器学习算法13——决策树2

特征选择特征选择的目的是为了筛选出对训练数据具有分类能力的特征，提供决策树学习的效率。通常特征选择的准则是信息增益和信息增益率（信息增益比）熵entropy在信息论和概率统计中，熵entropy表示的是随机变量不确定性的度量，即不纯度。设是一个取有值的随机离散变量，其概率分布为：则随机变量的熵定义为；若果，则...

发表了文章 • 2019-08-23 01:04 • 0 条评论

0

推荐

1499

阅读

机器学习算法12——决策树1

决策树导读决策树Decision Tree是一种基本的分类和回归方法。决策树模型呈现树形结构，在分类问题上，主要是基于特征对样本实例进行分类。其主要是的优点是：模型具有可读性和解释型，推理过程容易理解，决策推理过程可以表示为if - then的形式在训练数据的时候，根据损失函数最小化的原则建立决策树模型推理过程完全取...

发表了文章 • 2019-08-23 01:02 • 0 条评论

0

推荐

2007

阅读

机器学习札记11——学习资料（转2）

注明：本篇札记属于转载，感谢博主机器学习资料我们这里仍然运用指数加权平均数，但并不是dW的平均数，而是(dW)^2的平均数，即：在参数更新时：由于db较大，dw较小，因此SdW较小，Sdb较大，所以可以减小纵轴上的摆动，加速横轴上的学习速度。Adam(Adaptive Moment Estimation)Adam 优化算法基本上就是将 Momentum 和 RM...

发表了文章 • 2019-08-22 23:34 • 0 条评论

0

推荐

1812

阅读

机器学习札记10——学习资料（转1）

注：本篇札记属于转载，感谢博主机器学习资料汇总>本系列主要根据吴恩达老师的课程、李航老师的统计学习方法以及自己平时的学习资料整理！在本文章中，有些地方写的十分简略，不过详细的介绍我都附上了相应的博客链接，大家可以根据相应的博客链接学习更详细的内容。本文的目录先列在这里啦：1、引言2、线性回归3、梯...

发表了文章 • 2019-08-22 23:14 • 0 条评论

0

推荐

1476

阅读

机器学习札记9——《统计学习第一章习题》

习题一说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。统计学习方法的三要素：模型策略算法模型策略算法极大似然估计条件概率经验风险最小化求解析解贝叶斯估计条件概率结构风险最小化求数值解伯努利模型是定义在取值为上的随机变量上的概率分布：当Y取值为1时：当Y取值为0时：极大似然估计为去似...

发表了文章 • 2019-08-19 23:37 • 0 条评论

0

推荐

1541

阅读

知识点在全美婴儿名字案例中，使用到的方法有：按照sex分组按照births属性求和：groupby("sex").births.sum()concat()用法：第一个参数以列表形式添加pivot_table透视表制作image.png直接添加某列属性diff：group['diff']=group['M] - group['F']apply()用法查看DF数据信息：info()不同方式绘制可视图：image.pngimage.p...

发表了文章 • 2019-08-19 23:35 • 0 条评论

0

推荐

1321

阅读

机器学习札记8——感知机

感知机Perceptron导读感知机是二分类的线性分类模型，输入是实例的特征向量（每个属性），输出是实例的类别。感知机对应于输入空间中将实例划分为正负两类的分离超平面，属于判别模型。目的：找出将训练数据进行线性划分的分离超平面导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求出最小值有原始形...

发表了文章 • 2019-08-19 23:27 • 0 条评论

0

推荐

1073

阅读

Git札记2——Git指令大全

GitHub创建仓库提示代码新建仓库echo "# 项目名" >> README.md git init git add README.md git commit -m "first commit" git remote add origin git@github.com:pidada/项目名.git git push -u origin master 若仓库存，在直接pushgit remote add origin git@github.com:pidada/test.git git push -u origin mas...

发表了文章 • 2019-08-19 23:22 • 0 条评论

0

推荐

1791

阅读

机器学习札记7——K近邻（一文看懂KNN）

本篇札记对机器学习中K近邻算法（KNN）的基础、原理、实例、超参数以及scikit-learn中的使用和调参等各种知识进行汇总，学习完本篇札记基本上会了KNN算法。图片发自简书AppKNN基础k-近邻算法（k-nearest neighbor, k-NN）是一种基本分类和回归（预测具体的数值，比如房价、成绩等）的算法，可以解决多分类问题。k近邻算...

发表了文章 • 2019-08-19 23:17 • 0 条评论

0

推荐

987

阅读

机器学习札记6—KNN(K近邻)3

kd树k近邻算法最简单的实现方式线性扫描 linear scan。需要计算每个输入实例和每个训练实例之间的距离；当样本量很大的时候，非常耗时。考虑使用特殊的树形结构：kd树来较少距离的计算。构造平衡kd树kd树是一种对k维空间中的实例点进行存储以便快速查找数据的数据结构。kd树是一种二叉树，表示对k维空间的划分。不断地用...

发表了文章 • 2019-08-19 23:16 • 0 条评论

0

推荐

913

阅读

机器学习札记5——KNN（K近邻）2

KNN重构import numpy as np from math import sqrt from collections import Counter class KNNClassifier: def __init__(self, k): # 构造函数：初始化KNN分类器，传入k值； # 将样本定义为私有属性None，外部无法变动 assert k >= 1, "k must be valid" self.k = k ...

发表了文章 • 2019-08-19 23:13 • 0 条评论

0

推荐

1811

阅读

MySQL札记18——游标cursor

游标基础知识SQL检索操作返回一组称为结果集的行。但是有时候，我们需要在检索出来的行中，需要前进或者后退一行甚至多行，这个时候需要使用游标cursor。游标是一个存在DBMS服务器上的数据库查询，它不仅是一条SELECT语句，而是被该语句检索出来的结果集。在存储了游标之后，应用程序可以根据需要滚动或者浏览其中的数据...

发表了文章 • 2019-08-19 23:11 • 0 条评论

0

推荐

1123

阅读

MySQL札记17_使用存储过程

存储过程存储过程是一组预先编辑好的SQL语句组成，编译后存储在数据库中。可以将它们视为批文件，但是它们的作用不仅仅是批处理。MySQL5开始支持存储过程。存储过程可包含：程序流、逻辑及对数据库的查询。它们可以接受参数、输出参数返回单个或者多个结果集及返回值。为什么要用存储过程简化操作：将处理封装在一个简单...

发表了文章 • 2019-08-19 23:09 • 0 条评论

0

推荐

1078

阅读

电影—《哪吒之魔童降世》

昨天就买好了电影票，决定去看《哪吒》。今天周五正常下班之后，突然下起了大雨。但也没有挡住一个人想去看电影的心情。开心的是，到达万达雨停了，居然又见到了彩虹。风雨过后真的有彩虹图片发自简书App图片发自简书App回忆《哪吒之魔童降世》真的是最近火爆的电影。我想大多数知道哪吒肯定是通过《封神榜》。笔者也是...

发表了文章 • 2019-08-16 21:59 • 0 条评论