疯狂的拖鞋的博客专栏

少壮不努力,老大开夏利。分享机器学习,数据挖掘知识

8
推荐
1651
阅读

机器学习初步学习笔记

机器学习初步机器学习基本概念机器学习、统计模型和数据挖掘有什么异同?机器学习和统计模型区别不是很大,机器学习和统计模型中的回归都一样,底层算法都是差不多的,只是侧重点不一样,在统计学的角度,回归主要解决的问题侧重点在于模型的解释能力,关注的是 x 和 y 之间的关系,关注的更多是系数,从机器学习的角度...

发表了文章 • 2017-04-13 10:20 • 1 条评论

2
推荐
1584
阅读

机器学习笔记—线性回归

问题:给定一个数据集,自变量是房子面积和房间数,目标变量是房子价格,当来了个新房子,知道其房子面积和房间数,如何预测价格?解:我们是想找到一个公式,能够根据面积和房间数算出价格,这个公式不仅能在训练集上畅行无阻,在新数据上也要能尽量准确。还不知道这三个变量是什么关系,不妨假定价格是面积和房间数的...

发表了文章 • 2017-02-09 15:56 • 1 条评论

2
推荐
2347
阅读

在阿里云上搭建 Spark 实验平台

之前在自己的笔记本上运行 Python 代码,有些要运行一天多,一关机就前功尽弃,很不方便,所以才有租用阿里云服务器的想法,用了同学租的一台用了两天又觉得不够使,索性就自己租了三台,配置如下,三台一共约 320 块。CPU: 1核内存: 2048 MB操作系统: Ubuntu 14.04 64位带宽计费方式: 按固定带...

发表了文章 • 2017-02-09 15:50 • 0 条评论

2
推荐
2142
阅读

Matplotlib 学习笔记

数据绘图数据可视化的原则为什么要做数据可视化?为什么要做数据可视化?因为可视化后获取信息的效率高。为什么可视化后获取信息的效率就高?因为人眼是个高带宽的巨量信号输入并行处理器,具有超强的模式识别能力,对可视符号的感知速度比对数字或文本快多个数量级,而可视化就是迎合了人眼的这种特点,才使得获取信息...

发表了文章 • 2017-02-07 11:06 • 0 条评论

3
推荐
2113
阅读

Pandas 学习笔记

数据操作数据整理和 Pandas数据整理是数据分析之前必要的工作。数据整理包括:数据的基本清洁。如气温数据后面带摄氏度标志 ℃,这时可能需要把符号 ℃ 去掉。数据的拆分合并。有些数据只需要一部分子集,或者需要合并两个不同的数据源。数据转换。如把华氏度转成摄氏度,或者把连续值转成离散值。数据构造。有时需要重新...

发表了文章 • 2017-02-07 11:03 • 1 条评论

1
推荐
1547
阅读

机器学习笔记—独立成分分析

本文介绍独立成分分析(ICA),同 PCA 类似,我们是要找到一个新的基来表示数据,但目的就不一样了。鸡尾酒会问题:n 个人在一个 party 上同时说话,n 个麦克风放置在房间的不同位置,因为每个麦克风跟每个人的距离都不一样,所以它们记录的说话者重叠的声音也不一样。根据麦克风记录的声音,如何分离出 n 个说话者的声...

发表了文章 • 2017-02-06 14:22 • 0 条评论

1
推荐
1757
阅读

机器学习笔记—增强学习

本文介绍增强学习和自适应控制。在监督学习中,算法是要输出尽量模仿训练集中的标签 y,标签给每个输入 x 一个清楚的正确答案。与此不同,对于许多序列决策和控制问题,就很难对算法给出这种明确的监督。例如,如果要造一个四足机器人,并编程让它行走,起初我们并不知道让它行走的正确行动,所以也不知道怎么模仿学习算...

发表了文章 • 2017-02-06 14:17 • 0 条评论

0
推荐
1272
阅读

机器学习笔记—局部权重线性回归

看下面三幅图,x 轴是房间面积,y 轴是房价。左图是 y = θ0 + θ1x 拟合数据集的结果。可以看到数据并不贴靠在直线上,所以拟合并不好。中图是 y = θ0 + θ1x + θ2x2 拟合数据集的结果,拟合得还不错。右图是 y = θ0 + θ1x + θ2x2  + θ3x3 +&...

发表了文章 • 2017-02-04 16:26 • 0 条评论

3
推荐
1526
阅读

机器学习笔记—线性回归

问题:给定一个数据集,自变量是房子面积和房间数,目标变量是房子价格,当来了个新房子,知道其房子面积和房间数,如何预测价格?解:我们是想找到一个公式,能够根据面积和房间数算出价格,这个公式不仅能在训练集上畅行无阻,在新数据上也要能尽量准确。还不知道这三个变量是什么关系,不妨假定价格是面积和房间数的...

发表了文章 • 2017-02-04 13:09 • 1 条评论

0
推荐
1118
阅读

机器学习笔记1

高斯分布属于指数分布族,线性最小二乘就是基于高斯分布。线性最小二乘——最大似然——最小二乘。高斯判别分析(GDA)针对的是特征向量 x 为连续值时的问题,而朴素贝叶斯(NB)针对的是特征向量 x 为离散值时的问题。GDA 比 Logistic 回归有更严格的前置假设。当数据服从或大致服从正态分布时,使用 GDA 会达到更好的效果...

发表了文章 • 2017-02-04 13:00 • 0 条评论

4
推荐
1749
阅读

机器学习初步练习题

1. 写一个函数,能将一个多类别变量转为多个二元虚拟变量,不能使用 sklearn 库。将一个多类别变量转为多个二元虚拟变量,是数据预处理时常用的一种方法。举个例子:以性别 Sex 为例,原本一个变量,因为其取值可以是['male','female'],而将其平展开为 Sex_male 和 Sex_female 两个变量。原本 Sex 取值为 male 的,在转...

发表了文章 • 2017-02-03 17:56 • 0 条评论