疯狂的拖鞋的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

8

推荐

1651

阅读

机器学习初步学习笔记

机器学习初步机器学习基本概念机器学习、统计模型和数据挖掘有什么异同？机器学习和统计模型区别不是很大，机器学习和统计模型中的回归都一样，底层算法都是差不多的，只是侧重点不一样，在统计学的角度，回归主要解决的问题侧重点在于模型的解释能力，关注的是 x 和 y 之间的关系，关注的更多是系数，从机器学习的角度...

发表了文章 • 2017-04-13 10:20 • 1 条评论

2

推荐

1584

阅读

机器学习笔记—线性回归

问题：给定一个数据集，自变量是房子面积和房间数，目标变量是房子价格，当来了个新房子，知道其房子面积和房间数，如何预测价格？解：我们是想找到一个公式，能够根据面积和房间数算出价格，这个公式不仅能在训练集上畅行无阻，在新数据上也要能尽量准确。还不知道这三个变量是什么关系，不妨假定价格是面积和房间数的...

发表了文章 • 2017-02-09 15:56 • 1 条评论

2

推荐

2347

阅读

在阿里云上搭建 Spark 实验平台

之前在自己的笔记本上运行 Python 代码，有些要运行一天多，一关机就前功尽弃，很不方便，所以才有租用阿里云服务器的想法，用了同学租的一台用了两天又觉得不够使，索性就自己租了三台，配置如下，三台一共约 320 块。CPU： 1核内存： 2048 MB操作系统： Ubuntu 14.04 64位带宽计费方式：按固定带...

发表了文章 • 2017-02-09 15:50 • 0 条评论

2

推荐

2142

阅读

Matplotlib 学习笔记

数据绘图数据可视化的原则为什么要做数据可视化？为什么要做数据可视化？因为可视化后获取信息的效率高。为什么可视化后获取信息的效率就高？因为人眼是个高带宽的巨量信号输入并行处理器，具有超强的模式识别能力，对可视符号的感知速度比对数字或文本快多个数量级，而可视化就是迎合了人眼的这种特点，才使得获取信息...

发表了文章 • 2017-02-07 11:06 • 0 条评论

3

推荐

2113

阅读

Pandas 学习笔记

数据操作数据整理和 Pandas数据整理是数据分析之前必要的工作。数据整理包括：数据的基本清洁。如气温数据后面带摄氏度标志 ℃，这时可能需要把符号 ℃ 去掉。数据的拆分合并。有些数据只需要一部分子集，或者需要合并两个不同的数据源。数据转换。如把华氏度转成摄氏度，或者把连续值转成离散值。数据构造。有时需要重新...

发表了文章 • 2017-02-07 11:03 • 1 条评论

1

推荐

1547

阅读

机器学习笔记—独立成分分析

本文介绍独立成分分析（ICA），同 PCA 类似，我们是要找到一个新的基来表示数据，但目的就不一样了。鸡尾酒会问题：n 个人在一个 party 上同时说话，n 个麦克风放置在房间的不同位置，因为每个麦克风跟每个人的距离都不一样，所以它们记录的说话者重叠的声音也不一样。根据麦克风记录的声音，如何分离出 n 个说话者的声...

发表了文章 • 2017-02-06 14:22 • 0 条评论

1

推荐

1757

阅读

机器学习笔记—增强学习

本文介绍增强学习和自适应控制。在监督学习中，算法是要输出尽量模仿训练集中的标签 y，标签给每个输入 x 一个清楚的正确答案。与此不同，对于许多序列决策和控制问题，就很难对算法给出这种明确的监督。例如，如果要造一个四足机器人，并编程让它行走，起初我们并不知道让它行走的正确行动，所以也不知道怎么模仿学习算...

发表了文章 • 2017-02-06 14:17 • 0 条评论

0

推荐

1272

阅读

机器学习笔记—局部权重线性回归

看下面三幅图，x 轴是房间面积，y 轴是房价。左图是 y = θ0 + θ1x 拟合数据集的结果。可以看到数据并不贴靠在直线上，所以拟合并不好。中图是 y = θ0 + θ1x + θ2x2 拟合数据集的结果，拟合得还不错。右图是 y = θ0 + θ1x + θ2x2 + θ3x3 +&...

发表了文章 • 2017-02-04 16:26 • 0 条评论

3

推荐

1526

阅读

机器学习笔记—线性回归

问题：给定一个数据集，自变量是房子面积和房间数，目标变量是房子价格，当来了个新房子，知道其房子面积和房间数，如何预测价格？解：我们是想找到一个公式，能够根据面积和房间数算出价格，这个公式不仅能在训练集上畅行无阻，在新数据上也要能尽量准确。还不知道这三个变量是什么关系，不妨假定价格是面积和房间数的...

发表了文章 • 2017-02-04 13:09 • 1 条评论

0

推荐

1118

阅读

机器学习笔记1

高斯分布属于指数分布族，线性最小二乘就是基于高斯分布。线性最小二乘——最大似然——最小二乘。高斯判别分析（GDA）针对的是特征向量 x 为连续值时的问题，而朴素贝叶斯（NB）针对的是特征向量 x 为离散值时的问题。GDA 比 Logistic 回归有更严格的前置假设。当数据服从或大致服从正态分布时，使用 GDA 会达到更好的效果...

发表了文章 • 2017-02-04 13:00 • 0 条评论

4

推荐

1749

阅读

机器学习初步练习题

1. 写一个函数，能将一个多类别变量转为多个二元虚拟变量，不能使用 sklearn 库。将一个多类别变量转为多个二元虚拟变量，是数据预处理时常用的一种方法。举个例子：以性别 Sex 为例，原本一个变量，因为其取值可以是['male','female']，而将其平展开为 Sex_male 和 Sex_female 两个变量。原本 Sex 取值为 male 的，在转...

发表了文章 • 2017-02-03 17:56 • 0 条评论