兔子的机器学习逗比笔记(1)监督与非监督学习

浏览: 1349

兔子:打架猴-.-,我是一只在Data Science的菜鸟,理想是游戏数据分析师,本文是一些国外网课(吴恩达NG大神)+自己的(逗比)理解+学校教授的讲解,希望在这个学期可以一直坚持更新,新年祝自己在3个月后能有offer回国:)

What is Machine Learning?

其实简单的理解就是Google那个下棋

如果计算机被安排了一个任务要赢这局围棋,那么有多大的几率win呢?这个几率可以通过海量的数据集来提升。

E:围棋的experience

T:赢得这局围棋

P:下一局会赢的几率?

在机器学习中,基本分成Supervised learning and Unsupervised learning 两类。

监督学习和非监督学习

一. 监督学习

举个例子预测房价

Clipboard Image.png

给一部分已有房子的数据集(已经有正确答案的数据集,比如房价),然后通过算法,可以有XXX的概率得出新的房子的价格。

监督学习又分成:

1. 连续变量,房价1-10万这种数据

2. 离散变量,某人能得到offer Y/N 或者更多可能性,0,1,2,3,4

要是只有单一属性的话,用房子的大小----预测房价则算法很简单。但是生活中往往会有3-5个属性,甚至无数个属性!(啧啧房价堪忧-.-)那么怎么办?

这里就要介绍到支持向量机的算法:一种简洁的数学方法,能够让电脑处理无数种特征(What!...自动加班可好?)这个后面再说。

结尾来个Case Study:

假设现在你在一家互联网公司上班,在做分析师(啧啧羡慕脸.jpg), 老板给你2个问题:

1.库存里2万个商品,老板让你预测以后3个月每一个商品的销售情况,以便提前备货

2.游戏部门有20万个用户,运营部门命令你(给跪了)分析每一个游戏用户是不是用过外挂刷钻石!(刷Q币见者有份啊啊啊啊啊啊)

嗯...真正的问题来了,请问1,2哪些是regression,哪些是分类?

额= =,好明显的问题,1回归,2.分类,因为一个连续一个离散。

More Example

1.自拍照----预测你的年龄( what! 黑科技啊啊啊)属于回归

2.游戏新用户-------预测是大R还是非洲人(那一定在说我-.-) 属于分类

二. 非监督学习

先说说他和监督学习的差异,监督学习其实已经有了一个目标,房价or玩家有没开外挂的Y/N。

而在非监督学习中,根本就没有属性或标签的存在,也就是说全部数据的标签是一样的,木有任何区别。想象一下,老板说给你这个月的用户资料,你看看有什么可以做的,我们可能不像之前那么的有目标性和任务性,这时候就可能需要做聚类了。

Clipboard Image.png

举个例子,百度每天会自动去搜索大量的原始URL网址,然后将它们分类,变成头条啊,新闻啊,图片啊,视频啊等等,其实他们的原始数据就是一个网址。当你搜索“2017年春晚真的是好看到没朋友了”的时候(怀疑能不能搜到=.=),那么电脑就会自动的将与春晚有关的全部网址归类,这就是我理解的聚类算法和非监督学习了。

例子2: 科学家用DNA数据进行分析,但是科学家完全不知道这些DNA是什么,有什么用。他们先用自动算法把这些DNA成几百种类型,然后有这些未知的DNA的人群是有什么特点,再深入研究。

例子3: 借用talkingdata于洋老师《游戏数据分析的艺术》的玩家分类图Clipboard Image.png

手游的客户分类,将未知的玩家原始数据,用聚类显示出来,当我们有新用户的时候,我们可不可以自动将他们分类,自动处理新的数据集。从而可以做到游戏运营的差异化和精准营销。

例子4:Facebook,领英或者微信朋友的关系

Clipboard Image.png

当然聚类只是其中之一。(which现在我就只懂这个- -)

让我们看看另一个example, 鸡尾酒聚会问题

假如现在晚会有100人在说话,然后有2个同学在聊天,他们面前有2个麦克风(还带麦克风聊天的咩0.0)Clipboard Image.png

那么麦克风1和麦克风2接受到的声音其实是重叠了speaker A和B+背景音乐的。非监督学习可以将他们分类。

听起来好像要写好多好多代码!!!

而实际上这个算法只有一行代码(天啦噜!),是用了Octave来写的。因为Octave是目前硅谷用来做算法最快的办法,很多大咖都是先用Octave确定了算法可行再转移到Java和C++等等。

Clipboard Image.png

所以实际上非监督学习也为2类

1.Clustering--DNA,市场那种聚类

2.Non-Clustering-非聚类,像鸡尾酒语音这种有混乱因素的干扰,然后分离不同的变量。

第一次笔记快结束啦啦啦啦啦!-^-!最后,问题又来了:

以下哪些是非监督学习(可多选)

1.判断一个邮件是不是垃圾邮件,自动过滤

2.网上找到新闻,自动将他们归类

3.得到客户资料后,自动做market segmentation

4.得到海量病人有无癌症的数据集,判断新的病人有/无癌症

答案:1,2,3非监督,4监督。

推荐 3
本文由 Dennis王镜程 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

以后多来写写

要回复文章请先登录注册