菜鸟学机器学习启航篇

浏览: 1377

这是菜鸟学Python的第124篇原创文章

阅读本文大概需要3分钟

菜鸟独白

Python有两大方向,web一块,数据分析挖掘一块.个人对数据分析比较感兴趣,而数据分析再往前一步就是机器学习. 有的同学可能会问,数据分析和机器学习有啥区别呢,不急我们今天就从小白的角度来慢慢走进机器学习的殿堂

数据分析和机器学习的区别和联系

1).体量上看

从我个人看法,数据分析和机器学习,其实都是对数据集的探索,只是程度不同而已.数据分析更偏重数据的的统计和分析,并用可视化的角度去展示.

数据分析的维度和数据量并不是很大,一般数据分析可视化的话同时4个维度已经蛮多了,但是机器学习的维度和数据量会很大,上百个维度的分析都是有可能的.

2).干的事不一样

数据分析一般偏重对历史数据,交易数据的分析,比如网站的用户订单信息,根据不同的维度去对数据进行统计,主要是展示过去的数据

而机器学习偏行为数据行为,比如电商里面用户浏览网站点了哪些商品,交流历史,浏览历史啊,搜索历史等等,数据集量比较大维度比较多,用海量可能不过分,需要挖掘找出数据之间的规律

最神奇的是它经过一些算法训练数据之后,可以对数据预测,这一点非常牛,也就是说掌握了大量的历史数据之后可以预测数据,举个例子我掌握你的大量购买行为之后我可以预测你对某一类商品感兴趣,我会推荐你一个商品,而且很可能就是你要的商品.

3).需要背景的技能

数据分析师最常用的是Excel,SQL,然后才是Python,而且需要对业务的逻辑非常了解和熟悉,可视化是一个非常重要的技能.

数据挖掘,机器学习是需要熟悉大量的机器学习算法,对算法的各种模型和参数都有理解,不然你后面根本无法调整参数.而且机器学习涉及到一些数学知识,至少统计学,线性代数是需要懂的.机器学习里面方向有自然语言处理,图像识别等涉及的层度比较深.

二者有共同的地方就是都是对数据集进行探索,所以数据清洗这块我觉得是它们的交集,都会大量的用到Python的进阶知识和Numpy,Pandas.所以无论你学哪个方向,Python的基础知识非常重要,尤其是它的技巧.

4).薪资和岗位

数据分析一般是数据分析师(主要是掌握爬虫,数据分析,可视化和数据库)的一些技能。

数据分析的高级岗位一般叫数据科学家,很多大的巨头互联网像Google,Facebook这样的顶尖互联网公司都有这样的职位,要求也非常高,年薪百万不是梦!因为机器学习本身就是有门槛的, 而且人才非常匮乏.

机器学习的入门

1).我这里谈一下我个人的感受,网上关于机器学习的入门资料和书非常多,里面几乎都提到了这两大神器:吴恩达老师的机器学习视频和周志华老师的西瓜书

2).两位老师都是机器学习领域的泰山北斗,二者我都看过,尤其是西瓜书对算法的解释写的非常具体,但是我觉得对于刚入门的小伙伴,如果数学知识不是很好的,想看懂不是那么容易,需要反复的消化,有的时候如果消化不良,需要有人指点一下.

对吴恩达老师的机器学习视频,需要仔细咀嚼,老师讲的很细,至少我第一遍刚看的时候,是丈二和尚摸不着头脑.

3).我个人偏向小白入门的那种,然后循序渐进由浅入深,比如刚上手Python我会建议大家学A byte of Python.机器学习我建议大家先看"集体智慧编程"

4).这里同学可能会有困惑,Python涉及这么多的库和框架,都是一箩筐一箩筐的,应该如何掌握呢?这确实是一个挑战,大家可以先思考一下,有没有什么窍门,以后我会在小密圈分享我的心得!

常见的机器学习算法

1).机器学习的算法七七八八有很多,常见的算法分类如下:

有监督学习

无监督学习

半监督学习

image.png

2).上面的分类啥意思

机器学习的一个非常重要的过程就是对样本数据进行训练,而对于样本数据来说,里面会分有标签的数据和无标签的数据.

就是这些样本数据提前被打好了标签,比如你要做一个垃圾邮箱的机器学习,给你一堆邮件数据,有一些是正常邮件,一些是垃圾邮件,这些邮件已经被打上标签了.

同理,如果样本数据里面没有打标签,那这样的学习叫无监督学习.无监督更牛,机器帮你进行聚类分析,人工智能了不起!

有同学可能会问了,啥叫半监督学习,其实算法分类不是非黑即白,毕竟有一些数据可能打了标签,有一些数据没有打标签,需要根据局部的数据进行强化训练,从而对整体的数据进行分类.

2).常用的几大算法

K-邻近算法

决策树

朴素贝叶斯

逻辑回归

支持向量机

k均值

聚类

结论:


听完这些名字是不是头都大了,小白第一感觉是啊呀很深奥哦,第二感觉看名字好像都和数学有关系,是的我刚开始学的时候,也是一头雾水,也是在摸索中前进。

当然这么多算法,除了会知道怎么用之外,还需要了解什么样的数据用什么样的算法,每一种算法的区别是啥,特性是啥都,如何提高模型的准确率,需要仔细推敲和研究的,其实这些算法还是蛮好玩的,有很多有趣的例子。

推荐 1
本文由 菜鸟学Python 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册