机器学习正在进步,我们似乎正在不断接近我们心中的人工智能目标。语音识别、图像检测、机器翻译、风格迁移等技术已经在我们的实际生活中开始得到了应用,但机器学习的发展仍还在继续,甚至被认为有可能彻底改变人类文明的发展方向乃至人类自身。但你了解现在正在发生的这场变革吗?四大会计师事务所之一的普华永道(PwC)近日发布了多份解读机器学习基础的图表,其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常见的算法。为便于读者阅读,译者对这些图表进行了编译和拆分,分三大部分对这些内容进行了呈现,其中也加入了一些扩展链接,希望能帮助你进一步扩展阅读。
一、机器学习概览
什么是机器学习?
机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。
机器学习和人工智能的关系
机器学习是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。
机器学习的工作方式
①选择数据:将你的数据分成三组:训练数据、验证数据和测试数据。
②模型数据:使用训练数据来构建使用相关特征的模型。
③验证模型:使用你的验证数据接入你的模型。
④测试模型:使用你的测试数据检查被验证的模型的表现。
⑤使用模型:使用完全训练好的模型在新数据上做预测。
⑥调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现。
机器学习所处的位置
①传统编程:软件工程师编写程序来解决问题。首先存在一些数据→为了解决一个问题,软件工程师编写一个流程来告诉机器应该怎样做→计算机遵照这一流程执行,然后得出结果。
②统计学:分析师比较变量之间的关系。
③机器学习:数据科学家使用训练数据集来教计算机应该怎么做,然后系统执行该任务。首先存在大数据→机器会学习使用训练数据集来进行分类,调节特定的算法来实现目标分类→该计算机可学习识别数据中的关系、趋势和模式。
④智能应用:智能应用使用人工智能所得到的结果,如图是一个精准农业的应用案例示意,该应用基于无人机所收集到的数据。
机器学习的实际应用
机器学习有很多应用场景,这里给出了一些示例,你会怎么使用它?
快速三维地图测绘和建模:要建造一架铁路桥,PwC 的数据科学家和领域专家将机器学习应用到了无人机收集到的数据上。这种组合实现了工作成功中的精准监控和快速反馈。
增强分析以降低风险:为了检测内部交易,PwC 将机器学习和其它分析技术结合了起来,从而开发了更为全面的用户概况,并且获得了对复杂可疑行为的更深度了解。
预测表现最佳的目标:PwC 使用机器学习和其它分析方法来评估 Melbourne Cup 赛场上不同赛马的潜力。
二、机器学习的演化
几十年来,人工智能研究者的各个「部落」一直以来都在彼此争夺主导权。现在是这些部落联合起来的时候了吗?他们也可能不得不这样做,因为合作和算法融合是实现真正通用人工智能(AGI)的唯一方式。这里给出了机器学习方法的演化之路以及未来的可能模样。
五大流派
①符号主义:使用符号、规则和逻辑来表征知识和进行逻辑推理,最喜欢的算法是:规则和决策树。
②贝叶斯派:获取发生的可能性来进行概率推理,最喜欢的算法是:朴素贝叶斯或马尔可夫。
③联结主义:使用概率矩阵和加权神经元来动态地识别和归纳模式,最喜欢的算法是:神经网络。
④进化主义:生成变化,然后为特定目标获取其中最优的,最喜欢的算法是:遗传算法。
⑤Analogizer:根据约束条件来优化函数(尽可能走到更高,但同时不要离开道路),最喜欢的算法是:支持向量机。
演化的阶段
1980 年代
主导流派:符号主义
架构:服务器或大型机
主导理论:知识工程
基本决策逻辑:决策支持系统,实用性有限
1990 年代到 2000 年
主导流派:贝叶斯
架构:小型服务器集群
主导理论:概率论
分类:可扩展的比较或对比,对许多任务都足够好了
2010 年代早期到中期
主导流派:联结主义
架构:大型服务器农场
主导理论:神经科学和概率
识别:更加精准的图像和声音识别、翻译、情绪分析等
2010 年代末期
2020 年代+
2040 年代+
三、机器学习的算法
你应该使用哪种机器学习算法?这在很大程度上依赖于可用数据的性质和数量以及每一个特定用例中你的训练目标。不要使用最复杂的算法,除非其结果值得付出昂贵的开销和资源。这里给出了一些最常见的算法,按使用简单程度排序。
1. 决策树(Decision Tree):在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,例如,可将一个给定用户分类成信用可靠或不可靠。
2. 支持向量机(Support Vector Machine):基于超平面(hyperplane),支持向量机可以对数据群进行分类。
3. 回归(Regression):回归可以勾画出因变量与一个或多个因变量之间的状态关系。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分。
4. 朴素贝叶斯分类(Naive Bayes Classification):朴素贝叶斯分类器用于计算可能条件的分支概率。每个独立的特征都是「朴素」或条件独立的,因此它们不会影响别的对象。 例如,在一个装有共 5 个黄色和红色小球的罐子里,连续拿到两个黄色小球的概率是多少?从图中最上方分支可见,前后抓取两个黄色小球的概率为 1/10。朴素贝叶斯分类器可以计算多个特征的联合条件概率。
5. 隐马尔可夫模型(Hidden Markov model): 显马尔可夫过程是完全确定性的——一个给定的状态经常会伴随另一个状态。交通信号灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的发生。随后,借助隐藏状态分析,隐马尔可夫模型可以估计可能的未来观察模式。在本例中,高或低气压的概率(这是隐藏状态)可用于预测晴天、雨天、多云天的概率。
6. 随机森林(Random forest):随机森林算法通过使用多个带有随机选取的数据子集的树(tree)改善了决策树的精确性。本例在基因表达层面上考察了大量与乳腺癌复发相关的基因,并计算出复发风险。
7. 循环神经网络(Recurrent neural network):在任意神经网络中,每个神经元都通过 1 个或多个隐藏层来将很多输入转换成单个输出。循环神经网络(RNN)会将值进一步逐层传递,让逐层学习成为可能。换句话说,RNN 存在某种形式的记忆,允许先前的输出去影响后面的输入。
8. 长短期记忆(Long short-term memory,LSTM)与门控循环单元神经网络(gated recurrent unit nerual network):早期的 RNN 形式是会存在损耗的。尽管这些早期循环神经网络只允许留存少量的早期信息,新近的长短期记忆(LSTM)与门控循环单元(GRU)神经网络都有长期与短期的记忆。换句话说,这些新近的 RNN 拥有更好的控制记忆的能力,允许保留早先的值或是当有必要处理很多系列步骤时重置这些值,这避免了「梯度衰减」或逐层传递的值的最终 degradation。LSTM 与 GRU 网络使得我们可以使用被称为「门(gate)」的记忆模块或结构来控制记忆,这种门可以在合适的时候传递或重置值。
9. 卷积神经网络(convolutional neural network):卷积是指来自后续层的权重的融合,可用于标记输出层。
(全文完,文章来源:机器之心)
天善智能原创精选
2017年商业智能 BI 发展趋势分析 (阅读量:7800+)
细说 SaaS BI 国际市场众生相,你准备好了么? (阅读量:1000+)
美云智数,大数据时代的跨界搅局者(阅读量:2200+)
美云智数另辟蹊径,SaaS 企业应用发展的新趋势 (阅读量:2100+)
大数据思维与价值核心:数据驱动和业务场景化(阅读量:2600+)
美的大数据如何聚焦业务价值 (阅读量:4400+)
政府大数据面临的问题和阻力在哪里? (阅读量:2200+)
中国产品向世界 Say Hi ! 铂金智慧 CEO 郑远(阅读量:1500+)
深入解读民生银行阿拉丁大数据生态圈如何养成 (阅读量:4000+)
深入分析 BI 数据可视化市场 SaaS 模式 (阅读量:2200+)
五大需求黑洞,吞噬你的 BI 项目 (阅读量:3000+)
Gartner 2016商业智能与分析平台魔力象限 (阅读量:1800+)
人工智能
变革与复兴,大数据时代的人工智能 IBM Watson (阅读量:2200+)
数据分析认知计算 Watson Analytics 试用体验 (阅读量:3100+)
刘强东:大数据、人工智能是京东新核心 (阅读量:1100+)
深度解读大规模深度学习工具的当前趋势(阅读量:1100+)
数据分析与实战
哪些人能做好数据分析?(阅读量:3400+)
亚马逊数据专家十年经验总结:成为数据科学家的关键四步(阅读量:1800+)
海量数据汹涌而来,Hadoop不再一家独大 (阅读量:2800+)
条条大道通罗马:大数据分析工具的十条学习路径 (阅读量:1500+)
数据分析师的十大吐槽,看到第九条你一定想转 (阅读量:1700+)
百度内部培训 PPT | 数据分析最专业最入门的资料 (阅读量:5200+)
8 种热图用法揭示用户的网站浏览行为 (阅读量:1300+)
数据产品经理的工作类型和能力要求 ( 阅读量:2100+)
常用的数据分析方法论和数据分析法 (阅读量:2000+)
数据分析师的能力和工具体系 (阅读量:2300+)
人人都会用到的数据可视化之常用图表类型 (阅读量:1400+)
扒一扒中国女排夺冠幕后的数据分析 (阅读量:8900+)
数据科学家正在使用的十种程序语言和工具 (阅读量:2200+)
大数据
2017大数据版图最新发布,高清无码与趋势分析(阅读量:2700+)
大数据应用落地分析 (阅读量:2200+)
一篇深度思考的文章,让你认识并读懂大数据(阅读量:1300+)
大数据科学家眼中的大数据产业2016年终总结 (阅读量:1900+)
大数据思维十大核心原理 (阅读量:1900+)
万科最新大数据市场研究手段曝光 (阅读量:3800+)
大数据正在改变的十三个行业 (阅读量:1900+)
2017年大数据的十大发展趋势 (阅读量:2600+)
大数据体系必备术语知多少? (阅读量:3500+)
大数据告诉你,为什么你逛个草榴就贷不到款了! (阅读量:4900+)
从ZARA、HM 看大数据营销的认识误区 (阅读量:1900+)
携程大数据实践:高并发应用架构及推荐系统案例 (阅读量:1300+)
互联网金融与大数据风控相结合的九大维度 (阅读量:2500+)
商业智能 BI
【数据蒋堂】多维分析的后台性能优化手段 | 第1期(阅读量:1100+)
这篇文章才是对敏捷 BI 的客观理解 (阅读量:1900+)
OLAP 解析与发展方向 (阅读量:2300+)
阿里云技术:我们该如何做好一个数据仓库? (阅读量:2400+)
零售行业 BI 建设关键两步做好就行 (阅读量:1200+)
微软 Power BI 创建 AARRR 报表之新增获客 (阅读量:1200+)
美邦 BI 负责人谈数据:传统零售发力新机遇 (阅读量:1000+)
天善智能 www.hellobi.com 是一个专注于商业智能BI、数据分析、数据挖掘和大数据技术的垂直社区平台,拥有 5 万+名注册用户,95% 以上来自全国各地近 4 万家甲方企业。平台管理各种社群 300 余个,所有用户均来自数据类相关的一线技术开发、Tech Lead、PM、架构师、VP、CEO,是国内最大的数据领域垂直社区。
>> 点击查看近期活动 <<
关注天善智能,关注大家都在关注的大数据社区