机器学习文章分类郭昱良的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

2341

阅读

干货 | TensorFlow的55个经典案例

转自1024深度学习导语：本文是TensorFlow实现流行机器学习算法的教程汇集，目标是让读者可以轻松通过清晰简明的案例深入了解 TensorFlow。这些案例适合那些想要实现一些 TensorFlow 案例的初学者。本教程包含还包含笔记和带有注解的代码。第一步：给TF新手的教程指南1：tf初学者需要明白的入门准备机器学习入...

发表了文章 • 2017-07-06 14:31 • 0 条评论

0

推荐

1642

阅读

tweet情感分析流程

前言自然语言处理（NLP）中一个很重要的研究方向就是语义的情感分析（Sentiment Analysis）。例如IMDB上有很多关于电影的评论，那么我们就可以通过Sentiment Analysis来评估某部电影的口碑，甚至还可以据此预测它是否能够卖座。同样，豆瓣上也有很多对影视作品或者书籍的评论内容亦可以作为情感分析的语料库。对于那些电...

发表了文章 • 2017-07-06 14:18 • 0 条评论

0

推荐

1920

阅读

机器学习（2）之过拟合与欠拟合

过拟合与欠拟合上一篇（机器学习（1）之入门概念），我们介绍了机器学习所解决的问题，以及哪些种类的机器学习方法。本文我们主要从模型容量的选择出发，讲解欠拟合和过拟合问题。机器学习的主要挑战任务是我们的模型能够在先前未观测的新输入上表现良好，而不是仅仅在训练数据集上效果良好。这儿，将在先前未观测输入上...

发表了文章 • 2017-07-06 14:03 • 0 条评论

0

推荐

3718

阅读

机器学习（1）之入门概念

机器学习是什么机器学习是什么？实际上，即使是研究机器学习的专业人士（如Hinton，Bengio，LeCun，Andrew Ng等）在定义这个问题时也会有不同认知，目前还不存在一个被广泛认可的定义，为此，我想借助斯坦福大学的Machine learning课程中的一些案例来说明这个问题。先看一下机器学习在学术上定义的发展历程，Arthur...

发表了文章 • 2017-07-06 11:53 • 0 条评论

0

推荐

2606

阅读

基于TensorFlow实现自编码器（附源码）

传统的机器学习很大程度上依赖于好的特征工程，而特征工程是一项十分耗费精力与时间的事情，最主要的是在语音、图像和视频中提取有效地特征就更难了。而深度学习，包括有监督的深度学习和无监督的深度学习，可以完美的解决人工难以有效提取特征的问题，他可以大大缓解机器学习模型对特征工程的依赖性。例如在图像识别问...

发表了文章 • 2017-06-16 09:32 • 0 条评论

0

推荐

1900

阅读

梯度提升树GBDT原理

作者：雪伦_链接：http://blog.csdn.net/a819825294提升方法实际采用加法模型（即基函数的线性组合）与前向分布算法。以决策树为基函数的提升方法称为提升树（boosting tree)。对分类问题决策树是二叉分类树，对回归问题决策树是二叉决策树。提升树模型可以表示为决策树的加法模型：其中，T(x;Sm)表示决策树；Sm为...

发表了文章 • 2017-06-16 09:24 • 0 条评论

0

推荐

2480

阅读

6千万词汇的巨型汉语词库

算法+语料≈NLP这是一个六千万词汇量的分类词库，从事NLP时间久了你会感觉到，算法无法解决所有问题，词库也非常重要。通常一个算法可以解决80%的问题，剩下的20%无论怎么调节优化，都是拆东墙补西墙。比如“区人保”被HMM人名识别模块误命中的例子，这个词让HMM来看，“区”作为姓氏，“人”“保”作为名字的二三字的确非常有可...

发表了文章 • 2017-06-05 11:04 • 1 条评论

0

推荐

2226

阅读

综述 | 常用文本特征选择

作者：ACdreamers链接：http://blog.csdn.net/acdreamers/article/details/44661843在机器学习中，特征属性的选择通常关系到训练结果的可靠性，一个好的特征属性通常能起到满意的分类效果。凡是特征选择，总是在将特征的重要程度量化后再进行选择，而如何量化特征的重要性，就成了各种方法间最大的不同。接下来就介绍如...

发表了文章 • 2017-06-05 10:52 • 0 条评论

0

推荐

1815

阅读

集成学习(EL)综述

机器学习方法在生产、科研和生活中有着广泛应用，而集成学习则是机器学习的首要热门方向。集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。本文章是对分类的集成学习(图1所示)的概念以及一些主要的集成学习方法的简介。Ensemble Learn...

发表了文章 • 2017-05-27 10:08 • 0 条评论

1

推荐

1883

阅读

干货 | 一文读懂什么是贝叶斯机器学习

你知道贝叶斯法则。机器学习与它有何相关？它可能很难掌握如何把拼图块放在一起——我们了解它花了一段时间。贝叶斯和频率论者在本质上，贝叶斯意味着概率。这个具体的术语存在是因为有两个概率方法。贝叶斯认为这是一个衡量的信念，因此，概率是主观的，并且指向未来。频率论者有不同看法：他们用概率描述过去发生的事件—...

发表了文章 • 2017-05-25 09:49 • 0 条评论

0

推荐

1994

阅读

PCA实现一个简单的酒店推荐系统（附Python源码）

众所周知，PCA 的主要目的是降维，同时也可以起到分类的作用。当数据维度很大的时候，如果相信大部分变量之间存在线性关系，那么我们就希望降低维数，用较少的变量来抓住大部分的信息。（一般来讲做PCA 之前要做normalization 使得变量中心为0，而且方差为1.）比较广泛应用于图像识别，文档处理，推荐系统等。推荐系统如...

发表了文章 • 2017-05-22 09:44 • 1 条评论

1

推荐

2639

阅读

基于机器学习的文本情感极性分析

2.1.1 停用词具体请看Python做文本挖掘的情感极性分析（基于情感词典的方法）（同1.1.4）2.1.2 正负向语料库来源于有关中文情感挖掘的酒店评论语料，http://www.datatang.com/data/11936其中正向7000条，负向3000条，当然也可以参考情感分析资源使用其他语料作为训练集。2.1.3 验证集Amazon上对iPhone 6s的评论，来源已...

发表了文章 • 2017-05-22 09:39 • 1 条评论

1

推荐

1714

阅读

解决决策树的过拟合

参看书籍：Machine Learning(Tom Mitchell)之前我们已经比较详细的介绍啦决策树的相关知识，如ID3（Machine Learning -- ID3算法）和C4.5（Machine learning -- C4.5算法详解及Python实现）.本文章介绍决策树学习的实际问题包括确定决策树增长的深度；处理连续值的属性；选择一个适当的属性筛选度量标准；处理属性...

发表了文章 • 2017-05-11 15:57 • 1 条评论

0

推荐

1784

阅读

阿里移动推荐比赛-数加平台的使用

前一段时间发表过一篇名为《天池新人实战赛之[离线赛]（完整）》的文章，今天这一篇为该篇的继续与加深。在《天池新人实战赛之[离线赛]（完整）》中的商品推荐模型是完全基于人工规则的，对于规则的制定有相当大的影响，而且一些动态规则难以挖掘。今天这篇文章介绍的是以阿里云服务的数据加工平台(简称：数加平台)为基...

发表了文章 • 2017-05-11 15:46 • 0 条评论

0

推荐

1488

阅读

随机森林与GBDT

转自于：博客园-LeftNotEasy前言：决策树这种算法有着很多良好的特性，比如说训练时间复杂度较低，预测的过程比较快速，模型容易展示（容易将得到的决策树做成图片展示出来）等。但是同时，单决策树又有一些不好的地方，比如说容易over-fitting，虽然有一些方法，如剪枝可以减少这种情况...

发表了文章 • 2017-05-11 15:23 • 0 条评论