0
推荐
1825
阅读
文本分类与朴素贝叶斯
进入正题之前,首先来看几个问题1. 垃圾邮件判定问题如何判断这封邮件是不是垃圾邮件呢?2. 作品所属人问题• 1787到1788年: 有多篇匿名短文试图让美国宪法批准纽约州,短文的作者来自Jay, Madison, Hamilton。 • 有12篇短文的作者尚待确定 • 1963年: Mosteller 和 Wallace用贝叶斯方法解决了3 判断是男性作者还是女性作...
0
推荐
4187
阅读
迁移学习系列---基于实例方法的迁移学习
机器学习中有一种特殊的类型,即迁移学习。简单来讲,将先前领域或任务中学到的知识或技能应用到新的领域或任务中,即为迁移学习。当然,要想迁移,需要保证二者之间有一定的共性。自然会遇到一个问题,给定一个目标领域或任务,如何找到当前领域或任务跟之前领域或任务的共性,并将之前领域或任务中的知识迁移到目标领...
0
推荐
1522
阅读
集成方法系列---Forests of randomized trees 以及基于scikit-learn的示例
sklearn.ensemble 模块包含了两种基于随机决策树的平均值算法:随机森林算法和Extra-Trees算法。两种算法都对树采用了打乱再组合(perturb-and-combine)技巧,意即在构建分类器的过程中,通过引入随机性来构建一个具有多样性的分类器集合。集成器的预测是由单个分类器取平均得到的。跟其他分类器类似,森林分类器需要两...
0
推荐
2130
阅读
谈谈数据预处理及scikit-learn示例
数据预处理或称特征预处理,在机器学习中非常重要。本文聊聊几种常用的特征预处理方法。标准化这种方法即为对于某个特征来说,减去其均值并且除以相应的方差。这种方法适用于服从或近似服从标准正态分布(均值为0,方差为1)的数据。之所以要这么做,是为了防止某个变量的方差的阶跟其余变量的方差的阶不在一个数量级上...
0
推荐
3205
阅读
聊聊级联分类模型
进入正题之前,先来看看Stanford 教授D. Koller的research interests:OK,进入正题,本篇聊聊级联分类模型(Cascaded Classification Models)。该模型是斯坦福大学教授Daphne Koller的学生在顶尖国际会议 NIPS 中提出来的。作者提出的模型是用来解决如何整体上理解图像问题的。计算机视觉的目标之一就是如何从整体上来...
0
推荐
1874
阅读
浅析互信息与特征选择
特征选择有很多方法,其中一种是基于互信息的。那么什么是互信息呢?变量x与变量y之间的互信息,可以用来衡量已知变量x时变量y的不确定性减少的程度,同样的,也可以衡量已知变量y时变量x的不确定性减少的程度。互信息是基于熵而得到的。什么是熵呢?一个随机变量的熵是用来衡量它的不确定性的。比如,对于变量y,熵的计...
0
推荐
3605
阅读
数据管理平台 受众扩展 look-alike model paper list
计算广告领域中一个比较重要的部分就是数据管理平台,目前比较流行的一个子问题是受众人群扩展或称look-alike modeling。本篇分享的主要是受众扩展相关的paper list。第一篇是关于受众扩展的,归根到底即为look-alike modeling。主要方法是K-Means聚类算法。Ramesh, A., Teredesai, A., Bindra, A., Pokuri, S., & U...
0
推荐
1441
阅读
聊聊决策树的分支策略
决策树算法既可以用于分类问题,又可以用于回归问题。针对分类问题,其目标在于根据属性对样本集合加以分支,使得各个分支所包含的样本集尽量只属于或者只包含一类。针对回归问题,其目标一般是使得各分支中所包含的样本目标函数(预测值跟真实值之间的偏差之和)最小化。本文主要讨论决策树用于分类问题。二分类决策树...
0
推荐
2313
阅读
谈谈特征选择及基于scikit-learn的示例
特征选择方法有多种,主要包括以下几种。移除低方差特征法假设某个特征对应的方差为0或者非常小,通常可以认为该特征的作用可以忽略,因而可以移除该特征。示例如下:from sklearn.feature_selection ...
0
推荐
2741
阅读
LSTM 用于情感分析
本文讨论基于 Long Short Term Memory (LSTM) 结构的 Recurrent Neural Network (RNN) 示例。具体问题是情感分析,数据集来自http://ai.stanford.edu/~amaas/data/sentiment/, 即 IMDB 数据集。具体来讲,本文针对的问题是给定一条电影评论,如何判定它是正性评论还是负性评论。也就是一个二分类问题。模型L...
0
推荐
2485
阅读
NIPS 2016 深度学习 迁移学习 ---残差转移网络用于无监督领域自适应
深度学习的成功得益于大量的标注数据,而数据标注是非常消耗资源的。当一个问题中缺少标注数据时,可以从另一个源中所学知识迁移过来,并且用于新问题中。清华大学的学者提出了一种新的方法(https://arxiv.org/pdf/1602.04433.pdf),它可以在源领域中学习自适应分类器,并且可以将所学特征迁移到目标域的无标签数据中...
0
推荐
1730
阅读
强化学习 Reading list
本文给出了一些强化学习的学习资源Reinforcement Learning: An Introduction Second edition, in progressURL: http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdfA Tutorial fo...
0
推荐
2018
阅读
深度学习在60+ startups 得以应用
计算机视觉领域Clarifai: https://www.clarifai.com/2013年创立创始人:Matthew ZeilerFounder & CEOMatthew received a PhD in machine learning and image recognition with the pioneers...
1
推荐
1543
阅读
深度学习在NLP中的应用---无监督词表示学习
首先来介绍下一种用来学习词表示的神经网络 (Collobert et al. JMLR 2011)。这种方法的思想在于某个单词及其上下文是一个正样例,同样上下文中的一个随机词(corrupted word)就是一个负样例。比如:另外,对比估计中的隐含负样例证据也可以用神经网络来解决 &n...
0
推荐
2294
阅读
深度学习在NLP中的应用---POS & NER & DAE
本文讨论的问题跟之前的单词向量学习类似,把其中的标量评分替换为softmax 或maxent分类器即可。训练过程也是通过后向反馈来完成的。深度学习中比较...