你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
特征选择的目的是为了筛选出对训练数据具有分类能力的特征,提供决策树学习的效率。通常特征选择的准则是信息增益和信息增益率(信息增益比)
信息增益
信息增益率
entropy
在信息论和概率统计中,熵entropy表示的是随机变量不确定性的度量,即不纯度。设是一个取有值的随机离散变量,其概率分布为:则随机变量的熵定义为;若果,则定义0log0=0.。上式中的对数以2或者自然数e为底数,此时熵的单位是比特(bit)或者纳特(nat)。根据上式得知:熵和X的取值没有关系,值依赖于其分布,将X的熵记作,即:熵越大,随机变量的不确定就越大,根据定义得到:。
e
bit
nat
当随机变量只取0和1的时候,X的分布是,那么对应的熵为
image.png
条件熵表示在已知随机变量X的条件下随机变量Y的不确定性。此时,条件熵,定义为X给定条件下Y的条件概率分布的熵对X的期望:在这里,
规定:由数据统计(特别是极大似然估计)得到的熵和条件熵,分别称之为经验熵empirical entropy 和经验条件熵 empirical conditional entropy,并且规定0log0=0。
empirical entropy
empirical conditional entropy
information gain
信息增益表示的是:得知X的信息而是的类Y的信息的不确定性较少的程度。信息增益定义如下:
特征A对训练数据集D的信息增益为,定义为集合D的经验熵与给定条件下D的经验熵之差,记为一般情况下,熵和条件熵的差称之为互信息mutual information。决策树模型中学习的信息增益 == 训练数据中类与特征的互信息。
mutual information
类与特征
假设训练数据集为D,|D|表示样容量即本数。数据集中总共有K个类, ,||为样本的个数,则设特征A有n个不同的取值:,根据特征A将数据集D分成n个不同的子集,其中||表示的样本数,。记子集中属于类的样本的集合为,即:,为的样本个数。
Y
X
要回复文章请先登录或注册