如何通俗地理解决策树中的信息熵

浏览: 2660


好,开篇之前,我们先做好定义:

Clipboard Image.png

信息熵?这是什么玩意,它代表了什么?信息量为什么又和概率有关?

好了,为了解决问题,让我们还是回到定义本身中来。

1.信息量

第一个问题:信息是什么?它是可以计算的吗?

我们先从现实出发,看看信息是否有量化的可能。例如今天阿包告诉我,“广州明天的太阳会从东边升起。”


这时我就想,这话虽然很正确,但是我觉得没什么用啊,太阳从东边升起不是确定的事件吗,还有说的价值吗?所以,我的想法是这句话的信息量为零。


这时候,阿包看着我不屑的表情,顿时狡猾一笑说,虽然明天广州的太阳还是从东边升起,但是明天广州会下雪哦~



听到这里,我就觉得震惊了,顿时就说“这不太可能把,你这话信息量好大,我赶紧去查查天气预报。”(注:2016年1月24日中午前后,广州气象局确认这是广州城区新中国成立以来第一次降雪)

从上面的例子我们就发现,信息确实可以划分出信息量大小的,而且我们发现这件事情的信息量大小,是和这件事情的发生概率相关,好了,既然如此,那么我们该如何构造信息量的表达式?

我们先提炼一下信息量的表达式应该满足的条件:

(1)  信息量和事件发生的概率有关,当事件发生的概率越低,传递的信息量越大;

(2)  信息量应当是非负的,必然发生的信息量为0;

(3)  两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是他们各自信息量的和;


对于(1),前面我们已经讨论过了,不再阐述;
对于(2),一个信息要么帮助我们降低不确定性,要么不能降低不确定性,但是不会出现知道这个消息后,现有的消息会消失的情况;

对于(3)对于两个独立事件,因为p(AB)=p(A)p(B),若信息量的计算公式为f(p(x)),则应当有f(p(AB))=f(p(A))+f(p(B))

根据上述条件,信息量的基本计算公式应当满足如下形式:

Clipboard Image.png

底数只要满足取值大于1即可,但一般来说,我们可以遵循信息论的传统用法,取底数a=2,即

Clipboard Image.png


2.信息熵


解决了信息量的计算问题,接下来第二个问题,我们聊聊熵这个概念。

熵(Entropy)这个概念最早出现在热力学中,是由德国物理学家及数学家鲁道夫·尤利乌斯·埃马努埃尔·克劳修斯所提出,它的物理意思表示该体系的混乱程度,简单地说,如果该体系下的分子运动杂乱程度增加,该体系的熵也随着增加。

类比下来,我们刚刚讨论了一个事件的信息量大小,那么对于这个事件发生之前,我们怎么衡量呢?因此,在1948年,信息论之父克劳德·艾尔伍德·香农提出了信息熵的概念,用来描述随机事件的“混乱”程度,也即该随机事件所有结果所带来平均不确定性:

Clipboard Image.png

显然,我们可以看出信息熵的计算就是信息量的数学期望。

3.信息熵的特点

最后,我们再简单聊一聊信息熵的特点:

(1)  信息熵与事件的可能性数量有关,在概率均等的情况下,存在的可能越多,信息熵越大,信息也约不确定;

  • 假如我们现在投掷一枚硬币,正面和反面的概率都是均等的1/2,那么投掷一枚硬币的信息熵为:

Clipboard Image.png

  • 假如我们现在改为投掷一枚骰子,并且每个数字出现的概率都是均等的,为1/6,那么投掷一枚骰子的信息熵为:

Clipboard Image.png

(2)  信息熵与事件的概率分布情况有关,概率分布越平均,信息熵越大,当所有概率均等的情况下,信息熵达到最大;

  • 我们知道投掷一枚正反面出现概率都均等为1/2的硬币,信息熵为1.

  • 而现在我们刚好有一枚质量分布不均的硬币,它出现正面的概率为3/4,而出现反面的概率只有1/4,那么投掷一枚这样硬币的信息熵为:

Clipboard Image.png



近期热门文章精选(点击标题即可阅读):

1.干货教程|可能是最方便好用的文字云工具

2.(理论+案例)如何通俗地理解极大似然估计?

3.从前,有一位统计学家,他在趟过一条平均水位不足1米深的河流时......

4.数据收集宝鉴|教你找到合适的数据源(1)——国家数据

5.重磅|李飞飞担任谷歌云机器学习最新负责人(附最全报道)

注:由于最近老撕比较忙,所以有些信息没有及时查看回复(微信规定48小时没有回复的话,则不能再次回复),所以如果浩彬老撕没有及时回复,大家可以再次留言。


作者简介:浩彬老撕

好玩的IBM数据工程师,

立志做数据科学界的段子手,

致力知识分享,每月至少一次送书活动

推荐 2
本文由 浩彬老撕 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

浩彬老师好久没更新了
多谢关注,接下来继续努力

要回复文章请先登录注册