数学之美（二）

发表: 2017-07-31 浏览: 1615

文本分析算法自然语言处理

总第75篇

本篇为数学之美连载篇二，你还可以看：数学之美（一）

11|矩阵运算与文本处理：

无论是词汇的聚类还是文本的分类，都可以通过线性代数中的奇异值分解来进行，这样自然语言的处理问题就变成了数学问题。

我们在前面讲过利用余弦定理去对新闻进行分类，这种方法需要对所有新闻做两两的计算，而且要进行很多次迭代，耗时会特别长，尤其是当新闻的数量很大且词表也很大的时候，所以我们就在想，有没有一种办法可以一次性把所有的新闻相关性计算出来。这种方法就是奇异值分解，简称SVD。

奇异值分解是将一个大矩阵分解成三个小矩阵相乘

其中这个大矩阵行表示文章，即每一篇对应一篇文章，每一列对应文章中的一个词。三个小矩阵的第一个小矩阵是对词进行分类的一个结果。他的每一行表示一个词，每一列表示一个语义相近的词类，这一行的每个非零元素表示这个词在每个语义类中的重要性(或相关性)，数值越大越相关。
最后一个矩阵是对文本的分类结果，他的每一列对应一篇文本，每一行对应一个主题。
中间的矩阵表示词的类和文章的类之间的相关性。

余弦分类和奇异值分类两种方法的优缺点:

奇异值分解的优点是能够快速得到结果，但是结果较为粗糙，适合于大规模文本的初分类。而余弦分类计算较慢，结果较为准确，在实际应用中可以先进行奇异值分解得到粗分类结果，再利用向量余弦在粗分类的基础上进行迭代。

12|信息指纹及其应用:

信息指纹和人类指纹是一样的道理，人与人之间是不存在相同指纹的，所以可以用指纹来辨别某个人。而每条信息(视频、文字、音频等内容)也会有自己所特有的表征信息，这就是信息指纹。

信息指纹最常见的应用就是反盗版，通过对比原创和非原创的信息指纹即可。

13|搜索引擎反作弊和搜索结果权威性:

搜索引擎的反作弊是因为有人针对搜索引擎作弊，而这些作弊的人看到了搜索引擎的排名，好的排名就可以获得好的流量就可以获得好的商业价值。在前面的章节说过，排名与网站的本身的质量度(即指向这个网页的其他网页的次数)有关。所以就有人抓住这个点，贩卖链接，对质量度进行干扰。而反作弊就是找到这些作弊的(噪声)，然后把他们的这些虚假质量度去掉，就是正常的排名情况。

搜索引擎的权威性
在前面的章节中我们有提到搜索引擎的相关性，就是指搜索词与目标网页的相关程度。而权威性是用来反应目标网页的可信程度，用权威度来衡量。

计算权威度的步骤:
1、对每一个网页正文(包括标题)中的每一句进行句法分析，然后找到涉及主题的短语(比如吸烟有害健康)以及对信息来源(比如国际卫生组织)的描述。
2、利用互信息，找到主题短语和信息源的相关性。
3、对主题短语进行聚合，把相同意思，不同表达方式的词语进行整合，其实和新闻分类类似，把相同主题的聚集成一类。(比如吸烟的危害和煤焦油的危害)，采用矩阵运算即可。
4、对网站内容进行聚合，有一些是与主题有关的，有一些是无关的。

14|逻辑回归和搜索广告：

逻辑回归主要被用来预测用户可能会点击哪些广告。就是我们常听说的点击率预测。预测的原理把用户的一些信息(搜索词，性别，地域，身份等信息)当做回归参数，然后去预测该用户点击哪种广告的可能性较大，然后去显示哪种广告。

15|各个击破算法：

对于一些计算量较大的问题，我们将其分解成若干小问题，单独运行，最后进行合并即可,也就是所谓的分布式运算，对于这种算法现在已经有现成的平台-mapreduce。

0 个评论

要回复文章请先登录或注册