BAT面试必考算法题之专项题目（21-34）

发表: 2018-08-02 浏览: 2712

求职

值此秋招之际，特推出BAT面试必考算法系列，助力大家步入互联网大厂。今天是专项题目21道到34道

本文是天善智能签约讲师张龙祥老师的课程Hellobi Live | 数据分析岗位面试经验分享课件，未经允许，禁止转载。

推荐课程：

Hellobi Live | 数据分析岗位面试经验分享

21 下列哪个不属于常用的文本分类的特征选择算法？

卡方检验值

互信息

信息增益

主成分分析

常采用特征选择方法。常见的六种特征选择方法：

1）DF(DocumentFrequency) 文档频率

DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性

2）MI(MutualInformation) 互信息法

互信息法用于衡量特征词与文档类别直接的信息量。

如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向"低频"的特征词。

相对的词频很高的词，得分就会变低，如果这词携带了很高的信息量，互信息法就会变得低效。

3）(InformationGain) 信息增益法

通过某个特征词的缺失与存在的两种情况下，语料中前后信息的增加，衡量某个特征词的重要性。

4）CHI(Chi-square) 卡方检验法

利用了统计学中的"假设检验"的基本思想：首先假设特征词与类别直接是不相关的

如果利用CHI分布计算出的检验值偏离阈值越大，那么更有信心否定原假设，接受原假设的备则假设：特征词与类别有着很高的关联度。

5）WLLR(WeightedLog Likelihood Ration)加权对数似然

6）WFO（Weighted Frequency and Odds）加权频率和可能性

22、以下几种模型方法属于判别式模型的有

1)混合高斯模型

2)条件随机场模型

3)区分度训练

4)隐马尔科夫模型

判别式模型与生成式模型的区别

产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念，它们的区别在于：

对于输入x，类别标签y：
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)

产生式模型可以根据贝叶斯公式得到判别式模型，但反过来不行。

Andrew Ng在NIPS2001年有一篇专门比较判别模型和产生式模型的文章：
On Discrimitive vs. Generative classifiers: A comparision of logisticregression and naive Bayes

判别式模型常见的主要有：

LogisticRegression

SVM

TraditionalNeural Networks

NearestNeighbor

CRF

LinearDiscriminant Analysis

Boosting

LinearRegression

产生式模型常见的主要 Gaussians、Naive Bayes、Mixtures of Multinomials

Mixturesof Gaussians、Mixturesof Experts、HMMs、SigmoidalBelief Networks, Bayesian Networks、Markov Random Fields、LatentDirichlet Allocation

23、在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()

将负样本重复10次,生成10w样本量,打乱顺序参与分类

直接进行分类,可以最大限度利用数据

从10w正样本中随机抽取1w参与分类

将负样本每个权重设置为10,正样本权重为1,参与训练过程

24、解决这类问题主要分重采样、欠采样、调整权值

1. 重采样。

A可视作重采样的变形。改变数据分布消除不平衡，可能导致过拟合。

2. 欠采样。

C的方案提高少数类的分类性能，可能丢失多数类的重要信息。

如果1：10算是均匀的话，可以将多数类分割成为1000份。然后将每一份跟少数类的样本组合进行训练得到分类器。而后将这1000个分类器用assemble的方法组合位一个分类器。A选项可以看作此方式，因而相对比较合理。

另：如果目标是预测的分布跟训练的分布一致，那就加大对分布不一致的惩罚系数。

3. 权值调整。

D方案也是其中一种方式。

25、机器学习中做特征选择时，可能用到的方法有？

卡方

信息增益

平均互信息

期望交叉熵

在文本分类中，首先要对数据进行特征提取，特征提取中又分为特征选择和特征抽取两大类，在特征选择算法中有互信息，文档频率，信息增益，卡方检验以及期望交叉熵。

期望交叉熵，以文本分类为例子，期望交叉熵用来度量一个词对于整体的重要程度。

在ID3决策树中，也使用信息增益作为特征选择的方法，在C4.5决策树中，使用信息增益比作为特征选择的方法，在CART中，使用基尼指数作为特征选择的方法

26、以下()属于线性分类器最佳准则?

感知准则函数

贝叶斯分类

支持向量机

Fisher准则

线性分类器有三大类：感知器准则函数、SVM、Fisher准则，而贝叶斯分类器不是线性分类器。

感知器准则函数：代价函数J=-(W*X+w0)，分类的准则是最小化代价函数。感知器是神经网络（NN）的基础，网上有很多介绍。

SVM：支持向量机也是很经典的算法，优化目标是最大化间隔（margin），又称最大间隔分类器，是一种典型的线性分类器。（使用核函数可解决非线性问题）

Fisher准则：更广泛的称呼是线性判别分析（LDA），将所有样本投影到一条远点出发的直线，使得同类样本距离尽可能小，不同类样本距离尽可能大，具体为最大化“广义瑞利商”。

贝叶斯分类器：一种基于统计方法的分类器，要求先了解样本的分布特点（高斯、指数等），所以使用起来限制很多。在满足一些特定条件下，其优化目标与线性分类器有相同结构（同方差高斯分布等），其余条件下不是线性分类。

线性分类器三种最优准则：

Fisher 准则 ：根据两类样本一般类内密集，类间分离的特点，寻找线性分类器最佳的法线

向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。

感知准则函数 ：准则函数以使错分类样本到分界面距离之和最小为原则。

其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元

网络多层感知器的基础。

支持向量机 ：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的

间隔为最大，它的基本出发点是使期望泛化风险尽可能小。

27、在二分类问题中，当测试集的正例和负例数量不均衡时，以下评价方案哪个是相对不合理的（）（假设 precision=TP/(TP+FP),recall=TP/(TP+FN)。）

Accuracy:(TP+TN)/all

F-value:2*recall*precision/(recall+precision)

G-mean:sqrt(precision*recall)

AUC:曲线下面积

题目提到测试集正例和负例数量不均衡，那么假设正例数量很少占10%，负例数量占大部分90%。

而且算法能正确识别所有负例，但正例只有一半能正确判别。

那么TP=0.05×all,TN=0.9×all，Accuracy=95%。
虽然Accuracy很高，precision是100%,但正例recall只有50%

28、某电商推出一款新的产品，希望这个产品能大卖，让你给这个主题取个名字，如果你是数据分析师，以下哪些指标可以用来判断。

成交总量：代表产品销售的收入

独立用户数：代表购买产品的用户，说明产品的覆盖面

评价数（好评数）：反馈用户对产品口碑

购买时间：代表产品的销售与时间的相关性

29、回归分析 y=a+bx，如果存在自相关，问 b 的值如何，是正负还是 0 1

b=0

30、在大规模的语料中，挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。

互信息

最大熵

卡方检验

最大似然比

31、一个有偏的硬币，抛了100次，出现1次人头，99次字。问用最大似然估计（ML）和最小均方误差（LSE）估计出现人头的概率哪个大？ML>MSE

32、下面关于ID3算法中说法错误的是（）

ID3算法要求特征必须离散化

信息增益可以用熵，而不是GINI系数来计算

选取信息增益最大的特征，作为树的根节点

ID3算法是一个二叉树模型

33、基于统计的分词方法为（）

正向最大匹配法

逆向最大匹配法

最少切分

条件随机场

1）正向最大匹配法（由左到右的方向）；
2）逆向最大匹配法（由右到左的方向）；
3）最少切分（使每一句中切出的词数最小）。
以上三种是机械分词方法：
条件随机域（场）（conditionalrandom fields，简称 CRF，或CRFs），是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。
条件随机场(CRF)由Lafferty等人于2001年提出，结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，基于统计学，可以作为一种分词方法

10、随机无放回抽样跟随机有放回抽样比较，哪个方差大，还是相等

无放回的方差小

34、通过算法生成的随机数是“伪随机”的，也就是说，在设定好第一个数之后，后面的数字的序列是确定的，并且经过一个非常大的循环会回到第一个数的状态，然后周而复始。显然，摇号、抽奖的程序是不能通过伪随机数来实现的。现实中常常基于某种热噪声来实现真正的随机数。假定某热噪声是标准正态分布，那么能否将它转换成(0,1)区间上的均匀分布______？

忽略测量和计算误差，可以转换为(0,1)区间上的均匀分布

0 个评论

要回复文章请先登录或注册