BAT面试必考算法题之专项题目(21-34)

浏览: 2712

值此秋招之际,特推出BAT面试必考算法系列,助力大家步入互联网大厂。今天是专项题目21道到34道

本文是天善智能签约讲师 张龙祥老师的课程Hellobi Live | 数据分析岗位面试经验分享 课件,未经允许,禁止转载。

推荐课程:

Hellobi Live | 数据分析岗位面试经验分享


21 下列哪个不属于常用的文本分类的特征选择算法?

卡方检验值

互信息

信息增益

主成分分析

常采用特征选择方法。常见的六种特征选择方法:

1)DF(DocumentFrequency) 文档频率

DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性

2)MI(MutualInformation) 互信息法

互信息法用于衡量特征词与文档类别直接的信息量。

如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。

相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。

3)(InformationGain) 信息增益法

通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。

4)CHI(Chi-square) 卡方检验法

利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的

如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。

5)WLLR(WeightedLog Likelihood Ration)加权对数似然

6)WFO(Weighted Frequency and Odds)加权频率和可能性


22、以下几种模型方法属于判别式模型的有

1)混合高斯模型

2)条件随机场模型

3)区分度训练

4)隐马尔科夫模型

判别式模型与生成式模型的区别

产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:

对于输入x,类别标签y:
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)

产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。

Andrew Ng在NIPS2001年有一篇专门比较判别模型和产生式模型的文章: 
On Discrimitive vs. Generative classifiers: A comparision of logisticregression and naive Bayes

判别式模型常见的主要有:

LogisticRegression

SVM

TraditionalNeural Networks

NearestNeighbor

CRF

LinearDiscriminant Analysis

Boosting

LinearRegression

产生式模型常见的主要 GaussiansNaive BayesMixtures of Multinomials

 Mixturesof Gaussians、Mixturesof Experts、HMMs、SigmoidalBelief Networks, Bayesian Networks、Markov Random Fields、LatentDirichlet Allocation

 

23、在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()

将负样本重复10,生成10w样本量,打乱顺序参与分类

直接进行分类,可以最大限度利用数据

从10w正样本中随机抽取1w参与分类

将负样本每个权重设置为10,正样本权重为1,参与训练过程

 

24、解决这类问题主要分重采样、欠采样、调整权值 

1. 重采样。

A可视作重采样的变形。改变数据分布消除不平衡,可能导致过拟合。

2. 欠采样。

C的方案 提高少数类的分类性能,可能丢失多数类的重要信息。

如果110算是均匀的话,可以将多数类分割成为1000份。然后将每一份跟少数类的样本组合进行训练得到分类器。而后将这1000个分类器用assemble的方法组合位一个分类器。A选项可以看作此方式,因而相对比较合理。

另:如果目标是 预测的分布 跟训练的分布一致,那就加大对分布不一致的惩罚系数。

3. 权值调整。

D方案也是其中一种方式。

 

25、机器学习中做特征选择时,可能用到的方法有?

卡方

信息增益

平均互信息

期望交叉熵

在文本分类中,首先要对数据进行特征提取,特征提取中又分为特征选择和特征抽取两大类,在特征选择算法中有互信息,文档频率,信息增益,卡方检验以及期望交叉熵。

期望交叉熵,以文本分类为例子,期望交叉熵用来度量一个词对于整体的重要程度。

在ID3决策树中,也使用信息增益作为特征选择的方法,在C4.5决策树中,使用信息增益比作为特征选择的方法,在CART中,使用基尼指数作为特征选择的方法

 

26、以下()属于线性分类器最佳准则?

感知准则函数

贝叶斯分类

支持向量机

Fisher准则

线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。

感知器准则函数:代价函数J=-(W*X+w0),分类的准则是最小化代价函数。感知器是神经网络(NN)的基础,网上有很多介绍。

SVM:支持向量机也是很经典的算法,优化目标是最大化间隔(margin),又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题)

Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。

贝叶斯分类器:一种基于统计方法的分类器,要求先了解样本的分布特点(高斯、指数等),所以使用起来限制很多。在满足一些特定条件下,其优化目标与线性分类器有相同结构(同方差高斯分布等),其余条件下不是线性分类。

线性分类器三种最优准则: 

Fisher 准则 :根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线

向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。

感知准则函数 :准则函数以使错分类样本到分界面距离之和最小为原则。

 其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元

网络多层感知器的基础。 

支持向量机 :基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的

间隔为最大,它的基本出发点是使期望泛化风险尽可能小。

27、在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()(假设 precision=TP/(TP+FP),recall=TP/(TP+FN)。)

Accuracy:(TP+TN)/all

F-value:2*recall*precision/(recall+precision)

G-mean:sqrt(precision*recall)

AUC:曲线下面积

题目提到测试集正例和负例数量不均衡,那么假设正例数量很少占10%,负例数量占大部分90%。

而且算法能正确识别所有负例,但正例只有一半能正确判别。

那么TP=0.05×all,TN=0.9×all,Accuracy=95%。
虽然Accuracy很高,precision是100%,但正例recall只有50% 

28、某电商推出一款新的产品,希望这个产品能大卖,让你给这个主题取个名字,如果你是数据分析师,以下哪些指标可以用来判断。

成交总量: 代表产品销售的收入

独立用户数: 代表购买产品的用户,说明产品的覆盖面

评价数(好评数): 反馈用户对产品口碑

购买时间:代表产品的销售与时间的相关性

 

29、回归分析 y=a+bx,如果存在自相关,问 b 的值如何,是正负还是1

b=0

 

30、在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。

互信息

最大熵

卡方检验

最大似然比

 

31、一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?ML>MSE

 

32、下面关于ID3算法中说法错误的是()

ID3算法要求特征必须离散化

信息增益可以用熵,而不是GINI系数来计算

选取信息增益最大的特征,作为树的根节点

ID3算法是一个二叉树模型

 

33、基于统计的分词方法为()

正向最大匹配法

逆向最大匹配法

最少切分

条件随机场

1)正向最大匹配法(由左到右的方向); 
2)逆向最大匹配法(由右到左的方向); 
3)最少切分(使每一句中切出的词数最小)。 
以上三种是机械分词方法:
条件随机域(场)(conditionalrandom fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,基于统计学,可以作为一种分词方法

10、随机无放回抽样跟随机有放回抽样比较,哪个方差大,还是相等

 无放回的方差小

 

34、通过算法生成的随机数是伪随机的,也就是说,在设定好第一个数之后,后面的数字的序列是确定的,并且经过一个非常大的循环会回到第一个数的状态,然后周而复始。显然,摇号、抽奖的程序是不能通过伪随机数来实现的。现实中常常基于某种热噪声来实现真正的随机数。假定某热噪声是标准正态分布,那么能否将它转换成(0,1)区间上的均匀分布______

忽略测量和计算误差,可以转换为(0,1)区间上的均匀分布

推荐 1
本文由 天善智能 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册