值此秋招之际,特推出BAT面试必考算法系列,助力大家步入互联网大厂。今天是专项题目21道到34道
本文是天善智能签约讲师 张龙祥老师的课程Hellobi Live | 数据分析岗位面试经验分享 课件,未经允许,禁止转载。
推荐课程:
Hellobi Live | 数据分析岗位面试经验分享
21 下列哪个不属于常用的文本分类的特征选择算法?
卡方检验值
互信息
信息增益
主成分分析
常采用特征选择方法。常见的六种特征选择方法:
1)DF(DocumentFrequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性
2)MI(MutualInformation) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。
相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。
3)(InformationGain) 信息增益法
通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。
4)CHI(Chi-square) 卡方检验法
利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。
5)WLLR(WeightedLog Likelihood Ration)加权对数似然
6)WFO(Weighted Frequency and Odds)加权频率和可能性
22、以下几种模型方法属于判别式模型的有
1)混合高斯模型
2)条件随机场模型
3)区分度训练
4)隐马尔科夫模型
判别式模型与生成式模型的区别
产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:
对于输入x,类别标签y:
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)
产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。
Andrew Ng在NIPS2001年有一篇专门比较判别模型和产生式模型的文章:
On Discrimitive vs. Generative classifiers: A comparision of logisticregression and naive Bayes
判别式模型常见的主要有:
LogisticRegression
SVM
TraditionalNeural Networks
NearestNeighbor
CRF
LinearDiscriminant Analysis
Boosting
LinearRegression
产生式模型常见的主要 Gaussians、Naive Bayes、Mixtures of Multinomials
Mixturesof Gaussians、Mixturesof Experts、HMMs、SigmoidalBelief Networks, Bayesian Networks、Markov Random Fields、LatentDirichlet Allocation
23、在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()
将负样本重复10次,生成10w样本量,打乱顺序参与分类
直接进行分类,可以最大限度利用数据
从10w正样本中随机抽取1w参与分类
将负样本每个权重设置为10,正样本权重为1,参与训练过程
24、解决这类问题主要分重采样、欠采样、调整权值
1. 重采样。
A可视作重采样的变形。改变数据分布消除不平衡,可能导致过拟合。
2. 欠采样。
C的方案 提高少数类的分类性能,可能丢失多数类的重要信息。
如果1:10算是均匀的话,可以将多数类分割成为1000份。然后将每一份跟少数类的样本组合进行训练得到分类器。而后将这1000个分类器用assemble的方法组合位一个分类器。A选项可以看作此方式,因而相对比较合理。
另:如果目标是 预测的分布 跟训练的分布一致,那就加大对分布不一致的惩罚系数。
3. 权值调整。
D方案也是其中一种方式。
25、机器学习中做特征选择时,可能用到的方法有?
卡方
信息增益
平均互信息
期望交叉熵
在文本分类中,首先要对数据进行特征提取,特征提取中又分为特征选择和特征抽取两大类,在特征选择算法中有互信息,文档频率,信息增益,卡方检验以及期望交叉熵。
期望交叉熵,以文本分类为例子,期望交叉熵用来度量一个词对于整体的重要程度。
在ID3决策树中,也使用信息增益作为特征选择的方法,在C4.5决策树中,使用信息增益比作为特征选择的方法,在CART中,使用基尼指数作为特征选择的方法
26、以下()属于线性分类器最佳准则?
感知准则函数
贝叶斯分类
支持向量机
Fisher准则
线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。
感知器准则函数:代价函数J=-(W*X+w0),分类的准则是最小化代价函数。感知器是神经网络(NN)的基础,网上有很多介绍。
SVM:支持向量机也是很经典的算法,优化目标是最大化间隔(margin),又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题)
Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。
贝叶斯分类器:一种基于统计方法的分类器,要求先了解样本的分布特点(高斯、指数等),所以使用起来限制很多。在满足一些特定条件下,其优化目标与线性分类器有相同结构(同方差高斯分布等),其余条件下不是线性分类。
线性分类器三种最优准则:
Fisher 准则 :根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线
向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。
感知准则函数 :准则函数以使错分类样本到分界面距离之和最小为原则。
其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元
网络多层感知器的基础。
支持向量机 :基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的
间隔为最大,它的基本出发点是使期望泛化风险尽可能小。
27、在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()(假设 precision=TP/(TP+FP),recall=TP/(TP+FN)。)
Accuracy:(TP+TN)/all
F-value:2*recall*precision/(recall+precision)
G-mean:sqrt(precision*recall)
AUC:曲线下面积
题目提到测试集正例和负例数量不均衡,那么假设正例数量很少占10%,负例数量占大部分90%。
而且算法能正确识别所有负例,但正例只有一半能正确判别。
那么TP=0.05×all,TN=0.9×all,Accuracy=95%。
虽然Accuracy很高,precision是100%,但正例recall只有50%
28、某电商推出一款新的产品,希望这个产品能大卖,让你给这个主题取个名字,如果你是数据分析师,以下哪些指标可以用来判断。
成交总量: 代表产品销售的收入
独立用户数: 代表购买产品的用户,说明产品的覆盖面
评价数(好评数): 反馈用户对产品口碑
购买时间:代表产品的销售与时间的相关性
29、回归分析 y=a+bx,如果存在自相关,问 b 的值如何,是正负还是 0 1
b=0
30、在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。
互信息
最大熵
卡方检验
最大似然比
31、一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?ML>MSE
32、下面关于ID3算法中说法错误的是()
ID3算法要求特征必须离散化
信息增益可以用熵,而不是GINI系数来计算
选取信息增益最大的特征,作为树的根节点
ID3算法是一个二叉树模型
33、基于统计的分词方法为()
正向最大匹配法
逆向最大匹配法
最少切分
条件随机场
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
以上三种是机械分词方法:
条件随机域(场)(conditionalrandom fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,基于统计学,可以作为一种分词方法
10、随机无放回抽样跟随机有放回抽样比较,哪个方差大,还是相等
无放回的方差小
34、通过算法生成的随机数是“伪随机”的,也就是说,在设定好第一个数之后,后面的数字的序列是确定的,并且经过一个非常大的循环会回到第一个数的状态,然后周而复始。显然,摇号、抽奖的程序是不能通过伪随机数来实现的。现实中常常基于某种热噪声来实现真正的随机数。假定某热噪声是标准正态分布,那么能否将它转换成(0,1)区间上的均匀分布______?
忽略测量和计算误差,可以转换为(0,1)区间上的均匀分布