1
推荐
4976
阅读

福利 | 最全面超大规模数据集下载链接汇总

前言小编最近在做web流量的异常检测,需要web用户日志信息的数据集,在搜索的过程中顺便总结了相关方面的数据集,包括大数据方面、机器学习方面、网络通信领域、图像领域、社会公共领域、科学、社会科学、时间序列、文本以及互联网相关等数据集的下载链接,数据集的详细介绍请点击对应链接查看详细说明,由于数据量太大...

发表了文章 • 2017-09-06 10:50 • 1 条评论

0
推荐
2015
阅读

n-gram文法中数据稀疏问题解决方案之一:Good-Turing平滑

统计语言模型中,N元语法模型不可避免的一个问题,就是数据稀疏,其原因是大规模语料统计与有限语料的矛盾。根据Zipf法则,我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法就是进行平滑处理。平滑处理的算法有很多,例如:加1法、加法平滑方法、Good-Turing估计法、Katz平滑方法、Jelinek-Mercer平滑方法、Wi...

发表了文章 • 2017-06-09 11:50 • 0 条评论