你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
没有找到相关结果
牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2016-05-26 回答
赞同来自:
要回复问题请先登录或注册
投资银行 法律 金融
推荐一份编程学习资源,包含了各类编程语言学习进阶路线图、视频教程、配套书籍文档、数百份面经,各大厂面试真题。编程语言包括:Java、前端、PHP、Python、Linux运维、软件测试、数据解构与算法、C语言、go语言等
微信扫码关注公众号,发送 "编程"获取资源
1 个回复
牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2016-05-26 回答
赞同来自:
一般来说,分类的数据量肯定要大于30,统计意义上大于30,代表的是统计意义上的大样本量。
数据量大的样本,分类效果一般会小于数据量小的样本。但也不是越大越好,数据量越大就容易产生噪声数据
提供几点参考:
1.选择合适的抽样框,这个非常重要。关系到你的分类目标
2.在普通的验证性分类模型选择上,一般选择〉30,<10000的样本量来看模型的效果
3.如果数据量确实非常大,参考1,2抽取一部分数据来完成模型的选择,然后利用全量数据来验证模型。全量非常大的话,可以采用大数据的一些处理方式,比如spark