5
推荐
2744
阅读

代价敏感数据挖掘在智慧健康中的应用

代价敏感数据挖掘方法源于类不平衡数据。故障诊断、在医疗诊断、欺诈检测等实际领域中,不同的分类错误会产生不同的代价。而传统分类算法,如决策树、贝叶斯、神经网络、支持向量机、k-近邻等,致力于提高分类精度,而未考虑代价因素(即假设所有误分类具有相同代价),使得传统分类器的应用受到了限制。在机器学习领域...

发表了文章 • 2016-08-10 15:22 • 1 条评论

7
推荐
3573
阅读

简单开源数据挖掘工具weka进行文本聚类

目前非代码的数据挖掘工具很多,但非开源,weka是一款开源软件。只要安装jdk环境就可使用(具体安装jdk可以百度)本文将论述如何不用代码,使用weka操作,通过与文档频数与单词权的特征选择方法进行文本聚类(数据为附件)第一步:将weka创建NetBeans文件目录中将weka导入NetBeans软件中, 1 在某处新建一个WEKA-Re...

发表了文章 • 2016-08-08 17:09 • 3 条评论

4
推荐
2951
阅读

无人机对大数据的应用

本人曾经是机电专业,过去做了一段时间无人机图像视频模式识别的科研工作,后来从事过零售与电信行业的数据挖掘的工作。因此从本人对数据挖掘与人工智能的认知来看,大数据BI方向依然存在着进步空间,但进步空间没有非结构化数据未来进步的空间大。近期也跟现在以无人机为主题创业的小伙伴深度聊天,觉得图像视频数据的...

发表了文章 • 2016-07-25 14:36 • 4 条评论

4
推荐
1831
阅读

非代码篇之爬虫工具

数据分析在各行各业都非常需要,比如电商行业的卖家需要应用外部数据分析自己卖的产品的趋势。目前市面上有很多工具可以取代繁琐的编程完成数据挖掘。本文介绍一款非常容易上手的爬虫免费工具——火车采集器。以一个小小爬虫为例(下载目前最热门手机的名字与价格)1,下载​​工具火车采集器2,打开软件,添加要下载数据的...

发表了文章 • 2016-07-08 09:17 • 0 条评论

3
推荐
1758
阅读

ELM分类算法遥感图像分类

本文应用机器学习的分类方法。图像数据是一种维度特别大的非结构化数据,每一张图像都是一个矩阵,需要时间复杂度非常低的算法去进行支撑。本文为一个图像分类的应用。通过对遥感图像(遥感图像包含的地图范围比较大)进行分类,得出很大一个地区范围内不同类别地质(河流,山川等)的分布。价值在于有效的判断大范围内...

发表了文章 • 2016-07-07 09:29 • 0 条评论

6
推荐
1862
阅读

SVM理论讲述癌症识别

本文用通俗的语言解释MATLAB伪代码的支持向量机SVM核心代码,进而在癌症预测的应用。MATLAB的SVM,MATLAB自带SVM算法,因此,在这里通过MATLAB自带算法进行解释。本文的项目是两类人的预测,健康人,癌症患者,数据为基因表达数据。由于癌症患者前期的基因会发生变化,所以年度体检基因检测得到的基因表达数据可预测一年...

发表了文章 • 2016-07-05 12:05 • 1 条评论