2016年09月09日晚8点半微信直播交流数据挖掘在人工智能的入门应用 文字版记录

浏览: 2554

公告:

周五BI飞起来,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴,锁定在每周五晚20:30,不见不散!

未来几期的微信直播活动分享主题将包括互联网行业数据化运营最佳实践、 地理大数据如何驱动智慧选址、互联网公司数据分析之道等,具体日期安排请关注天善智能问答社区活动版块https://www.hellobi.com/events

本期分享内容:

数据挖掘在人工智能的入门应用

以代价敏感数据挖掘算法在微阵列芯片的应用为例 

1、了解人工智能的应用场景;

2、提升对抽象非结构化数据的理解 

3、了解数据挖掘的应用

本期嘉宾介绍:

张聪,长期从事零售,电信,图像处理等行业数据挖掘咨询工作。精通数据挖掘技术,擅长数据挖掘以及人工智能算法。熟练spss modeler\R语言\weka\MATLAB\C++等挖掘工具。熟悉电信、零售、图像处理等行业。 对数据算法驱动生产力价值有浓厚兴趣,曾发表算法创新的英文论文两篇,被EI期刊收录。一直致力于数据挖掘方向,熟练使用机器学习,模式识别算法。擅长深度学习算法,极限学习机算法,代价敏感算法等人工智能算法。曾在某研究所具有多个数据挖掘,人工智能,以及无人机机器视觉等项目经验。 

博客专栏:https://ask.hellobi.com/blog/Zason 

推荐视频:数据挖掘在人工智能中的应用 https://edu.hellobi.com/course/84


主持人

咖啡:大家好,我是微信直播活动的主持人咖啡,每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴。我们的口号是“Friday BI Fly 周五BI飞起来”。

下面我们就正式开始今天的活动了,关于我们的微信直播活动,新来的朋友可能还有各种疑问,下面我就针对常见问题给大家做个解答。

数据挖掘在人工智能的入门应用

FqDzNIt6fG.png

大家好,我是张聪,本次分享的题目是《数据挖掘在人工智能中的入门应用》。 

主要思路是以数据挖掘为载体,通过对非结构化数据的人工智能需求的理解与梳理,转化为结构化数据问题,进行数据建模,将输出的结果应用到业务中,对业务提供支持(统计,预测等)。

人工智能的应用也比较广泛。大致有如下的分类:

1.png

医学影像数据分析

影像遥感数据应用,农业灾害,城市规划等

工业数据应用,机器视觉处理工业生产的产品集装等

安全监控,交通监控,事故分析等

人工智能包含着电学和数据方面的知识,人工智能的数据部分是持续地挖掘非结构化数据的过程,这是一个反复建模分析,反复验证解释的过程。此次分享的内容以解决思路为主,关于具体问题,大家可到天善社区学习(学院,博客,问答等等)。 

人工智能的应用数据为图像,文字,语音等非结构化数据,人工智能方面数据挖掘应用过程: 

2.png

首先,无论是,图像,文字,语音等非结构化数据,先对其进行结构化。

进而根据业务需求进行建立模型,数据挖掘算法选择是以业务和数据特质为核心。因为业务决定了业务方向与重心。 

最后根据业务和算法的特殊性进行数据挖掘模型优化。

本次分享以微阵列图像数据进行医疗数据挖掘进行示例。

分享首先对非结构化数据——微阵列图像数据,进行结构化转换。

进而根据业务需求(癌症预测)进行建立模型,根据微阵列数据特质选择数据挖掘算法

最后根据业务(癌症预测)的特殊性进行数据挖掘模型优化。

3.png


一、微阵列芯片的非结构化数据结构化

微阵列芯片人工智能技术在国内外已经应用越来越广泛,不仅应用于微阵列序列分析,而且已经有效应用于癌症诊断,通过微阵列芯片得到的微阵列表达数据对癌症进行分类,可以提早发现良性肿瘤,因此通过微阵列表达数据进行癌症分类已经是机器学习和生物信息学交叉学科的一个研究热点。

微阵列表达数据对癌症进行分类能够推动机器学习和生物信息学交叉学科的基础研究。微阵列表达数据是癌症分类重要的研究数据。通过微阵列表达数据这一重要微阵列研究方法,将为我国癌症分类研究提供比较和参考,有益于进一步增强我国在微阵列组研究中的竞争力,并推动生物信息学,计算机科学等相关学科的进一步发展。

微阵列芯片表达的数据是指,在细胞中检测某些微阵列的转录产物mRNA等,得到转录产物数据,通过数据来分析微阵列与微阵列之间的相关性,也可以分析出哪些微阵列发生了突变等效果,通过分析出微阵列表达的信息来得到我们需要的结果。

例如,人体的蛋白质是由DNA序列中的海量微阵列组成进行编码,在进行杂交时首先将微阵列转录为mRNA(messenger RNA),进而mRNA翻译成蛋白质,虽然细胞中的DNA序列相同,但是癌细胞DNA具有不同的序列,通过荧光杂交,可以察觉细胞的变化,经过上述步骤,微阵列芯片能够同步检测出微阵列表达的信息,即是以下所指的微阵列表达数据。

随着人工智能学和数据挖掘的迅速发展,目前有一种应用很广泛的新技术,即微阵列芯片技术。微阵列芯片,通过一种杂交的方法测序,即通过和一组标有标志的核酸探针杂交,从而进行核酸序列测定探针序列的方法。得到了如图所示的微阵列芯片。

4.png

微阵列芯片的主要应用包括微阵列组多态性分析,突变检测,微阵列表达检测以及杂交测序等方面。通过微阵列技术对能够获得海量的信息数据。目前已经有专家根据微阵列表达数据对不同的癌症进行分类,如甲状腺瘤、B细胞淋巴瘤等。这样不但极大的加快了诊断速度,而且提高了癌症诊断的准确性。

杂交反应后的芯片上各个反应点的荧光位置、荧光强弱经过芯片扫描仪和相关软件可以分析图像,将荧光转换成数据,即可以获得有关生物信息。

进而对矩阵图像提取的微阵列芯片数据进行归一化,归一化对于cDNA微阵列技术,它基于如下的假设:芯片上的所有的微阵列,一组微阵列子集或一套外源的控制在标记前产RNA,其平均表达率等于1。

使用归一化因子调整数据,弥补实验的变化,“平衡”待比较的两个样本的荧光信号。主要有3种被广泛使用的技术用于来自同一个芯片杂交的微阵列表达数据的归一化。

微阵列的微阵列是指将微阵列表达数据进行预处理后得到一个矩阵, 每一行都代表一个特定的组织样本,而每一列则是代表一个微阵列在不同组织样本中所表达的值。

将微阵列非结构化图像数据进行结构化转换后,微阵列中的每一行都可以看成一个横向量,aij是微阵列j在特定样本中所表达的值,是该样本的所属类别。

5.png

微阵列表达数据的分类是对一组测试样本 ,可以通过训练样本来构造出一个分类器模型,进而再通过测试样本来评价分类器的精度。

目前社会上微阵列芯片技术和一些其他因素的限制,微阵列表达数据存在着一些特点,如样本维数高数量小,样本是类不平衡数据,样本存在噪声,微阵列与微阵列之间的关系复杂等。

(1)数据样本的维数高。微阵列芯片刚刚提取的微阵列表达数据的维数很高,样本都在2000到20000维之间,这给分类造成很大的困扰。

(2)数据样本数量少。由于微阵列芯片的实验成本很高,导致科研过程不能采取很多的数据样本,因此,目前的微阵列表达数据样本都非常少,许多数据集有几十到几百个数据样本,如果存在少数噪声样本,小数量样本对于分类器的泛化能力和分类可靠性都会有一定的挑战。

(3)数据样本类不平衡分布。微阵列表达数据的是高度不平衡的类不平衡数据,比如在的肺癌(lung)中,癌症的样本有86个,正常的样本却只有10个,传统的分类方法,分类器会出现一定的偏向性,分类效果将会不可靠。

二、微阵列数据挖掘方法选择

微阵列数据的分类研究一直是人工智能界的重点,早期在美国癌症微阵列组图谱研究计划中,旨在绘出20种癌症类型的1万个肿瘤的微阵列序列图谱。

如今,科学家们已经发现乳腺癌、肺癌和结肠癌之间存在微阵列关系。比如,某种乳腺癌的突变微阵列可能与卵巢癌的极为类似,而结肠癌的微阵列突变则又与乳腺癌的微阵列序列类似。

研究人员表示,对于癌症治疗来说,个性化治疗是未来的方向。最新的研究表明,通过病人的微阵列活动模式可以判定病患肿瘤的恶性程度,这种微阵列活动模式就如条形码,可快速简便地加以识别。

而这种通过读取癌症患者微阵列变化情况来判定癌症病情的血检手段则是一个重要的进展,可以使得医生能够更好地对病患进行针对性治疗。

当使用微阵列表达数据进行癌症分类时,首先与荧光微阵列进行杂交,进而通过用微阵列对细胞进行微阵列表达数据提取,最后通过微阵列表达数据进行分类建模。测试过程中,用模型进行分类率的测试。

微阵列表达数据如何进行区分归类是数据挖掘中一项非常重要的目标。分类是找出数据中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据项映射到给定的类别中。

根据业务需求,方法选择分类算法,在癌症微阵列表达数据中,分类(Classification)又被称为模式分类(Pattern Classification),旨在根据已知模式(训练样本)寻求某种规律(函数),并用此规律(函数)对未知模式(测试样本)进行判别(分类)。这种能够识别未知模式的规律(函数)被称为分类模型(Classification Model)或分类器(Classifier)。

根据微阵列图像的特征,特征并不明显,目前采用极限学习机(ELM)算法比较多,ELM是一种单隐层前馈神经网络的学习算法,在相同泛化性能的条件下,其学习速度优于其他的数据挖掘算法(支持向量机,神经网络等)。

与传统的数据挖掘算法相比较,ELM有以下几个优点:

1)由于ELM求取权值的时候只是计算一个广义逆,因此训练速度比基于梯度的学习算法快很多;

2)基于梯度的学习算法存在很多问题,比如学习速率难以确定、局部网络最小化等,ELM有效的改善了此类问题,在分类过程中取得了更好的效果;

3)与BP神经网络算法不同,ELM在训练过程中,选择激活函数过程中可以选择不可微函数。;

4)ELM算法训练过程并不复杂。ELM只需要三步就可以完成整个的学习过程。

6.png

三、算法优化

在医疗诊断、故障诊断、欺诈检测等实际领域中,不同的分类错误会产生不同的代价。而传统分类算法,如决策树、贝叶斯、神经网络、支持向量机、k-近邻等,致力于提高分类精度,而未考虑代价因素(即假设所有误分类具有相同代价),使得传统分类器的应用受到了限制。

代价敏感学习最初的研究只关注于误分类代价,然而代价的多样性赋予着代价敏感学习具有着更丰富的内涵。代价类型可详细归纳为:误分类代价(Cost of Misclassification Errors)、测试代价(Cost of Tests)、指导代价(Cost of Teacher)、干预代价(Cost of Intervention)、副作用代价(Cost of Unwanted Achievements)、计算代价(Cost of Computation)、样本获取代价(Cost of Cases)、人机交互代价(Human-Computer Interaction Cost)和不稳定性代价(Cost of Instability)等。以下对代价敏感学习的研究主要涉及误分类代价和拒识代价。

在机器学习领域,代价敏感学习的相关研究已有很多,传统分类算法都已经发展出对应的代价敏感版本。代价敏感分类的实现方法主要分为两类:直接设计代价敏感分类器和代价敏感元学习。

直接设计代价敏感分类器的方法有ICET 、代价敏感决策树、代价敏感神经网络、代价敏感SVM 等。代价敏感元学习方法主要包括采样法(Sampling)和阈值法(Thresholding),其中采样法又可进一步分为过采样(Over-sampling)和欠采样(Under-sampling)。对于代价敏感学习,欠采样通常优于过采样,可通过代价曲线分析其原因。

代价敏感数据挖掘智慧健康中应用比较广泛,例如:在癌症预测分类中,错误识别一个“癌症患者”的诊断结果将会以再次诊断为代价;而错误识别一个“健康人”的诊断结果不仅包括再次诊断的代价,还包括由于延误治疗而造成的病情恶化。

显然,后者的代价要高于前者。因此,将代价参数考虑进代价敏感学习中是具有一定现实意义的。数据进行癌症分类时为了解决现实世界中的需要,将考虑误分类代价参数嵌入分类算法中。

代价敏感学习目的:代价高的一类更多预测准确(例如癌症患者更多预测准确,宁错别放过)。

以下提出了一种分类器的设计思路:首先构造一个定值代价的代价敏感分类器,进而在测试集中以总体代价最小为目标选择出使分类器总体代价最小的代价参数,最终输出分类结果。如此,解决此类任务的过程也可被认为是对两类样本误分类代价的折中。即,不同的错分有着不同的代价。

算法优化将改变最终的决策函数,极限学习机算法优化中,将误分类代价参数c*给每类训练样本加权,进而按权值采样重构训练集。这时,残差可表示为

Clipboard Image.png
Clipboard Image.png

那么训练一个代价敏感极限学习机也就是计算训练误差c*E的最小范数:

Clipboard Image.png

将式转化为

Clipboard Image.png

因此,利用最小二乘的方法计算得到输出权重

Clipboard Image.png

其中:称为代价敏感极限学习机的隐层输出矩阵

Clipboard Image.png

最小二乘法求取代价敏感极限学习机的最优输出权值,极限学习机的优化目标是最小化误差,最小化:

Clipboard Image.png
Clipboard Image.png

通过KKT条件,可以转化为拉格朗日乘子的形式

Clipboard Image.png

将KKT条件分别求偏导,得到:

Clipboard Image.png
Clipboard Image.png
Clipboard Image.png

得到代价敏感极限学习机的决策函数为:

Clipboard Image.png

通过对常规极限学习机分类模型与代价敏感优化后的模型进行比较得出如下结果。

Clipboard Image.png

如图所示,上述为:健康人(class one)样本的误分类价为1,癌症患者(class two)的误分类代价为5时(癌症患者被错误分类诊断所牺牲的代价远远大于健康人误诊为病人), 上图为常规分类模型,C=2 分类模型,C=5的分类模型(相当于在算法中嵌入代价因子,这里不具体说明方法)。

相比于常规分类模型,两种分类模型:分类模型C=2和分类模型C=5分类的中心线都向左偏移,靠近误分类代价较小的健康人的样本。

在癌症代价为5的情况下,几乎代价高的癌症患者全部正确分类。这说明代价敏感分类模型尽管总的误分类数有所提高,但是降低了误分类代价较高的癌症患者样本的误分类率。上图说明代价高的一类更多预测准确(癌症患者更多预测准确,宁错别放过)。这也就是代价敏感数据挖掘的意义。

因为目前非结构化的数据越来越多,以及各个业务点的需求不同,未来在不同领域会有更多的针对性算法出现,人工智能方面涉及到的算法也很繁琐,有问题欢迎大家到社区的数据挖掘与人工智能板块提问。

以上是本次的微信分享,谢谢大家。


咖啡姐好的,感谢张聪老师给大家带来的精彩分享,老师真是辛苦了,讲解的很细致,给大家准备了很多案例,现在就要进入自由提问时间了,对今晚分享内容有疑问或自己在做BI的过程中有哪些疑问,都可以把问题在天善社区提问https://ask.hellobi.com/question/,让张聪老师来消除你心中的疑惑!


友情提示:天善智能是国内最大的商业智能BI、数据分析、大数据领域社区,欢迎大家登陆天善学院有更多免费行业专家数据库,商业智能BI,数据分析,大数据,数据挖掘视频和干货好文分享。

Friday BI Fly:每周一个主题,一场跟数据有关的行业、工具、技术的交流盛宴。我们的口号是“Friday BI Fly 周五BI飞起来”。 Friday BI Fly 微信直播活动目前已举办30期,往期分享内容包括:【金融行业、零售行业、旅游行业、大数据挖掘、大数据落地、数据分析师、数据治理、大数据征信、风控管理、Python实战、用户画像、数据治理、数据架构、R语言等】。


今天的微信直播活动到这里就结束了,喜欢天善智能的朋友们请继续关注我们,每周五晚8:30,我们不见不散哦!


下期预告:

2016年09月23日晚8点半微信直播交流互联网行业数据化运营最佳实践第33场  https://www.hellobi.com/event/101


每周 Friday BI Fly 微信直播参加方式,加个人微信:fridaybifly,并发送微信:公司+行业+姓名,即可参加天善智能微信直播活动。

天善智能 www.hellobi.com 是一个专注于商业智能BI、数据分析、数据挖掘和大数据技术的垂直社区平台(国内唯一的数据类技术问答社区、博客、在线学院)。

天善智能拥有国内最大的数据领域社群组织,每周五晚上 8:30 Friday BI Fly 40+ 微信群同步直播行业和大数据技术交流。

Saturday BI Fly北上广深以及全国其它各个城市 200-500人规模的大数据沙龙活动。

Clipboard Image.png

关注天善智能,关注大家都在关注的大数据社区

推荐 3
本文由 天善智能 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册