NLPIR智能平台结合自然语言理解预测行业发展

浏览: 1308

  随着大数据、深度学习、云计算这三大要素推动,从初步的应用到搜索、聊天机器人上,到通过对上下文的理解,知识的把握,自然语言处理技术将迎来进步最快的一个时期。国内 NLP领域的创业公司不断进行其商业化探索。

  自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。

  自然语言理解技术的含义:

  首先, 自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如, 但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式彻底说清楚。传统的语言学是在没有计算机参照的条件下发展起来的, 虽然为自然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知识变成计算机上可操作的, 绝不是那么简单, 也不能那么模糊。这个目标的实现,需要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一起做非常大规模的基本建设, 绝不是一拍脑袋想出个“绝招”就能解决的。

  其次, 自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,有一字多音、一音多字的问题; 在词法和句法层次上, 有词类词性、词边界、句法结构的不确定性问题; 在语义和语用层次上, 也有大量的因种种原因造成的内涵、外延、指代、言外之义的不确定性。语言学上把这些不确定性叫做“歧义”。歧义一般不能通过发生歧义的语言单位自身获得解决, 而必须借助于更大的语言单位乃至非语言的环境背景因素和常识来解决。人类有很强的依靠整体消除局部不确定性的能力和常识推理能力, 体现在语言上就是利用语境信息和常识消除歧义的能力。使计算机获得同样强大的能力, 是从事自然语言理解的学者梦寐以求的目标。

  另外, 自然语言不是一成不变的死的语言, 它在社会生活中发展, 在操不同语言和同一语言的不同变体的人们之间的相互影响中变化。一个词、一个说法可能在一夜之间突然流行起来; 特殊的人群结构变化会导致新的语言或新的语言变体 (如方言) 的出现。这些都要求理解自然语言的计算机程序要具有对外界语言环境的应变能力。

  最后一点, 自然语言是人们交流思想的工具。既然交流的是思想, 那思想本身在计算机里的组织结构就显得格外重要。在人工智能里, 这就是“知识表示”的问题。可以说, 在知识表示问题上的突破, 对于自然语言理解的进展将产生决定性的影响。

  北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

  NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。

  自然语言处理已成为大数据技术最重要的应用,它从大数据中提取、挖掘对业务发展有价值的、潜在的知识,找出趋势,为决策层提供有力依据,对产品或服务发展方向起到积极作用,将有力推动企业内部的科学化、信息化管理。在信息管理领域,综合应用数据分析技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。

推荐 0
本文由 ljrj123 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册