免费信息发布

大数据挖掘 灵玖NLPIR系统实现自然语义智能挖掘

来源:灵玖软件 浏览:339次 时间:2017-03-08

  自然语言,作为人类情感思想最基本、最直接、最方便的表达工具,无时无刻不充斥在世界的每个角落。随着信息时代的到来,越来越多的自然语言被以各种方式记录下来,是我们面对最多的数据类型。然而,由于自然语言的多样性、灵活性与广泛性,在过去我们并无合适的处理手段,自然语言处理技术近几十年来的迅猛发展,特别是近年来基于统计和机器学习手段的兴起,为解决这一高难应用领域带来曙光。

  文本挖掘(Text Mining)是数据挖掘以及自然语言处理技术衍生的一个分支,挖掘对象通常是非结构化的文本数据,常见的文本挖掘对象包括网页所产生的BBS留言、博客、微博、新闻跟贴与转贴等。此外,拥有大型呼叫中心或邮件系统的企业,call center或mail积攒下来的大量语言记录也可以通过文本挖掘获得众多具有商业价值的知识。

  NLPIR大数据挖掘平台是灵玖软件针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,专门针对原始文本集进行智能处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。

  NLPIR大数据挖掘平台中文自然语言处理的关键技术

  1、 词法分析

  词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。

  2、 句法分析

  对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。

  3、 语义分析

  基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。

  4、 语用分析

  相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。

  5、 语境分析

  对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。