免费信息发布

灵玖软件:NLPIR全文精准检索文本数据

来源:灵玖软件 浏览:222次 时间:2017-12-20

  互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。在针对大数据的搜索中,普通的检索技术能在一定程度上满足对大数据的搜索需求,但结果可能会包含大量无关、冗余的信息,信息粒度偏大。用户需要提炼自己的需求,并以适当的关键词表达出来,但这对没有检索经验的普通用户来说有一定难度。

  在检索系统中,结果合并要占用很多时间。如果切分的粒度过小,在结果合并的时候就要花费更多的时间。对于基于字切分的检索系统来说,在查询表达式比较长且二字词较少的情况下,检索效率要比基于词切分的检索系统低很多。

  信息检索涉及信息检索、信息过滤、文本分类、自动文摘等相关技术,它是在信息检索基础上的细化;新信息检测具有时序性,即对于内容相同或相近的句子,最新出现的应被检出(先前出现的相似内容属过时信息)。

  信息检测是一个复杂的问题,它涵盖了浅层语言分析、文档检索、句子检索、新信息检测等四个过程,且每个环节都存在着多种变化因素。各种各样的因素都会直接或者间接地影响着新信息检测的最终性能,甚至说某个技术环节的小技巧都很可能提高或者降低最终性能。

  语言模型是一种基于概率的检索模型,它认为每个文档对应一个统计语言模型(称为文档语言模型),描述了该文档中各个单词的统计分布特征,而每个文档看作是由其语言模型抽样产生的一个样本。语言模型对文本检索的准确率有至关重要的作用。

  NLPIR文本搜索与挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。

  NLPIR全文精准检索系统内核是经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。

  同时,全文精准检索可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。

  其主要特色在于:

 1、可以按照任意指定字段的排序,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;

 2、支持精确匹配以及模糊匹配,默认为精确匹配,忽略字母大小写进行模糊匹配;

 3、实现的是多线程搜索服务;

 4、每秒可索引3000条记录(主要瓶颈为数据库或文件记录的读取效率);搜索速度在毫秒级别。

 5、兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。

  目前常用的互联网搜索引擎系统,考虑到应用的需求,没有对数据库的内容有效管理和储存。而许多网站的页面,很多是通过程序动态生成的,或者是存储在后台数据库中的,格式多样。NLPIR全文精准检索系统考虑到实际应用需要,除了具备搜索引擎系统具备的采集功能外,还实现信息数据分类精准,极大的提高了数据挖掘的效率。