NLPIR语义分析系统不断提高中文分词准确率

计算机的发展带来了各种数据积累，做好文本分析对发展企业本身业务，调整企业发展模式，树立正确企业定位都将产生很大的影响。随着文本分析应用范围的不断增加，文本分析研究热度不断上升，作为文本分析中最关键的环节，提高中文分析准确率也成为提升文本分析技术的重要方面。

文本分析的应用范畴和应用模式在增加，其研究的准确度也在不断提升。NLPIR-Parser大数据语义智能分析平台经过20余年的积累，融合了网络数据采集、自然语言处理、文本挖掘与文本检索等核心技术，完成了从数据的采集预处理、自然语言处理到文本挖掘、信息检索再到可视化呈现、结果导出等全链条各个环节的语义分析工具。

NLPIR大数据语义智能分析平台十三大功能：

精准采集：对境内外互联网海量信息实时精准采集，有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。

文档转化：对doc、excel、pdf与ppt等多种主流文档格式，进行文本信息转化，效率达到大数据处理的要求。

新词发现：从文本中挖掘出新词、新概念，用户可以用于专业词典的编撰，还可以进一步编辑标注，导入分词词典中，提高分词系统的准确度，并适应新的语言变化。

批量分词：对原始语料进行分词，自动识别人名地名机构名等未登录词，新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。

语言统计：针对切分标注结果，系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语，会自动给出相应的英文解释。

文本聚类：能够从大规模数据中自动分析出热点事件，并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

文本分类：根据规则或训练的方法对大量文本进行分类，可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

摘要实体：对单篇或多篇文章，自动提炼出内容摘要，抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

智能过滤：对文本内容的语义智能过滤审查，内置国内最全词库，智能识别多种变种：形变、音变、繁简等多种变形，语义精准排歧。

情感分析：针对事先指定的分析对象，系统自动分析海量文档的情感倾向：情感极性及情感值测量，并在原文中给出正负面的得分和句子样例。

文档去重：快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录，同时找出所有的重复记录。

全文检索：支持文本、数字、日期、字符串等各种数据类型，多字段的高效搜索，支持AND/OR/NOT以及NEAR邻近等查询语法，支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。

编码转换：自动识别内容的编码，并把编码统一转换为其他编码。

NLPIR大数据语义智能分析平台为一般用户提供了本地化部署的客户端实现语义智能分析的全链条一站式服务，也为软件工程师提供了二次开发接口。现已服务了全球40万家机构用户和百余家高校科研院所，为自然语言的研究者与工程应用提供了便利的技术支持，运用人工智能技术和数据分析技术，不断提高信息管理领域知识处理的有效性。

NLPIR语义分析系统不断提高中文分词准确率

推荐资讯