NLPIR文本分析工具的功能和特色介绍

通常用于研究分析的数据中，非结构化的数据所占比例更高，这些非结构化的数据中也包含着重要的信息量，要运用文本分析工具来完成信息提取。文本分析是自然语言处理的一个小分支，是指从文本中抽取特征词进行量化以表示文本信息，文本一般指文字。过程是将无结构化的原始文本转化为结构化，高度抽象和特征化，计算机可以识别和处理的信息，进而利用机器学习，分类聚类等算法，再对文本进行分析处理。现已经在产品推荐和舆情监测方面实现应用。

NLPIR大数据语义智能分析平台十三大功能：

准确采集：对境内外互联网海量信息实时采集，有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。

文档转化：对多种主流文档格式，进行文本信息转化，效率达到大数据处理的要求。

新词发现：从文本中挖掘出新词、新概念，用户可以用于词典的编撰，还可以进一步编辑标注，导入分词词典中，提高分词系统的准确度，并适应新的语言变化。

批量分词：对原始语料进行分词，自动识别人名地名机构名等未登录词，新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。

语言统计：针对切分标注结果，系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语，会自动给出相应的英文解释。

文本聚类：能够从大规模数据中自动分析出热点事件，并提供事件话题的关键特征描述。同时适用于长文本和信息、微博等短文本的热点分析。

文本分类：根据规则或训练的方法对大量文本进行分类，可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

摘要实体：对单篇或多篇文章，自动提炼出内容摘要，抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

智能过滤：对文本内容的语义智能过滤审查，内置词库，智能识别多种变种：形变、音变、繁简等多种变形，语义准确排歧。

情感分析：针对事先指定的分析对象，系统自动分析海量文档的情感倾向：情感性质及情感值测量，并在原文中给出正负面的得分和句子样例。

文档去重：快速准确地判断文件或数据库中是否存在相同或相似内容的记录，同时找出所有的重复记录。

全文检索：支持文本、数字、日期、字符串等各种数据类型，多字段搜索，支持AND/OR/NOT以及NEAR邻近等查询语法，支持维语、藏语、蒙语、韩语等多种少数民族语言的检索。

编码转换：自动识别内容的编码，并把编码统一转换。

NLPIR大数据语义智能分析平台是一个全链条的分析工具，完全本地化部署，不上传用户数据。包含网络准确采集、自然语言理解、文本挖掘和网络搜索的技术，提供客户端工具、云服务以及二次开发接口，包含了大数据背景下有关语义分析的各个环节的工具，无论对没有任何编程背景但要大量处理语言、媒体信息的文科生辅助处理分析，还是对需要二次开发才能完成特定领域的信息服务都可以满足要求。平台先后历时20年，融入了20年的科研成果。服务了全球40万家机构用户和100余家高校用户，免费给研究人员从事研究工作。

NLPIR文本分析工具的功能和特色介绍

推荐资讯