高校师生进行论文写作时,经常对研究对象进行文本分析,需要提取其中有价值的信息,进一步进行词频统计、关键词统计、文本聚类、文本分类、情感分析等操作,目前市面上没有完整的处理工具,而NLPIR-Parser集成了以上全部功能,可为各位学生、学者提供全链条的文本挖掘与分析处理服务。
一、NLPIR功能简要说明:
NLPIR大数据语义智能分析技术是北京理工大学大数据搜索与挖掘实验室张华平主任研发的满足大数据挖掘对语法、词法和语义的综合应用技术。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
二、NLPIR-Parser毕业论文中应用场景
1. 新闻传播专业:大数据新闻分析,用于论文中信息抽取、词频统计、关键词分词、情感分析、文本摘要、实体抽取等
2. 计算机技术相关专业:论文中大数据分析、自然语言处理、人机交互程序构建。
3. 经济管理相关专业:论文中信息采集、信息抽取、数据分析、人名地名机构名抽取、聚类分类分析、情感分析等。
4. 知识产权专业:论文中所需知识产权提取、摘要、实体抽取等。
5. 图情、信息管理专业:论文中大数据采集、文本聚类、文本分类、文本转换、全文检索、新词发现、词典编篡等
6. 地理、测绘专业:实体信息抽取、地理位置描点
7. 其他专业:文本信息抽取、词频、关键词统计、聚类分类、文本摘要等
三、核心功能介绍
一 精准采集 一
对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。
一 新词发现 一
从文本中挖掘出新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。
一 批量分词 一
对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
一 语言统计 一
针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语,会自动给出相应的英文解释。
一 文本聚类 一
能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。
一 文本分类 一
根据规则或训练的方法对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。
一 摘要实体 一
对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。
一 智能过滤 一
对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。
一 情感分析 一
针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。
一 文档去重 一
快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。
一 全文检索 一
支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。
一 编码转换 一
自动识别内容的编码,并把编码统一转换为其他编码。
针对目前高校论文写作群体的总体需求,我们推出适用的一个月短期授权,并给予相应的优惠政策,详情请加微信咨询(请注明学校和姓名)。
可视化演示网址ictclas.nlpir.org/nlpir/
下载地址github.com/NLPIR-team/NLPIR