免费信息发布

NLPIR技术为自然语言中文分词止痛

来源:灵玖软件 浏览:218次 时间:2017-12-06

  随着商业智能、预测分析、智能硬件等应用的不断普及,非结构化数据,尤其是自然语言处理与理解,作为人工智能与人机交互必不可少的核心技术,正被越来越多地重视和应用。其中词法分析是自然语言处理的基础与关键。

  中文分词方法可粗略分为两大类:第1类是基于语言学知识的规则方法,如:各种形态的最大匹配、最少切分方法、以及综合了最大匹配和最少切分的N-最短路径方法。第2类是基于大规模语料库的机器学习方法,这是目前应用比较广泛、效果较好的解决方案。用到的统计模型有N元语言模型、信道-噪声模型、最大期望、隐马尔科夫模型等。

  NLPIR/ICTCLAS分词系统是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,具有深度学习、高效、语义的特点,可以支持中英文分词与词性标注,可视化系统可根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词等实词为显著的颜色。系统还支持在线用户词典的输入,用户可以在右下方添加用户词及词性。

  汉语词法分析能对汉语语言进行拆分处理,是中文信息处理必备的核心部件,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。

  NLPIR/ICTCLAS2016分词系统主要功能介绍

  1)中英文混合分词功能

  自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。

  2)关键词提取功能

采用交叉信息熵的算法自动计算关键词,包括新词与已知词。

  3)新词识别与自适应分词功能

  从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。

  4)用户专业词典功能

  可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。

  5)微博分词功能

  对博主ID进行nr标示,对转发的会话进行自动分割标示(标示为ssession),URL以及Email进行自动标引。

  分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。而NLPIR/ICTCLAS分词系统很好的解决了这个问题,兼顾了分词的准确性和速度,达到了很很高的技术水平。