Internet的出 现,将人类带入了信息化时代。信息化时代的最大特点是信息的交流方式发生了极大的变化,大量的信息以文本文件(多媒体)的数字方式存储和web浏览的方式 进行服务。文本型数据的快速增长,文本挖掘的重要性也日益增强,文本挖掘已经成为数据挖掘的一个重要研究分支,也成为信息服务向知识服务过度的必不可少的工具。
文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
灵玖软件NLPIR大数据中文文本语义挖掘系统一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。其主要技术功能是:
1 文本基本处理
1.1 中文分词
1) 基于规则的常见的就是最大正/反向匹配,以及双向匹配。
2) 规则里糅合一定的统计规则,会采用动态规划计算最大的概率路径的分词
以上说起来很简单,其中还有很多细节,比如词法规则的高效匹配编译,词库的索引结构等。
3) 基于传统机器学习的方法 ,以CRF为主,也有用svm,nn的实现,这类都是基于模型的,跟本文一样,都有个缺陷,不方便增加用户词典(但可以结合,比如解码的时候force-decode)。
深度学习方法
深度学习主要是特征学习,端到端训练, 适合有大量语料的场景。另外各种工具越来越完善,利用GPU可大幅提高训练速度。
1.2 语言模型
语言模型是用来计算一个句子产生概率的概率模型,即P(w_1,w_2,w_3…w_m),m表示词的总个数。
随着深度学习的兴起,神经网络语言模型也变得火热。它也是基于N-Gram的,首先将每个单词w_{m-n+1},w_{m-n+2} …w_{m-1}映射到词向量空间,再把各个单词的词向量组合成一个更大的向量作为神经网络输入,输出是P(w_m)。
2 文本语义分析
在一个社会网络中常有节点之间的信息交流。可以对这种社会网络进行分析的一种强大的用来获得和理解文本信息的技术被称为语义网消息传输分析(语义分析)。作为一个在人工智能和计算语言学的方法,它为知识推理和语言提供了一个结构和过程。
一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。文本语义分析主要通过:主题模型、词向量,句向量、卷积神经网络等技术实现的。
目前文本、语义和社交分析技术已经包括金融、医疗、传媒、电商在内的在多个行业得到广泛应用,企业从海量的互联网和企业内部数据,包括文本、视频等结构化和非结构化数据中提取那些能提高决策质量的有用信息和情报。