随着互联网的快速发展,产生了大量的数据,而对于企业、个人或政府单位对相关数据的挖掘造成了很大的困难,由于大数据技术的产生和发展,为大数据的精度挖掘提供了很大的帮助。
大数据挖掘的根本意义在于从数据中提炼出有价值的信息,针对这些信息创造出洞察,再根据这些洞察并结合现状做出决定,依决定去执行,将大数据带来的机遇变为收获和成就。
大数据是一个非常大的概念,我们在这里把讨论范围聚焦在文本大数据上。相对于传统的结构化数据,业界已经做了大量的积累,对于数据的获取、存储、处理、检索等已经具备了相当多的技术储备。但是对于非结构化的大数据,特别是文本大数据,业界正在持续加大投入。
在文本大数据的源头方面,除了企业或机构内部的数据,互联网是一个巨大的来源。从互联网受众来讲,中国互联网拥有全球人数最多的网民。据中国互联网信息中心CNNIC发布的第37次《中国互联网络发展状况统计报告》中显示,截至2015年12月,中国网民规模达6.88亿,互联网普及率为50.3%;手机网民规模达6.2亿,占比提升至90.1%。在当今的这个自媒体时代,信息的传播也发生了巨大的改变,不仅量发生了爆炸式的增长,内容也更加多样化。
文本大数据处理的第一个环节就是能够迅速地获取这些数据,不论是机构内部的数据,还是互联网上相关的数据,在第一时间获取这些数据,并且是全量的数据,才是数据挖掘的根本。第二个环节就是在这些数据中进行挖掘,通过各种创新的分析工具和手段将其整合为有价值的分析结果。
NLPIR文本搜索与挖掘智能系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。
NLPIR文本搜索与挖掘智能系统文本分析是最重要的环节,包括语法分析、语义分析、句法分析。
(1)语法分析:借助于知识库中的词典和文法规则对输入的文本信息进行语法分析,确定词形和词义,切分句子并找出词间句法上的联系,以一种数据结构描述这些联系,如文法结构树。
(2)语义分析:将句子孤立于所处的环境仅从字面上分析意义。最主要的方法是进行文本标注,通过标注表示词之间的前后依赖关系、句之间语义衔接关系、段之间语义聚合或转移关系,运用领域知识库所描述的知识,把语义标注转换为机器能"理解"的语义网络。
(3) 句法分析:分析文献中的每个词,给出它对全文的贡献,包括修辞、句法和语义知识及文献的话语结构属性。这种方法采用了复杂的自然语言理解和生成技术,对文献意义把握更准确,因此摘要质量较好,具有简洁精练、全面准确、可读性强等优点。
文本大数据的应用领域非常广泛,政府机构和企业非常关心的互联网舆情监测与预警,已经成为一个比较普遍的应用。企业口碑监测分析、竞争情报分析、精准营销、人物画像、企业画像、行业市场研究、客户满意度分析、风险评估、产品及业务流程优化等等多个应用场景也是以文本大数据挖掘为核心的。