随着信息技术的发展和数字时代的到来,大数据采集成为出版业新一阶段的发展方向。出版单位自身的固有资源已经远远不能满足用户对知识化服务的需求,亟需更多的信息获取渠道。目前,不少商务企业、科研机构、高等院校、出版机构、学术团体、政府部门等都在根据各自需要,不同程度地开发互联网资源采集系统,以便进行信息的获取和监管。
大数据采集技术的不断发展和完善为出版行业的语料库建设,知识挖掘等工作提供充分的内容基础。尤其在处理“一带一路”等无具体的知识领域属性、涉及多种行业且出版机构自有资源都不足以支撑时,更需要通过爬虫技术来采集多种语言的互联网资源。采集系统应该有完备的API,通过接口支持多个项目调用,同时服务于其他数字产品,提供数据支撑,充分体现系统的复用能力。
灵玖软件在新闻出版行业有着丰富的经验和成功的案例,数据采集技术非常成熟了,其主要特点是:
1、爬取模块
支持对静态页面、动态页面以及html5等多种类型站点的采集,在对知网等学术网站采集时,需要采回文章摘要页的信息,以及网站的分类树结构。检测目标网站的更新,并及时自动地爬取信息。在面对需要注册的网站时,可以通过帐号登陆等策略实现采集。模块需要支持对包括中文、英文以及其他语种外文网站的采集。
2、管理模块
支持用户对采回结果进行手动的增、删、改、查等操作,对条目进行编辑和添加到某一分类或主题中。根据数字产品建设的实际需要,对采回资源进行自动分类(例如:基于词表或基于模型的自动分类)等处理,方便将资源推荐给相关主题的分类,帮助用户快速筛选可用信息,并方便将分类好的信息批量的通过接口分发到其他产品。
3、数据传输模块
采集系统同时与多个项目对接数据,在接口和传输逻辑的设置上应该满足同时为多个项目服务。分发功能还应该支持将选定资源列表、主题或分类下的资源批量分发给相应数据库,并确保效率和稳定性。