明日情报

查看详情

自适应结构化采集

在大数据时代,与科技相关的各类文献和互联网信息呈爆炸性增长,要从中迅速发现高价值情报、准确把握发展态势,必须大力发展科技情报挖掘技术。网站信息自适应结构化采集技术是科技情报挖掘技术体系中信息监测与采集技术的重要组成。

针对网络信息开发利用,传统的整站采集方式存在采集信息混杂、无法直接使用的问题,而结构化采集方式又存在人工投入成本高、工作效率低的问题。本技术旨在研发技术手段,自动判别网站页面类型,并据此进行网页的自动结构化抽取,提高网络信息的采集与利用效率。

网页类别自动判别技术
研发网站频道页、列表页、内容页、无效(错误等)页的自动判断算法,实现基于给定网址或HTML源代码判断网页所属类别。

网页关键元素自动提取技术
研发网站列表页关键元素(标题、发布日期、频道栏目名称等)和内容页关键元素(包括标题、发布日期、频道栏目名称、正文、首图)的自动提取和融合算法,实现自动获取网站列表页和内容页的准确结构化信息。提取的日期信息应该标准化。

工具包
集成以上所有任务中提出的算法开发工具包。

网站页面类型自动判断准确率高于90%,自动判别速度需超过100KB/s

网站列表页、内容页关键元素的自动提取F1值高于0.8,速度需超过10KB/s

工具包支持跨平台使用,提供支持Java程序调用的API接口,提供Web Service接口

采取随机采样的方式,标注不少于1000个网页