明日情报

查看详情

进展自动跟踪

在大数据时代,与科技相关的各类文献和互联网信息呈爆炸性增长,要从中迅速发现高价值情报、准确把握发展态势,必须大力发展科技情报挖掘技术。前沿科技项目及进展信息自动抽取技术是科技情报挖掘技术体系中知识库构建技术的重要组成。

互联网信息中包含大量前沿科技项目及相关进展的信息,基于这些信息可以挖掘国外科研活动,发现有价值的情报。本技术旨在研发技术手段,从互联网等公开来源信息中发现前沿科技项目(包括基金、计划等)名称,挖掘项目属性和进展信息,为构建前沿科技情报对象库提供支撑。

项目名称识别技术
针对英文前沿科技领域文本信息,研发前沿科技项目名称的自动识别算法,涉及的实体指称包括项目、基金、计划等。

项目名称归并和链接技术
针对英文前沿科技领域文本信息,研发对项目名称进行归并和链接的算法,对于项目名称进行规范化,并将其与知识库进行有效关联。

项目常见属性抽取技术
针对英文前沿科技领域文本信息,研发抽取项目主要内容、发布机构、参与机构、参与人员等常见属性的算法。

项目事件识别技术
针对英文前沿科技新闻数据,研究提出主要项目事件类型,研发项目事件识别算法。

项目产出文献搜集技术
针对指定项目,研发从互联网自动发现并搜集受该项目资助的科技文献的算法。

工具包
集成以上所有任务中提出的算法开发工具包,实现对前沿科技项目及进展信息的自动抽取。

知识图谱构建
利用项目成果,开展美、欧主要国家前沿科技项目及进展的自动抽取技术试验,构建一定规模的科技项目知识图谱。

项目名称识别的F1值高于0.9

名称归并和链接的F1值高于0.9

项目常见属性抽取F1值高于0.8

项目主要事件识别F1值高于0.8

应用工具包对英文前沿科技新闻数据同时执行2.1,2.2,2.3,2.4任务的效率高于10KB/s

工具包支持跨平台使用,提供支持Java或Python程序调用的API接口

构建的知识图谱中包含的项目实体不少于1万个,每个项目的属性平均不少于3个

采取随机采样的方式,标注不少于2000篇数据