明日情报

查看详情

技术识别与抽取

在大数据时代,与科技相关的各类文献和互联网信息呈爆炸性增长,要从中迅速发现高价值情报、准确把握发展态势,必须大力发展科技情报挖掘技术。前沿科技技术识别及描述抽取技术是科技情报挖掘技术体系中知识库构建技术的重要组成。

科技文献和互联网信息中包含大量技术名称和术语,以及相关的各类描述信息。例如,关于纳米技术的定义、功用、属性等描述就广泛散落在各类科技文献和网络信息中。本技术旨在研发技术手段,从英文文本中自动识别技术名称与术语,从中发现同义和层次关系,并抽取、归并关于定义、功用和属性在内的各类描述信息,为构建前沿科技情报对象库提供支撑。

技术名称与术语识别技术
针对英文前沿科技领域文本信息,研发高效识别技术名称与术语的算法。在有相关词表支撑时该算法能利用词表提高识别效果。

技术归并与层次关系构建技术
针对英文前沿科技领域文本信息,研发发现技术或术语同义、上下位关系的算法。同义关系应能区分通用名称、别名、缩写等情况。

技术属性与描述抽取技术
构建包含技术定义、功用及性能、稳定性、可扩展性、安全性等特征在内的技术描述框架。针对英文前沿科技领域文本信息,研发抽取、归并技术定义、功用及描述框架中特征的算法。

工具包
集成以上所有任务中提出的算法,开发工具包。

知识图谱构建
基于用户方提供的数据,开展前沿科技技术识别与描述抽取试验,构建一定规模的技术知识图谱。

技术名称与术语识别F1值高于0.8,识别效率超过10KB/s

技术描述框架中性能、稳定性等特征不少于10个

技术定义、功用、特征抽取F1值高于0.8,抽取效率超过10KB/s

工具包支持跨平台使用,提供支持Java或Python程序调用的API接口

构建的知识图谱中包含的前沿科技相关技术名称与术语不少于20万个,属性与描述不少于100万个

采取随机采样的方式,标注不少于500 篇新闻数据、500篇科技文献数据