明日情报

查看详情

谱系自动构建

在大数据时代,与科技相关的各类文献和互联网信息呈爆炸性增长,要从中迅速发现高价值情报、准确把握发展态势,必须大力发展科技情报挖掘技术。基于开放文本的人员与机构谱系自动构建技术是科技情报挖掘技术体系中知识库构建技术的重要组成。

互联网信息中包含大量人员、机构的属性以及隶属关系等信息,基于这些信息可以挖掘人员和机构之间的关系,发现有价值的情报。本技术旨在研发技术手段,从前沿科技开放英文文本中识别、归并人名和机构名,发现人与机构、机构与机构之间的关系,并结合维基百科、领英等数据构建前沿科技人员和机构谱系,为构建前沿科技情报对象库提供支撑。

人名、机构名识别技术
针对英文前沿科技领域文本信息,研发从中高效识别人名和机构名的算法。

人名、机构名归并与实体链接技术
针对英文前沿科技领域文本信息,研发对识别的人名和机构名进行归并并将其链接到维基百科、领英等知识库的算法。

机构之间关系抽取技术
针对英文前沿科技新闻数据,研究提出机构之间的主要关系类型,研发针对这些关系的抽取算法。要求抽取的关系带有时间属性(即在该时间点或时间区间该关系存在)。

人员与机构之间关系抽取技术
针对英文前沿科技新闻数据,研究人员与机构之间的主要关系类型,研发针对这些关系的抽取算法。要求抽取的关系带有时间属性(即在该时间点或时间区间该关系存在)。

人员与机构属性抽取技术
研究制定人员与机构属性描述schema。针对维基百科、领英等数据,研发人员属性和机构属性的抽取算法。

工具包
集成以上所有任务中提出的算法开发工具包,实现前沿科技人员与机构谱系自动构建与更新。

知识图谱构建
利用项目成果,开展前沿科技人员与机构谱系自动构建试验,构建一定规模的人员与机构知识图谱。

人名识别F1值高于0.95,机构名识别F1值高于0.9

人名、机构名实体链接F1值高于0.85

抽取不少于5种机构与机构关系,F1值高于0.8

抽取不少于5种人员与机构之间关系,F1值高于0.8

应用工具包对英文前沿科技新闻数据同时执行2.1,2.2,2.3,2.4任务的效率高于10KB/s

工具包支持跨平台使用,提供支持Java或Python程序调用的API接口

构建的知识图谱中与前沿科技相关的机构实体不少于3万个、人员实体不少于20万个,每个机构和人员的属性平均不少于4个

采取随机采样的方式,标注不少于1000篇新闻数据